SadTalker

SadTalker là công cụ AI giúp tạo video chân thực từ một ảnh tĩnh và một đoạn âm thanh. Công cụ này sử dụng mô hình 3D để mô phỏng chuyển động khuôn mặt và đồng bộ hóa môi của nhân vật với âm thanh đầu vào.

Trải nghiệm công cụ (Free) ⤵🎳

(Xem hướng dẫn bên dưới nếu bạn chưa biết cách)

😘😙😛 Hướng dẫn sử dụng chi tiết:

1️⃣ Chuẩn bị:

Ảnh tĩnh: Chọn ảnh chân dung chất lượng cao, rõ nét khuôn mặt. Ảnh nên có độ phân giải tốt và ánh sáng đầy đủ.
Âm thanh: Chuẩn bị một đoạn âm thanh với giọng nói rõ ràng và chất lượng tốt. Định dạng hỗ trợ: WAV hoặc MP3.

2️⃣ Tải lên dữ liệu:

Source Image (Ảnh nguồn): Kéo và thả ảnh tĩnh vào khu vực chỉ định hoặc nhấp để chọn từ máy tính.
Driving Methods (Phương pháp điều khiển):
- Audio only (Chỉ âm thanh): Sử dụng âm thanh để điều khiển chuyển động khuôn mặt.
- Audio/IDLE Mode + Ref Video: Sử dụng âm thanh và video tham chiếu để điều khiển cả chuyển động và biểu cảm.
- IDLE Mode only (Chỉ chế độ nghỉ): Tạo video với chuyển động nhỏ, không có âm thanh.
- Ref Video only (Chỉ video tham chiếu): Sử dụng video tham chiếu để điều khiển chuyển động và biểu cảm.
Input Audio (Âm thanh đầu vào): Kéo và thả tệp âm thanh hoặc nhấp để chọn từ máy tính.
Reference Video (Video tham chiếu - tùy chọn): Nếu bạn chọn chế độ kết hợp âm thanh và video tham chiếu, hãy kéo và thả video vào khu vực chỉ định.

3️⃣ Cài đặt (Settings):

Pose Style (Kiểu dáng điệu bộ): Điều khiển chuyển động đầu của nhân vật. Giá trị 45 thường cho kết quả tốt nhất.
Expression Scale (Mức độ biểu cảm): Điều chỉnh cường độ biểu cảm trên khuôn mặt.
Use eye blink (Sử dụng nháy mắt): Bật hoặc tắt tính năng nháy mắt tự nhiên.
Face Model Resolution (Độ phân giải mô hình khuôn mặt): Chọn giữa 256 (nhanh hơn) và 512 (chi tiết hơn).
Preprocess (Tiền xử lý ảnh):
- Crop: Cắt ảnh tập trung vào khuôn mặt.
- Resize: Thay đổi kích thước ảnh.
- Full: Sử dụng toàn bộ ảnh.
- extcrop, extfull: Tương tự crop và full nhưng cho phép tinh chỉnh thủ công.
Still Mode (Chế độ tĩnh): Giảm chuyển động đầu, chỉ hoạt động với chế độ "full".
Facerender (Công cụ kết xuất khuôn mặt): Chọn giữa facevid2vid và pirender.
Batch Size: Số lượng mẫu được tạo ra trong mỗi lần chạy.
GFPGAN as Face Enhancer (Nâng cao chất lượng khuôn mặt bằng GFPGAN): Bật tùy chọn này để cải thiện chất lượng hình ảnh khuôn mặt.

4️⃣ Tạo video (Generate):

Nhấp vào nút "Generate" (Tạo) để bắt đầu quá trình tạo video. Thời gian xử lý phụ thuộc vào độ phức tạp của ảnh và âm thanh, cũng như tải lượng server.

5️⃣ Xem và tải xuống:

Sau khi hoàn tất, video đã tạo sẽ được hiển thị ở phần "Generated video". Bạn có thể xem trước và tải xuống.

Mẹo sử dụng:

Chọn ảnh và âm thanh chất lượng cao: Điều này giúp cải thiện chất lượng video đầu ra.
Thử nghiệm với các cài đặt khác nhau: Tìm hiểu các tham số và thử nghiệm để tìm ra kết quả tốt nhất.
Tham khảo các ví dụ: Xem các ví dụ mẫu để hiểu rõ hơn về cách các tham số ảnh hưởng đến kết quả.
Sử dụng chế độ "Still Mode" cho ảnh chất lượng thấp: Nếu ảnh của bạn có chất lượng thấp, hãy bật chế độ "Still Mode" để giảm thiểu các vấn đề về biến dạng.

Lưu ý: