BÀI HƯỚNG DẪN CÀI ĐẶT HOÀN CHỈNH – TỪ SỐ 0 → CHẠY ĐƯỢC GUI
OK 👍 dưới đây là BÀI HƯỚNG DẪN CÀI ĐẶT HOÀN CHỈNH – TỪ SỐ 0 → CHẠY ĐƯỢC GUI, viết theo kiểu làm theo từng bước, không cần suy nghĩ, không cần gõ linh tinh.
Mình viết đúng theo hệ thống đã chốt của bạn:
✅ Windows
✅ RTX 3050 8GB
✅ Whisper large-v2
✅ StyleTTS2
✅ Auto chunk mặc định
✅ GUI bấm là chạy
✅ Video ngắn không cắt – video dài tự cắt
📘 HƯỚNG DẪN CÀI ĐẶT HỆ THỐNG DỊCH & LỒNG TIẾNG VIDEO (OFFLINE – GUI)
1. YÊU CẦU TỐI THIỂU
Phần cứng
Windows 10 / 11 (64-bit)
GPU NVIDIA RTX 3050 8GB
RAM ≥ 16 GB (khuyên 32 GB)
Ổ cứng trống ≥ 30 GB
Phần mềm
Internet (chỉ cần lúc cài)
Không cần tài khoản trả phí
Không upload video ra ngoài
2. CÀI DRIVER & CÔNG CỤ CƠ BẢN
2.1 Cài NVIDIA Driver
Tải NVIDIA Studio Driver (khuyên dùng)
Cài xong → restart
Kiểm tra:
nvidia-smi
Nếu thấy RTX 3050 là OK.
2.2 Cài FFmpeg
Tải tại: https://www.gyan.dev/ffmpeg/builds/
Chọn ffmpeg-git-full.7z
Giải nén vào:
C:\ffmpeg
Thêm vào PATH:
C:\ffmpeg\bin
Kiểm tra:
ffmpeg -version
3. CÀI PYTHON & MÔI TRƯỜNG
3.1 Cài Python
Phiên bản: Python 3.10.11
Khi cài: ✔ tick Add Python to PATH
Kiểm tra:
python --version
3.2 Tạo thư mục project
Ví dụ:
D:\AI_Dubbing
Mở Command Prompt tại thư mục này.
3.3 Tạo môi trường ảo
python -m venv venv venv\Scripts\activate
Nếu thấy (venv) là đúng.
4. CÀI PYTORCH (GPU – CUDA)
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
Kiểm tra GPU:
python - <<EOF import torch print(torch.cuda.is_available()) print(torch.cuda.get_device_name(0)) EOF
👉 Phải ra True và RTX 3050.
5. CÀI WHISPER (NHẬN DIỆN GIỌNG NÓI)
5.1 Cài Whisper
pip install -U openai-whisper pip install ffmpeg-python
5.2 Test Whisper
python - <<EOF import whisper model = whisper.load_model("large-v2", device="cuda") print("Whisper OK") EOF
⏳ Lần đầu sẽ tải model (~3 GB).
6. CÀI STYLE TTS2 (LỒNG TIẾNG)
6.1 Clone StyleTTS2
git clone https://github.com/yl4579/StyleTTS2.git cd StyleTTS2
6.2 Cài thư viện
pip install -r requirements.txt
Nếu lỗi:
pip install librosa==0.10.1 soundfile einops transformers
6.3 Test StyleTTS2
python inference.py --text "This is a test voice." --output test.wav
Nghe được tiếng là OK.
7. CÀI DỊCH TIẾNG TRUNG → ANH (OFFLINE)
pip install sentencepiece transformers sacremoses
Test nhanh:
from transformers import pipeline
t = pipeline("translation", model="facebook/nllb-200-distilled-600M")
print(t("你好世界", src_lang="zho_Hans", tgt_lang="eng_Latn"))
8. CÀI GUI (QUẢN LÝ TẤT CẢ)
8.1 Cài PySide6
pip install pyside6
8.2 Cấu trúc project chuẩn
AI_Dubbing/
├─ venv/
├─ gui/
│ ├─ main.py (GUI chính)
│ ├─ worker.py (pipeline)
│ └─ signals.py
├─ pipeline/
│ ├─ whisper_step.py
│ ├─ translate_step.py
│ ├─ tts_step.py
│ └─ merge_step.py
├─ input_videos/
├─ output/
└─ config.yaml
👉 Bạn chỉ mở GUI, không chạy file lẻ.
9. CẤU HÌNH MẶC ĐỊNH (ĐÃ TỐI ƯU)
config.yaml (mẫu)
whisper:
model: large-v2
device: cuda
precision: float16
tts:
engine: styletts2
sample_rate: 22050
video:
auto_chunk: true
chunk_threshold_min: 12
chunk_size_min: 8
output:
subtitle: true
dub_audio: true
10. CÁCH SỬ DỤNG (RẤT ĐƠN GIẢN)
Mở GUI
Chọn video
Bấm START
Đợi chạy xong
Hệ thống sẽ:
Tự quyết định có cắt video hay không
Chạy Whisper → unload GPU
Dịch → CPU
Chạy StyleTTS2 → unload GPU
Ghép video + tiếng + sub
❌ Không cần gõ lệnh
❌ Không sợ tràn VRAM
11. XỬ LÝ VIDEO DÀI
Video ≤ 12 phút → không cắt
Video > 12 phút → tự cắt 8 phút / đoạn
Có resume nếu mất điện / lỗi
12. LỖI THƯỜNG GẶP & CÁCH SỬA
❌ CUDA out of memory
✔ Không chạy Whisper + TTS cùng lúc
✔ GUI đã xử lý tự động
❌ Librosa lỗi
pip install librosa==0.10.1
❌ Tiếng nhanh/chậm
✔ Giữ sample rate 22050 Hz
13. BẠN ĐÃ CÓ GÌ SAU KHI CÀI XONG?
✅ Dịch video tiếng Trung → tiếng Anh
✅ Lồng tiếng cảm xúc (anime / phim)
✅ Có hoặc không có subtitle
✅ Chạy offline 100%
✅ GUI bấm là chạy
✅ Không tốn tiền
🏁 KẾT LUẬN
Đây là bộ hướng dẫn hoàn chỉnh, đúng với nhu cầu của bạn, không dư – không thiếu, dùng được lâu dài.
Tags: AI

No comments: