BÀI HƯỚNG DẪN CÀI ĐẶT HOÀN CHỈNH – TỪ SỐ 0 → CHẠY ĐƯỢC GUI



 OK 👍 dưới đây là BÀI HƯỚNG DẪN CÀI ĐẶT HOÀN CHỈNH – TỪ SỐ 0 → CHẠY ĐƯỢC GUI, viết theo kiểu làm theo từng bước, không cần suy nghĩ, không cần gõ linh tinh.

Mình viết đúng theo hệ thống đã chốt của bạn:

✅ Windows
✅ RTX 3050 8GB
✅ Whisper large-v2
✅ StyleTTS2
✅ Auto chunk mặc định
✅ GUI bấm là chạy
✅ Video ngắn không cắt – video dài tự cắt


📘 HƯỚNG DẪN CÀI ĐẶT HỆ THỐNG DỊCH & LỒNG TIẾNG VIDEO (OFFLINE – GUI)

1. YÊU CẦU TỐI THIỂU

Phần cứng

  • Windows 10 / 11 (64-bit)

  • GPU NVIDIA RTX 3050 8GB

  • RAM ≥ 16 GB (khuyên 32 GB)

  • Ổ cứng trống ≥ 30 GB

Phần mềm

  • Internet (chỉ cần lúc cài)

  • Không cần tài khoản trả phí

  • Không upload video ra ngoài


2. CÀI DRIVER & CÔNG CỤ CƠ BẢN

2.1 Cài NVIDIA Driver

  • Tải NVIDIA Studio Driver (khuyên dùng)

  • Cài xong → restart

Kiểm tra:

nvidia-smi

Nếu thấy RTX 3050 là OK.


2.2 Cài FFmpeg

  1. Tải tại: https://www.gyan.dev/ffmpeg/builds/

  2. Chọn ffmpeg-git-full.7z

  3. Giải nén vào:

C:\ffmpeg
  1. Thêm vào PATH:

C:\ffmpeg\bin

Kiểm tra:

ffmpeg -version

3. CÀI PYTHON & MÔI TRƯỜNG

3.1 Cài Python

  • Phiên bản: Python 3.10.11

  • Khi cài: ✔ tick Add Python to PATH

Kiểm tra:

python --version

3.2 Tạo thư mục project

Ví dụ:

D:\AI_Dubbing

Mở Command Prompt tại thư mục này.


3.3 Tạo môi trường ảo

python -m venv venv venv\Scripts\activate

Nếu thấy (venv) là đúng.


4. CÀI PYTORCH (GPU – CUDA)

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Kiểm tra GPU:

python - <<EOF import torch print(torch.cuda.is_available()) print(torch.cuda.get_device_name(0)) EOF

👉 Phải ra TrueRTX 3050.


5. CÀI WHISPER (NHẬN DIỆN GIỌNG NÓI)

5.1 Cài Whisper

pip install -U openai-whisper pip install ffmpeg-python

5.2 Test Whisper

python - <<EOF import whisper model = whisper.load_model("large-v2", device="cuda") print("Whisper OK") EOF

⏳ Lần đầu sẽ tải model (~3 GB).


6. CÀI STYLE TTS2 (LỒNG TIẾNG)

6.1 Clone StyleTTS2

git clone https://github.com/yl4579/StyleTTS2.git cd StyleTTS2

6.2 Cài thư viện

pip install -r requirements.txt

Nếu lỗi:

pip install librosa==0.10.1 soundfile einops transformers

6.3 Test StyleTTS2

python inference.py --text "This is a test voice." --output test.wav

Nghe được tiếng là OK.


7. CÀI DỊCH TIẾNG TRUNG → ANH (OFFLINE)

pip install sentencepiece transformers sacremoses

Test nhanh:

from transformers import pipeline t = pipeline("translation", model="facebook/nllb-200-distilled-600M") print(t("你好世界", src_lang="zho_Hans", tgt_lang="eng_Latn"))

8. CÀI GUI (QUẢN LÝ TẤT CẢ)

8.1 Cài PySide6

pip install pyside6

8.2 Cấu trúc project chuẩn

AI_Dubbing/ ├─ venv/ ├─ gui/ │ ├─ main.py (GUI chính) │ ├─ worker.py (pipeline) │ └─ signals.py ├─ pipeline/ │ ├─ whisper_step.py │ ├─ translate_step.py │ ├─ tts_step.py │ └─ merge_step.py ├─ input_videos/ ├─ output/ └─ config.yaml

👉 Bạn chỉ mở GUI, không chạy file lẻ.


9. CẤU HÌNH MẶC ĐỊNH (ĐÃ TỐI ƯU)

config.yaml (mẫu)

whisper: model: large-v2 device: cuda precision: float16 tts: engine: styletts2 sample_rate: 22050 video: auto_chunk: true chunk_threshold_min: 12 chunk_size_min: 8 output: subtitle: true dub_audio: true

10. CÁCH SỬ DỤNG (RẤT ĐƠN GIẢN)

  1. Mở GUI

  2. Chọn video

  3. Bấm START

  4. Đợi chạy xong

Hệ thống sẽ:

  • Tự quyết định có cắt video hay không

  • Chạy Whisper → unload GPU

  • Dịch → CPU

  • Chạy StyleTTS2 → unload GPU

  • Ghép video + tiếng + sub

❌ Không cần gõ lệnh
❌ Không sợ tràn VRAM


11. XỬ LÝ VIDEO DÀI

  • Video ≤ 12 phút → không cắt

  • Video > 12 phút → tự cắt 8 phút / đoạn

  • Có resume nếu mất điện / lỗi


12. LỖI THƯỜNG GẶP & CÁCH SỬA

❌ CUDA out of memory

✔ Không chạy Whisper + TTS cùng lúc
✔ GUI đã xử lý tự động

❌ Librosa lỗi

pip install librosa==0.10.1

❌ Tiếng nhanh/chậm

✔ Giữ sample rate 22050 Hz


13. BẠN ĐÃ CÓ GÌ SAU KHI CÀI XONG?

✅ Dịch video tiếng Trung → tiếng Anh
✅ Lồng tiếng cảm xúc (anime / phim)
✅ Có hoặc không có subtitle
✅ Chạy offline 100%
✅ GUI bấm là chạy
✅ Không tốn tiền


🏁 KẾT LUẬN

Đây là bộ hướng dẫn hoàn chỉnh, đúng với nhu cầu của bạn, không dư – không thiếu, dùng được lâu dài.




No comments:

 

© 2012 Học Để ThiBlog tài liệu