BÀI HƯỚNG DẪN CÀI ĐẶT HOÀN CHỈNH – TỪ SỐ 0 → CHẠY ĐƯỢC GUI

11:09:00 AM Được đăng bởi Trang Anh Nam

OK 👍 dưới đây là BÀI HƯỚNG DẪN CÀI ĐẶT HOÀN CHỈNH – TỪ SỐ 0 → CHẠY ĐƯỢC GUI, viết theo kiểu làm theo từng bước, không cần suy nghĩ, không cần gõ linh tinh.

Mình viết đúng theo hệ thống đã chốt của bạn:

✅ Windows
✅ RTX 3050 8GB
✅ Whisper large-v2
✅ StyleTTS2
✅ Auto chunk mặc định
✅ GUI bấm là chạy
✅ Video ngắn không cắt – video dài tự cắt

📘 HƯỚNG DẪN CÀI ĐẶT HỆ THỐNG DỊCH & LỒNG TIẾNG VIDEO (OFFLINE – GUI)

1. YÊU CẦU TỐI THIỂU

Phần cứng

Windows 10 / 11 (64-bit)
GPU NVIDIA RTX 3050 8GB
RAM ≥ 16 GB (khuyên 32 GB)
Ổ cứng trống ≥ 30 GB

Phần mềm

Internet (chỉ cần lúc cài)
Không cần tài khoản trả phí
Không upload video ra ngoài

2. CÀI DRIVER & CÔNG CỤ CƠ BẢN

2.1 Cài NVIDIA Driver

Tải NVIDIA Studio Driver (khuyên dùng)
Cài xong → restart

Kiểm tra:


nvidia-smi

Nếu thấy RTX 3050 là OK.

2.2 Cài FFmpeg

Tải tại: https://www.gyan.dev/ffmpeg/builds/
Chọn ffmpeg-git-full.7z
Giải nén vào:


C:\ffmpeg

Thêm vào PATH:


C:\ffmpeg\bin

Kiểm tra:


ffmpeg -version

3. CÀI PYTHON & MÔI TRƯỜNG

3.1 Cài Python

Phiên bản: Python 3.10.11
Khi cài: ✔ tick Add Python to PATH

Kiểm tra:


python --version

3.2 Tạo thư mục project

Ví dụ:


D:\AI_Dubbing

Mở Command Prompt tại thư mục này.

3.3 Tạo môi trường ảo


python -m venv venv
venv\Scripts\activate

Nếu thấy (venv) là đúng.

4. CÀI PYTORCH (GPU – CUDA)


pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

Kiểm tra GPU:


python - <<EOF
import torch
print(torch.cuda.is_available())
print(torch.cuda.get_device_name(0))
EOF

👉 Phải ra True và RTX 3050.

5. CÀI WHISPER (NHẬN DIỆN GIỌNG NÓI)

5.1 Cài Whisper


pip install -U openai-whisper
pip install ffmpeg-python

5.2 Test Whisper


python - <<EOF
import whisper
model = whisper.load_model("large-v2", device="cuda")
print("Whisper OK")
EOF

⏳ Lần đầu sẽ tải model (~3 GB).

6. CÀI STYLE TTS2 (LỒNG TIẾNG)

6.1 Clone StyleTTS2


git clone https://github.com/yl4579/StyleTTS2.git
cd StyleTTS2

6.2 Cài thư viện


pip install -r requirements.txt

Nếu lỗi:


pip install librosa==0.10.1 soundfile einops transformers

6.3 Test StyleTTS2


python inference.py --text "This is a test voice." --output test.wav

Nghe được tiếng là OK.

7. CÀI DỊCH TIẾNG TRUNG → ANH (OFFLINE)


pip install sentencepiece transformers sacremoses

Test nhanh:


from transformers import pipeline
t = pipeline("translation", model="facebook/nllb-200-distilled-600M")
print(t("你好世界", src_lang="zho_Hans", tgt_lang="eng_Latn"))

8. CÀI GUI (QUẢN LÝ TẤT CẢ)

8.1 Cài PySide6


pip install pyside6

8.2 Cấu trúc project chuẩn


AI_Dubbing/
├─ venv/
├─ gui/
│  ├─ main.py        (GUI chính)
│  ├─ worker.py      (pipeline)
│  └─ signals.py
├─ pipeline/
│  ├─ whisper_step.py
│  ├─ translate_step.py
│  ├─ tts_step.py
│  └─ merge_step.py
├─ input_videos/
├─ output/
└─ config.yaml

👉 Bạn chỉ mở GUI, không chạy file lẻ.

9. CẤU HÌNH MẶC ĐỊNH (ĐÃ TỐI ƯU)

config.yaml (mẫu)


whisper:
  model: large-v2
  device: cuda
  precision: float16

tts:
  engine: styletts2
  sample_rate: 22050

video:
  auto_chunk: true
  chunk_threshold_min: 12
  chunk_size_min: 8

output:
  subtitle: true
  dub_audio: true

10. CÁCH SỬ DỤNG (RẤT ĐƠN GIẢN)

Mở GUI
Chọn video
Bấm START
Đợi chạy xong

Hệ thống sẽ:

Tự quyết định có cắt video hay không
Chạy Whisper → unload GPU
Dịch → CPU
Chạy StyleTTS2 → unload GPU
Ghép video + tiếng + sub

❌ Không cần gõ lệnh
❌ Không sợ tràn VRAM

11. XỬ LÝ VIDEO DÀI

Video ≤ 12 phút → không cắt
Video > 12 phút → tự cắt 8 phút / đoạn
Có resume nếu mất điện / lỗi

12. LỖI THƯỜNG GẶP & CÁCH SỬA

❌ CUDA out of memory

✔ Không chạy Whisper + TTS cùng lúc
✔ GUI đã xử lý tự động

❌ Librosa lỗi


pip install librosa==0.10.1

❌ Tiếng nhanh/chậm

✔ Giữ sample rate 22050 Hz

13. BẠN ĐÃ CÓ GÌ SAU KHI CÀI XONG?

✅ Dịch video tiếng Trung → tiếng Anh
✅ Lồng tiếng cảm xúc (anime / phim)
✅ Có hoặc không có subtitle
✅ Chạy offline 100%
✅ GUI bấm là chạy
✅ Không tốn tiền

🏁 KẾT LUẬN

Đây là bộ hướng dẫn hoàn chỉnh, đúng với nhu cầu của bạn, không dư – không thiếu, dùng được lâu dài.

Tags: AI

BÀI HƯỚNG DẪN CÀI ĐẶT HOÀN CHỈNH – TỪ SỐ 0 → CHẠY ĐƯỢC GUI

📘 HƯỚNG DẪN CÀI ĐẶT HỆ THỐNG DỊCH & LỒNG TIẾNG VIDEO (OFFLINE – GUI)

1. YÊU CẦU TỐI THIỂU

Phần cứng

Phần mềm

2. CÀI DRIVER & CÔNG CỤ CƠ BẢN

2.1 Cài NVIDIA Driver

2.2 Cài FFmpeg

3. CÀI PYTHON & MÔI TRƯỜNG

3.1 Cài Python

3.2 Tạo thư mục project

3.3 Tạo môi trường ảo

4. CÀI PYTORCH (GPU – CUDA)

5. CÀI WHISPER (NHẬN DIỆN GIỌNG NÓI)

5.1 Cài Whisper

5.2 Test Whisper

6. CÀI STYLE TTS2 (LỒNG TIẾNG)

6.1 Clone StyleTTS2

6.2 Cài thư viện

6.3 Test StyleTTS2

7. CÀI DỊCH TIẾNG TRUNG → ANH (OFFLINE)

8. CÀI GUI (QUẢN LÝ TẤT CẢ)

8.1 Cài PySide6

8.2 Cấu trúc project chuẩn

9. CẤU HÌNH MẶC ĐỊNH (ĐÃ TỐI ƯU)

config.yaml (mẫu)

10. CÁCH SỬ DỤNG (RẤT ĐƠN GIẢN)

11. XỬ LÝ VIDEO DÀI

12. LỖI THƯỜNG GẶP & CÁCH SỬA

❌ CUDA out of memory

❌ Librosa lỗi

❌ Tiếng nhanh/chậm

13. BẠN ĐÃ CÓ GÌ SAU KHI CÀI XONG?

🏁 KẾT LUẬN

No comments:

Bài Ðược Xem Nhiều

Blog active

Học Để Thi