-
Sıfır Örnekli Metinden Konuşmaya: 5 saniyelik bir vokal örneği girin ve anında metinden konuşmaya dönüşümünü deneyimleyin.
-
Birkaç Örnekli Metinden Konuşmaya: Daha iyi ses benzerliği ve gerçekçiliği için modeli yalnızca 1 dakikalık eğitim verisiyle ince ayarlayın.
-
Çapraz Dil Desteği: Eğitim veri setinden farklı dillerde çıkarım, şu anda İngilizce, Japonca ve Çinceyi destekliyor.
-
Web Arayüzü Araçları: Entegre araçlar arasında vokal eşliğinde ayırma, otomatik eğitim seti segmentasyonu, Çince ASR ve metin etiketleme bulunur ve yeni başlayanların eğitim veri setleri ve GPT/SoVITS modelleri oluşturmalarına yardımcı olur.
Demo videomuzu buradan izleyin!
Görünmeyen konuşmacılar birkaç örnekli ince ayar demosu:
few.shot.fine.tuning.demo.mp4
Kullanıcı Kılavuzu: 简体中文 | English
- Python 3.9, PyTorch 2.0.1, CUDA 11
- Python 3.10.13, PyTorch 2.1.2, CUDA 12.3
- Python 3.9, PyTorch 2.2.2, macOS 14.4.1 (Apple silikon)
- Python 3.9, PyTorch 2.2.2, CPU cihazları
Not: numba==0.56.4, py<3.11 gerektirir
Eğer bir Windows kullanıcısıysanız (win>=10 ile test edilmiştir), 0206fix3 paketini veya 0217fix2 paketini indirip go-webui.bat dosyasına çift tıklayarak GPT-SoVITS-WebUI'yi başlatabilirsiniz.
Not: 0206 sürümünün çıkarım hızı daha hızlıdır, 0217 yeni sürümünün çıkarım kalitesi ise daha iyidir. İhtiyacınıza göre seçim yapabilirsiniz.
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
bash install.sh
Not: Mac'lerde GPU'larla eğitilen modeller, diğer cihazlarda eğitilenlere göre önemli ölçüde daha düşük kalitede sonuç verir, bu nedenle geçici olarak CPU'lar kullanıyoruz.
xcode-select --install
komutunu çalıştırarak Xcode komut satırı araçlarını yükleyinbrew install ffmpeg
veyaconda install ffmpeg
komutunu çalıştırarak FFmpeg'i yükleyin.- Aşağıdaki komutları çalıştırarak programı yükleyin:
conda create -n GPTSoVits python=3.9
conda activate GPTSoVits
pip install -r requirements.txt
pip install -r requirements.txt
conda install ffmpeg
sudo apt install ffmpeg
sudo apt install libsox-dev
conda install -c conda-forge 'ffmpeg<7'
ffmpeg.exe ve ffprobe.exe dosyalarını indirin ve GPT-SoVITS kök dizinine yerleştirin.
- Görüntü etiketleri hakkında: Kod tabanındaki hızlı güncellemeler ve görüntüleri paketleme ve test etme işleminin yavaş olması nedeniyle, lütfen şu anda paketlenmiş en son görüntüleri kontrol etmek için Docker Hub adresini kontrol edin ve durumunuza göre seçim yapın veya alternatif olarak, kendi ihtiyaçlarınıza göre bir Dockerfile kullanarak yerel olarak oluşturun.
- Ortam Değişkenleri:
- is_half: Yarım hassasiyet/çift hassasiyeti kontrol eder. Bu genellikle "SSL çıkarma" adımı sırasında 4-cnhubert/5-wav32k dizinleri altındaki içeriğin doğru şekilde oluşturulmamasının nedenidir. Gerçek durumunuza göre True veya False olarak ayarlayın.
- Birim Yapılandırması,Kapsayıcı içindeki uygulamanın kök dizini /workspace olarak ayarlanmıştır. Varsayılan docker-compose.yaml, içerik yükleme/indirme için bazı pratik örnekler listeler.
- shm_size: Windows üzerinde Docker Desktop için varsayılan kullanılabilir bellek çok küçüktür, bu da anormal işlemlere neden olabilir. Kendi durumunuza göre ayarlayın.
- Dağıtım bölümü altında, GPU ile ilgili ayarlar sisteminize ve gerçek koşullara göre dikkatlice ayarlanmalıdır.
docker compose -f "docker-compose.yaml" up -d
Yukarıdaki gibi, ilgili parametreleri gerçek durumunuza göre değiştirin, ardından aşağıdaki komutu çalıştırın:
docker run --rm -it --gpus=all --env=is_half=False --volume=G:\GPT-SoVITS-DockerTest\output:/workspace/output --volume=G:\GPT-SoVITS-DockerTest\logs:/workspace/logs --volume=G:\GPT-SoVITS-DockerTest\SoVITS_weights:/workspace/SoVITS_weights --workdir=/workspace -p 9880:9880 -p 9871:9871 -p 9872:9872 -p 9873:9873 -p 9874:9874 --shm-size="16G" -d breakstring/gpt-sovits:xxxxx
Önceden eğitilmiş modelleri GPT-SoVITS Modelleri adresinden indirin ve GPT_SoVITS/pretrained_models
dizinine yerleştirin.
UVR5 (Vokal/Eşlik Ayırma ve Yankı Giderme, ayrıca) için, modelleri UVR5 Ağırlıkları adresinden indirin ve tools/uvr5/uvr5_weights
dizinine yerleştirin.
Çin bölgesindeki kullanıcılar, aşağıdaki bağlantıları girerek ve "Bir kopya indir"i tıklayarak bu iki modeli indirebilirler
Çince ASR (ayrıca) için, modelleri Damo ASR Modeli, Damo VAD Modeli, ve Damo Punc Modeli adreslerinden indirin ve tools/asr/models
dizinine yerleştirin.
İngilizce veya Japonca ASR (ayrıca) için, modelleri Faster Whisper Large V3 adresinden indirin ve tools/asr/models
dizinine yerleştirin. Ayrıca, diğer modeller daha küçük disk alanı kaplamasıyla benzer etkiye sahip olabilir.
Çin bölgesindeki kullanıcılar, aşağıdaki bağlantıları girerek bu modeli indirebilirler
-
Faster Whisper Large V3 ("Bir kopya indir"i tıklayarak)
-
Faster Whisper Large V3 (HuggingFace ayna sitesi)
TTS açıklama .list dosya formatı:
vocal_path|speaker_name|language|text
Dil sözlüğü:
- 'zh': Çince
- 'ja': Japonca
- 'en': İngilizce
Örnek:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
-
Yüksek Öncelikli:
- Japonca ve İngilizceye yerelleştirme.
- Kullanıcı kılavuzu.
- Japonca ve İngilizce veri seti ince ayar eğitimi.
-
Özellikler:
- Sıfır örnekli ses dönüştürme (5s) / birkaç örnekli ses dönüştürme (1dk).
- Metinden konuşmaya konuşma hızı kontrolü.
- Gelişmiş metinden konuşmaya duygu kontrolü.
- SoVITS token girdilerini kelime dağarcığı olasılık dağılımına değiştirme denemesi.
- İngilizce ve Japonca metin ön ucunu iyileştirme.
- Küçük ve büyük boyutlu metinden konuşmaya modelleri geliştirme.
- Colab betikleri.
- Eğitim veri setini genişletmeyi dene (2k saat -> 10k saat).
- daha iyi sovits temel modeli (geliştirilmiş ses kalitesi)
- model karışımı
UVR5 için Web Arayüzünü açmak için komut satırını kullanın
python tools/uvr5/webui.py "<infer_device>" <is_half> <webui_port_uvr5>
Bir tarayıcı açamıyorsanız, UVR işleme için aşağıdaki formatı izleyin,Bu ses işleme için mdxnet kullanıyor
python mdxnet.py --model --input_root --output_vocal --output_ins --agg_level --format --device --is_half_precision
Veri setinin ses segmentasyonu komut satırı kullanılarak bu şekilde yapılır
python audio_slicer.py \
--input_path "<orijinal_ses_dosyası_veya_dizininin_yolu>" \
--output_root "<alt_bölümlere_ayrılmış_ses_kliplerinin_kaydedileceği_dizin>" \
--threshold <ses_eşiği> \
--min_length <her_bir_alt_klibin_minimum_süresi> \
--min_interval <bitişik_alt_klipler_arasındaki_en_kısa_zaman_aralığı>
--hop_size <ses_eğrisini_hesaplamak_için_adım_boyutu>
Veri seti ASR işleme komut satırı kullanılarak bu şekilde yapılır (Yalnızca Çince)
python tools/asr/funasr_asr.py -i <girdi> -o <çıktı>
ASR işleme Faster_Whisper aracılığıyla gerçekleştirilir (Çince dışındaki ASR işaretleme)
(İlerleme çubukları yok, GPU performansı zaman gecikmelerine neden olabilir)
python ./tools/asr/fasterwhisper_asr.py -i <girdi> -o <çıktı> -l <dil>
Özel bir liste kaydetme yolu etkinleştirildi
Özellikle aşağıdaki projelere ve katkıda bulunanlara teşekkür ederiz: