VITS

概要

PytorchによるVITSの実装です。
日本語音声のデータセット"JVS corpus"で学習し

テキストの読み上げ
音声間の変換

を行うことができます。
モデルの詳しい解説と音声生成例についてはこちらを参照。

想定環境

Ubuntu20.04
Python 3.10.0
torch==1.13.1+cu117
torchaudio==0.13.1+cu117

ライブラリの詳細はrequirements.txtを参照。
ライブラリはpipによるインストールを推奨します。

プログラム

jvs_preprocessor.pyはJVS corpusに対し前処理を行うプログラムです。
vits_train.pyは前処理済みデータセットを読み込み学習を実行し、学習の過程と学習済みパラメーターを出力するプログラムです。
vits_text_to_speech.pyはvits_train.pyで出力した学習済みパラメーターを読み込み、推論(テキストから音声の生成)を実行、結果を.wav形式で出力するプログラムです。
vits_voice_converter.pyはvits_train.pyで出力した学習済みパラメーターを読み込み、推論(音声間の変換)を実行、結果を.wav形式で出力するプログラムです。

使い方

データセットの用意

JVS corpusをダウンロード、解凍します。
jvs_preprocessor.pyの16行目付近の変数jvs_dataset_pathで、解凍したJVS corpusへのパスを指定します。
python jvs_preprocessor.pyを実行し前処理を実行します。
- データセット中の各.wavファイルがサンプリングレート22050[Hz]へと変換され、./dataset/jvs_preprocessed/jvs_wav_preprocessed/以下に出力されます。
- 前処理済み各.wavファイルへのパスと、それに対応するラベルが列挙されたファイルが./dataset/jvs_preprocessed/jvs_preprocessed_for_train.txtとして出力されます。

Cythonのモジュールのコンパイル

モジュールmonotonic_alignは高速化のためCythonで実装されています。これをコンパイルします。

cd ./module/model_component/monotonic_align/を実行します。
mkdir monotonic_alignを実行します。
python setup.py build_ext --inplaceでCythonで書かれたモジュールのコンパイルを行います。

学習

python vits_train.pyを実行しVITSの学習を行います。
- 学習過程が./output/vits/train/以下に出力されます。
- 学習済みパラメーターが./output/vits/train/iteration295000/netG_cpu.pthなどという形で5000イテレーション毎に出力されます。

推論(テキスト読み上げ)

vits_text_to_speech.pyの39行目付近の変数trained_weight_pathにvits_train.pyで出力した学習済みパラメーターへのパスを指定します。
vits_text_to_speech.pyの41行目付近の変数source_textに発話させたい文章を指定します。
vits_text_to_speech.pyの43行目付近の変数target_speaker_idに発話の対象とする話者idを指定します。
- 話者idは(JVS corpusで決められている話者の番号-1)となります。例えば"jvs010"の話者を指定したい場合は、話者idは9となります。
python vits_text_to_speech.pyを実行しテキストの読み上げを行います。
- 生成結果が./output/vits/inference/text_to_speech/output.wavとして出力されます。

推論(音声変換)

vits_voice_converter.pyの37行目付近の変数trained_weight_pathにvits_train.pyで出力した学習済みパラメーターへのパスを指定します。
vits_voice_converter.pyの39行目付近の変数source_wav_pathに変換元としたいwavファイルへのパスを指定します。
vits_voice_converter.pyの41行目付近の変数source_speaker_idに変換元の話者idを指定します。
vits_voice_converter.pyの43行目付近の変数target_speaker_idに変換先の話者idを指定します。
python vits_voice_converter.pyを実行し推論(音声変換)を行います。
- 変換結果が./output/vits/inference/voice_conversion/output.wavとして出力されます。

参考

https://arxiv.org/abs/2106.06103
https://github.com/jaywalnut310/vits

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VITS

概要

想定環境

プログラム

使い方

データセットの用意

Cythonのモジュールのコンパイル

学習

推論(テキスト読み上げ)

推論(音声変換)

参考

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 64 Commits
module		module
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
jvs_preprocessor.py		jvs_preprocessor.py
requirements.txt		requirements.txt
vits_text_to_speech.py		vits_text_to_speech.py
vits_train.py		vits_train.py
vits_voice_converter.py		vits_voice_converter.py

License

zassou65535/VITS

Folders and files

Latest commit

History

Repository files navigation

VITS

概要

想定環境

プログラム

使い方

データセットの用意

Cythonのモジュールのコンパイル

学習

推論(テキスト読み上げ)

推論(音声変換)

参考

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages