fix compat breaking: revive workaround padding in decode() #867

Yosshi999 · 2024-11-02T16:39:51Z

内容

#854 でdecodeからworkaround用の無音paddingを消してしまい、compatible engineの挙動が変わってしまっていた

#866 (comment) に従い、
もともと

Synthesizer::decode ... 無音パディングを付加
Synthesizer::synthesis ... Synthesizer::decode を利用
extern "C" fn decode_forward ... Synthesizer::decode をそのまま利用（→無音パディングあり）

だったものに対して #854 は

Synthesizer::generate_full_intermediate ... 無音パディングなしで中間物生成
Synthesizer::render_audio_segment ... マージンなしで与えられた音声特徴全体で音声生成
Synthesizer::decode ... Synthesizer::generate_full_intermediate と Synthesizer::render_audio_segment を利用（→無音パディングなし）
Synthesizer::precompute_render ... 無音パディングを付加して Synthesizer::generate_full_intermediate
Synthesizer::render ... マージンを付けて＆指定された区間で Synthesizer::render_audio_segment （+暗黙的にパディングが除去される）
Synthesizer::synthesis ... Synthesizer::precompute_render と Synthesizer::render を利用
extern "C" fn decode_forward ... Synthesizer::decode をそのまま利用（→無音パディングなし）

になっていたので、

Synthesizer::generate_full_intermediate ... 無音パディングを付加して中間物生成
Synthesizer::render_audio_segment ... マージンを付けて＆指定された区間で音声生成
Synthesizer::decode ... Synthesizer::generate_full_intermediate と Synthesizer::render_audio_segment を利用
Synthesizer::precompute_render ... Synthesizer::generate_full_intermediate を利用
Synthesizer::render ... Synthesizer::render_audio_segment を利用
Synthesizer::synthesis ... Synthesizer::precompute_render と Synthesizer::render を利用
extern "C" fn decode_forward ... Synthesizer::decode をそのまま利用
将来実装する extern "C" fn generate_full_intermediate ... Synthesizer::generate_full_intermediate をそのまま利用
将来実装する extern "C" fn render_audio_segment ... Synthesizer::render_audio_segment をそのまま利用

に変更した

その他

This reverts commit 9daeb90.

…_segment

Yosshi999 · 2024-11-05T13:36:33Z

#866 (comment)
こちらに方針を変更します

種類	関数	説明
Synthesizer	generate_full_intermediate	無音パディングを付加して中間物生成、マージン込みのを返す
Synthesizer	render_audio_segment	マージンなしで与えられた音声特徴全体で音声生成
Synthesizer	decode	Synthesizer::generate_full_intermediate と Synthesizer::render_audio_segment を利用
Synthesizer	precompute_render	Synthesizer::generate_full_intermediate
Synthesizer	render	マージンを付けて＆指定された区間で Synthesizer::render_audio_segment
Synthesizer	synthesis	Synthesizer::precompute_render と Synthesizer::render を利用
extern "C"	decode_forward	Synthesizer::decode をそのまま利用
extern "C"	generate_full_intermediate	Synthesizer::generate_full_intermediate をそのまま利用
extern "C"	render_audio_segment	Synthesizer::render_audio_segment をそのまま利用

Hiroshiba

うおーーーありがとうございます！！！！
かなりすっきりさせられそうかもと感じました！！

start/endが範囲外ならエラーを返すようにすれば更にシンプルにできそうに感じました！
個人的には、範囲外を指定したときにclipされるのかpadされるのか自明じゃないので、エラー返すのが誤解しづらくて良いかもとちょっと思いました。

あとtrim_waveは要らないはず･･･？

crates/voicevox_core/src/synthesizer.rs

Hiroshiba · 2024-11-05T18:59:38Z

crates/voicevox_core/src/synthesizer.rs

+    /// 変換前に追加した安全マージンを生成音声から取り除く
+    fn trim_margin_from_wave(
+        wave_with_margin: &ndarray::Array1<f32>,
+    ) -> Result<ndarray::ArrayView1<f32>> {
+        let wave = wave_with_margin.slice(ndarray::s![
+            MARGIN * 256..wave_with_margin.len() - MARGIN * 256
+        ]);
+        Ok(wave)
+    }


この関数が必要になることはない･･･はず･･･？
（必ずpaddingもmarginもない音声が出てくるので）

render_audio_segmentでは単純にonnxを回すだけの関数であるため、crop_with_marginで取り出したマージン付きの音声特徴量を音声に変換した後、両端の（長さが256倍され、かつ一括変換の場合と結果が異なっている)マージンを削除する必要があります。

あれ、なるほどです！　ちょっとどこか認識が違うことがわかりました！！ 🙇

render_audio_segmentのonnxって、MARGIN*2+Nフレーム入力すると、N*256サンプル出力される･･･とい理解で合ってそうでしょうか 👀
であれば、crop_with_marginは、目的の音声のフレーム数+MARGIN*2だけクロップする感じだと思うので、出てきた音声の両端を削除する必要はない････はず････？

onnxはMARGIN*2+Nに対し256*(MARGIN*2+N)が出てきます。元のonnxと同じ実装です

！！！！！　あっなるほどです！！！　onnxの方はzero-paddingする感じになってるんですね！！
この前提が抜けていた提案をしまくっていました 🙇 🙇 🙇

これはちょっと話題が変わってしまうのですが、ちなみに元実装の方をpaddingしないようにって難しそうでしょうか･･･？ 👀
というのもMARGIN*2が28なので、仮に0.5秒ごとに生成すると93.75*0.5≒46フレームだから、結構な計算量削減になりそうだなーーーと思い。
（再生を始められる、つまりRTFが1を下回るフレーム数をより下げることができるので、より再生開始を早められるなぁーーと･･･）

marginについても出力の一貫性を保つためのものなので縮められません（多少は無理して減らせると思いますが..）
再生開始までの時間を早くするためにいじれる変数はおそらくバッファ長(何秒ごとに生成するか)しかないと思います。RTFから最適なバッファ長を計算する方程式を立てることができ、陽に解くことができるとおもいます

あ、paddingはCONVが自動的挟んでるゼロパディングのことを指していました！！

ゼロパディングありで学習した場合でも、十分なMARGINが確保されていれば同じ値が出力されます！
例えばこちらの説明だと、padding有り無しで真ん中９つの値は変わってないのがわかると思います。
https://zero2one.jp/ai-word/padding/

影響を受けるのはゼロパディングを計算に含めた場所、つまり両端14フレームだけ･･･なはず。
Nフレーム入力すれば中央N-14*2フレームは同じが結果になります。
なので逆に両端14フレーム伸ばすことで、Nフレーム同じ結果が出力されるはず･･･！！！

decoderの再学習なしでも、ゼロパディングをなくして合成することは可能だという認識です･･･！

つまりすべてのconvolutionのpaddingをSAMEからVALIDに変えるということですか？試したことはないですね..

ですです！！　結構計算量が削減できるのではと思ってます！！

あ、onnxruntimeだとVALIDが指定可能なんですね！！！
変換前のpytorchで全convのpadを0にするのを考えてたのですが、onnxruntime変換時や変換後でも良さそう。
pytorchでやるなら、hifiganのmodel.modules()を総なめしてConvの.pad=0にするとかなのかなと考えてました。

あ、とはいえ今マストでは無いかもです！
リリースするまでならあとで変えるとかでも良さそうですし、なんならこのままリリースも超問題ってわけではなさそう。
例えば先にエンジン作ってからという手もありだと思います！

crates/voicevox_core/src/synthesizer.rs

qryxip

LGTM!

Hiroshiba

LGTM！！！

ありがとうございました！！！\

コード中のコメントの細かいお願いがいくつかあったのでプルリクエストを出してみました。
@Yosshi999 さん側でちょっと取り込んでいただければ！（もちろんプルリクエストの内容をさらに変更しても大丈夫です！）

#867 の変更提案プルリクエスト Yosshi999/voicevox_core#1

それとなのですが、またpythonを使った音声の生成結果がmainブランチと全く同じものになっているか確認お願いしてもよろしいでしょうか 🙇
念のために確認しておくと、あとあと計算結果が合わないときに「コアは大丈夫」と自信を持って進めそうだなーと･･･！

Hiroshiba · 2024-11-15T02:36:04Z

crates/voicevox_core/src/synthesizer.rs

+        if range.start > audio.frame_length || range.end > audio.frame_length {
+            panic!(
+                "{range:?} is out of range for audio feature of length {frame_length}",
+                frame_length = audio.frame_length,
+            );
+        }


（細かいですが）

start>=0も確認した方が良さそう
あと原理上end>lengthを確認したならstart>lengthは自明そう？（なので処理が簡単になりそう）

start>=0

#867 (comment)でも書きましたが、型的に無意味というかむしろそれを書いたらリンタが激怒すると思います。

あと原理上end>lengthを確認したならstart>lengthは自明そう？（なので処理が簡単になりそう）

（おそらく言語問わず） $\texttt{start} \leq \texttt{end}$ とは限らないと思います。

現状だと $\texttt{start} > \texttt{end}$ も、#867 (comment)の表の通り、 $\texttt{start}, \texttt{end} < \texttt{length}$ である限りは空の区間として受け取ることになるかなと。

ただ今考えたら、一貫性のために $\texttt{start} > \texttt{end}$ もついでに弾いておくという判断もありかもしれません。どうしましょうか？

start > end はRangeインスタンスの生成時に落ちるものと思ってたんですが、ドキュメントを見た感じそうでもなさそうですかね？
バリデーションは積極的に通すみたいな方針にするというのをどこかで話した気がするのでこれもpanicさせましょうか

そうですね。Range自体はただの二つの整数の組です。あと10..0みたいなのも、Pythonのsliceじゃなくrange的な使い方をする分には空のイテレータを返します。リンタには怒られますが。

バリデーションは積極的に通すみたいな方針にする

ですね。パニックにしちゃいましょう。パニックメッセージ的にはこう？

Suggested change

if range.start > audio.frame_length || range.end > audio.frame_length {

panic!(

"{range:?} is out of range for audio feature of length {frame_length}",

frame_length = audio.frame_length,

);

}

if range.start > range.end {

panic!("index starts at {} but ends at {}", range.start, range.end);

}

if range.end > audio.frame_length {

panic!(

"{range:?} is out of range for audio feature of length {frame_length}",

frame_length = audio.frame_length,

);

}

Python API側はIndexErrorじゃなくてValueErrorにすればよさそう。

あ、30分前にコミットされてましたね。これでよさそう。

今気付いたのですが、ONNX Runtimeに渡すのはマージン入れたやつでは？なので別に早期リターンは要らないのでは…？

あとこれ↓についてはいかがいたしましょう
#867 (comment)

ONNX Runtimeに渡すのはマージン入れたやつ

たしかに　無駄な処理を省けるという利点はあります

Python APIではstart > endの場合、IndexErrorというよりはValueError…？

pythonでstart > endで落ちる例が思いつきません

pythonでstart > endで落ちる例が思いつきません

むしろ普通のPythonではありえないからこそ、IndexErrorは避けた方がよいのではないかと思いました。

ValueErrorはJavaで言うIllegalArgumentExceptionだと理解しています。あとissubclass(IndexError, LookupError)なので、AudioFeatureのlengthに関わらずstart > endは不正ということで、ValueErrorでいいんじゃないかなーと思った次第です。

なるほど、ValueErrorにします

start > endの場合を弾くようにしたので、最初ヒホさんが言ったようにrange.start > audio.frame_lengthは省けそう

これについてですがRustの[T]では

let a = [1, 2, 3]; let _ = a[5000..1000];

がslice index starts at 5000 but ends at 1000というメッセージになる（i.e. range start index {i} out of range for slice of length {len}やrange end index {i} out of range for slice of length {len}よりも優先される）ので、それにならうという意味でもやった方がいいかなと思いました。

crates/voicevox_core/src/synthesizer.rs

crates/voicevox_core_python_api/src/lib.rs

example/python/run.py

VOICEVOX#867 の変更提案プルリクエスト

Yosshi999 · 2024-11-15T13:45:17Z

streaming有り無しの比較結果

> python .\compare.py .\PR867-ce545a9.wav .\PR867-ce545a9-streaming.wav                                    
compare PR867-ce545a9.wav and PR867-ce545a9-streaming.wav
diff max: 2.6855618e-05
diff mean: 2.3077598e-08

mainブランチとの比較結果

> python .\compare.py .\PR867-ce545a9.wav .\main-7dd6738.wav           
compare PR867-ce545a9.wav and main-7dd6738.wav
diff max: 3.7331134e-05
diff mean: 1.7770306e-07

Hiroshiba · 2024-11-15T15:48:42Z

検証ありがとうございます！！！
誤差的に問題なさそう･･･！！！

現時点の変更も確認しました、良さそう！！

fix compat breaking: revive workaround padding in decode()

9daeb90

Yosshi999 mentioned this pull request Nov 2, 2024

ストリーミング処理のC API実装 #866

Open

Yosshi999 added 2 commits November 3, 2024 15:38

Revert "fix compat breaking: revive workaround padding in decode()"

d1be041

This reverts commit 9daeb90.

move padding to generate_full_intermediate and margin to render_audio…

eb26303

…_segment

Yosshi999 marked this pull request as ready for review November 3, 2024 07:28

fix lint

0b8c9b5

Yosshi999 requested review from qryxip, Hiroshiba and sevenc-nanashi November 3, 2024 10:53

change implementation and API

2e6b018

Hiroshiba reviewed Nov 5, 2024

View reviewed changes

qryxip reviewed Nov 5, 2024

View reviewed changes

crates/voicevox_core/src/synthesizer.rs Outdated Show resolved Hide resolved

crates/voicevox_core/src/synthesizer.rs Show resolved Hide resolved

crates/voicevox_core/src/synthesizer.rs Outdated Show resolved Hide resolved

Yosshi999 added 3 commits November 9, 2024 01:33

apply suggestion, explicit panic in out of range rendering

101b3e7

fix python lint

8a44a37

fix rust lint

a4e64db

qryxip reviewed Nov 10, 2024

View reviewed changes

crates/voicevox_core/src/synthesizer.rs Outdated Show resolved Hide resolved

crates/voicevox_core/src/synthesizer.rs Outdated Show resolved Hide resolved

qryxip mentioned this pull request Nov 10, 2024

docs: "APIデザインガイドライン"を追加 #870

Merged

apply suggestion

7a4ad06

qryxip reviewed Nov 12, 2024

View reviewed changes

crates/voicevox_core/src/synthesizer.rs Outdated Show resolved Hide resolved

crates/voicevox_core/src/synthesizer.rs Outdated Show resolved Hide resolved

crates/voicevox_core/src/synthesizer.rs Show resolved Hide resolved

crates/voicevox_core/src/synthesizer.rs Show resolved Hide resolved

Yosshi999 added 2 commits November 13, 2024 22:35

refactoring

db7a3b6

bugfix: modified stride is ignored in into_raw_vec

510d16d

qryxip approved these changes Nov 13, 2024

View reviewed changes

qryxip requested a review from Hiroshiba November 13, 2024 16:55

doc: improve comments for margin and padding in synthesizer

9d1e656

Hiroshiba mentioned this pull request Nov 15, 2024

#867 の変更提案プルリクエスト Yosshi999/voicevox_core#1

Merged

Hiroshiba approved these changes Nov 15, 2024

View reviewed changes

Yosshi999 added 3 commits November 15, 2024 22:12

Merge pull request #1 from Hiroshiba/hiho-counter-pr-9d1e6566

88293ca

VOICEVOX#867 の変更提案プルリクエスト

better readability

255a3ef

panic / raise error in invalid range such as start > end

ce545a9

Yosshi999 added 2 commits November 17, 2024 17:35

early return in render

6d45309

raise valueerror in start > end

7c1d79c

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix compat breaking: revive workaround padding in decode() #867

fix compat breaking: revive workaround padding in decode() #867

Yosshi999 commented Nov 2, 2024 •

edited

Loading

Yosshi999 commented Nov 5, 2024

Hiroshiba left a comment

Hiroshiba Nov 5, 2024 •

edited

Loading

Yosshi999 Nov 8, 2024

Hiroshiba Nov 8, 2024

Yosshi999 Nov 10, 2024 •

edited

Loading

Hiroshiba Nov 10, 2024 •

edited

Loading

Yosshi999 Nov 10, 2024

Hiroshiba Nov 10, 2024 •

edited

Loading

Yosshi999 Nov 10, 2024

Hiroshiba Nov 10, 2024

Hiroshiba Nov 10, 2024

qryxip left a comment

Hiroshiba left a comment

Hiroshiba Nov 15, 2024 •

edited

Loading

qryxip Nov 15, 2024

Yosshi999 Nov 15, 2024

qryxip Nov 15, 2024 •

edited

Loading

qryxip Nov 15, 2024

qryxip Nov 17, 2024

Yosshi999 Nov 17, 2024

qryxip Nov 17, 2024

Yosshi999 Nov 17, 2024

qryxip Nov 17, 2024 •

edited

Loading

Yosshi999 commented Nov 15, 2024

Hiroshiba commented Nov 15, 2024 •

edited

Loading

fix compat breaking: revive workaround padding in decode() #867

Are you sure you want to change the base?

fix compat breaking: revive workaround padding in decode() #867

Conversation

Yosshi999 commented Nov 2, 2024 • edited Loading

内容

関連 Issue

その他

Yosshi999 commented Nov 5, 2024

Hiroshiba left a comment

Choose a reason for hiding this comment

Hiroshiba Nov 5, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Yosshi999 Nov 10, 2024 • edited Loading

Choose a reason for hiding this comment

Hiroshiba Nov 10, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Hiroshiba Nov 10, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

qryxip left a comment

Choose a reason for hiding this comment

Hiroshiba left a comment

Choose a reason for hiding this comment

Hiroshiba Nov 15, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

qryxip Nov 15, 2024 • edited Loading

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

qryxip Nov 17, 2024 • edited Loading

Choose a reason for hiding this comment

Yosshi999 commented Nov 15, 2024

Hiroshiba commented Nov 15, 2024 • edited Loading

Yosshi999 commented Nov 2, 2024 •

edited

Loading

Hiroshiba Nov 5, 2024 •

edited

Loading

Yosshi999 Nov 10, 2024 •

edited

Loading

Hiroshiba Nov 10, 2024 •

edited

Loading

Hiroshiba Nov 10, 2024 •

edited

Loading

Hiroshiba Nov 15, 2024 •

edited

Loading

qryxip Nov 15, 2024 •

edited

Loading

qryxip Nov 17, 2024 •

edited

Loading

Hiroshiba commented Nov 15, 2024 •

edited

Loading