关于wenetspeech的指标是不是有一点问题 #1587

yuyun2000 · 2024-04-10T09:13:06Z

同样都是zipformer2模型

在egs/wenetspeech/result.md中，非流式的测试指标是
7.36 & 7.65 & 12.43 (dev net meet)

在multi_zh-hans/result.md中，非流式的指标是
with ctc
9.04 | 7.19 | 8.17 (dev meet net)
without ctc
9.32 7.05 8.78 (dev meet net)

我的问题点在这里：
1、为什么前者的meet错误率显著高于net的错误率，而后者的net错误率略微高于meet错误率
2、为什么后者在wenetspeech数据集上又拓展了将近一半的数据，为啥指标还变高了？

我想到的可能的原因是
由于新加的多个数据集的数据分布明显广于原来的单一wenetspeech的分布，导致多数据集训练后模型对大多数情况的音频都更加鲁棒，所以这是后者比前者meet得分更高的原因；
对于后者数据变多但是指标变差，可能是因为原始wenetspeech的测试集还是偏向训练集，所以原来的单一数据集训练下的模型有点”过拟合“？高度适应wenetspeech的数据，忽视了其他情况下的数据？

如果脚本没有出错，那还能有什么原因？

JinZr · 2024-04-10T09:37:28Z

您好，我有几个没有验证过的推测： 1. 根据 @marcoyang1998 的经验，wenetspeech 的 dev set 非常容易过拟合，这可能是 wenetspeech only system 在 dev 上的 CER 的原因 2. 和 wenetspeech 本身的标注错误有关： wenet-e2e/WenetSpeech#54 修复由于抄本问题导致的口语数据删除错误过高的问题 · wenet-e2e WenetSpeech · Discussion #54 github.com 供参考 best jin

…

On Apr 10, 2024, at 17:13, Xuanwu Yun ***@***.***> wrote: 同样都是zipformer2模型在egs/wenetspeech/result.md中，非流式的测试指标是 7.36 & 7.65 & 12.43 (dev net meet) 在multi_zh-hans/result.md中，非流式的指标是 with ctc 9.04 | 7.19 | 8.17 (dev meet net) without ctc 9.32 7.05 8.78 (dev meet net) 我的问题点在这里： 1、为什么前者的meet错误率显著高于net的错误率，而后者的net错误率略微高于meet错误率 2、为什么后者在wenetspeech数据集上又拓展了将近一半的数据，为啥指标还变高了？我想到的可能的原因是由于新加的多个数据集的数据分布明显广于原来的单一wenetspeech的分布，导致多数据集训练后模型对大多数情况的音频都更加鲁棒，所以这是后者比前者meet得分更高的原因；对于后者数据变多但是指标变差，可能是因为原始wenetspeech的测试集还是偏向训练集，所以原来的单一数据集训练下的模型有点”过拟合“？高度适应wenetspeech的数据，忽视了其他情况下的数据？如果脚本没有出错，那还能有什么原因？ — Reply to this email directly, view it on GitHub <#1587>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AOON42DYKSUJ7H26ZOSX2GLY4T7DNAVCNFSM6AAAAABGABTK4CVHI2DSMVQWIX3LMV43ASLTON2WKOZSGIZTKMJRG4YTMNI>. You are receiving this because you are subscribed to this thread.

yuyun2000 · 2024-04-10T09:39:54Z

所以后者wenetspeech的准确率降低，也许有可能是变高的？总之多数据集下的新模型确实更加鲁棒了是吧，jin佬

JinZr · 2024-04-10T09:41:50Z

是的，在标签准确的数据集上例如 aishell-1 和 aishell-4 上的性能提升是非常显著的，aishell-4 的 CER 变化这么大我感觉蛮惊讶的。 best jin

…

On Apr 10, 2024, at 17:40, Xuanwu Yun ***@***.***> wrote: 所以后者wenetspeech的准确率降低，也许有可能是变高的？总之多数据集下的新模型确实更加鲁棒了是吧，jin佬 — Reply to this email directly, view it on GitHub <#1587 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AOON42BHO7DUI7CMPAJBE6TY4UCH7AVCNFSM6AAAAABGABTK4CVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDANBXGAZTSNZUGE>. You are receiving this because you commented.

CSLJingyu · 2024-04-28T12:51:47Z

我想请教一下，aishell-1的测试标签有的句子存在实际标签有问题，这个问题要如何解决?方案一: 不改动aishell-1的测试集标签为正确的标签，将错就错；方案二: 将aishell-1的错误的标签修改为正确的标签。

JinZr · 2024-04-28T12:53:40Z

两种方法都可以，请自行决定。 best jin

…

On Apr 28, 2024, at 20:52, JingYu ***@***.***> wrote: 我想请教一下，aishell-1的测试标签有的句子存在实际标签有问题，这个问题要如何解决?方案一: 不改动aishell-1的测试集标签为正确的标签，将错就错；方案二: 将aishell-1的错误的标签修改为正确的标签。 — Reply to this email directly, view it on GitHub <#1587 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/AOON42ENX7VMEPOBS525TR3Y7TWHRAVCNFSM6AAAAABGABTK4CVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDAOBRGQ3TKNJXGQ>. You are receiving this because you commented.

yuyun2000 closed this as completed Apr 10, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于wenetspeech的指标是不是有一点问题 #1587

关于wenetspeech的指标是不是有一点问题 #1587

yuyun2000 commented Apr 10, 2024

JinZr commented Apr 10, 2024 via email

yuyun2000 commented Apr 10, 2024

JinZr commented Apr 10, 2024 via email

CSLJingyu commented Apr 28, 2024

JinZr commented Apr 28, 2024 via email

关于wenetspeech的指标是不是有一点问题 #1587

关于wenetspeech的指标是不是有一点问题 #1587

Comments

yuyun2000 commented Apr 10, 2024

JinZr commented Apr 10, 2024 via email

yuyun2000 commented Apr 10, 2024

JinZr commented Apr 10, 2024 via email

CSLJingyu commented Apr 28, 2024

JinZr commented Apr 28, 2024 via email