Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

有没有考虑过中英混合的ITN #49

Open
y00281951 opened this issue Nov 16, 2022 · 13 comments
Open

有没有考虑过中英混合的ITN #49

y00281951 opened this issue Nov 16, 2022 · 13 comments
Labels
good first issue Good for newcomers

Comments

@y00281951
Copy link
Contributor

这个其实在实际项目中,需求量会比较大

@xingchensong
Copy link
Member

意思是中文和英文同时做ITN吗?这个暂时没考虑,可以增加下,谢谢提议,欢迎PR~

@y00281951
Copy link
Contributor Author

意思是中文和英文同时做ITN吗?这个暂时没考虑,可以增加下,谢谢提议,欢迎PR~

嗯嗯是的,现在实际上线的项目,都是需要中英混输。我先做做看看效果,如果不错的话,再PR

@xingchensong
Copy link
Member

中英混里面比较常见的英文类别都是啥样的,日期还是电话号码还是什么?

@LingBoDiDi
Copy link

中英文混合还是比较常见的,比如航班号码的播报,再比如单词的拼读如,A P P,再比如中文里夹杂一些专有的英语名词, 比如:“你定的酒店是在georgia吗”,那这里的“georgia”是该itn为“Georgia”还是缩写呢,等等。我目前也在做asr后处理这块,有问题可以相互讨论下,嘿嘿。

@xingchensong
Copy link
Member

这些case(加空格,大小写)实现起来比较简单,甚至不需要怎么改代码就能支持,我比较关心的是“我有 one thoundsand dollars” 这种涉及数字变化的“我有$1000”,这种case似乎不是很常见

@LingBoDiDi
Copy link

如果考虑地区的话,像港澳地区这种可能会夹杂这种中英的,比如:这个可以有ten percent的收益吗。

@xingchensong
Copy link
Member

如果考虑地区的话,像港澳地区这种可能会夹杂这种中英的,比如:这个可以有ten percent的收益吗。

有中英文数据的话可以总结下~ 不在那个语境容易闭门造“句”

@LingBoDiDi
Copy link

如果考虑地区的话,像港澳地区这种可能会夹杂这种中英的,比如:这个可以有ten percent的收益吗。

有中英文数据的话可以总结下~ 不在那个语境容易闭门造“句”

我后续看看我这边能不能总结一些例子 有空的话我发你邮箱 你看成不 你主页的邮箱用的吧

@xingchensong
Copy link
Member

xingchensong commented Dec 29, 2022 via email

@HunterKai
Copy link

英文的ITN后面会做吗

@keanucui
Copy link

@xingchensong 你好,wfst的规则转换, 可以像支持tts前端ssml那种功能吗? 就是可以指定某个子串按照某种固定读法读. toy example: <number>1234</number> 中1234 会转换成成:一二三四. 而不是:一千二百三十四.

@xingchensong
Copy link
Member

@xingchensong 你好,wfst的规则转换, 可以像支持tts前端ssml那种功能吗? 就是可以指定某个子串按照某种固定读法读. toy example: <number>1234</number> 中1234 会转换成成:一二三四. 而不是:一千二百三十四.

可以,需要单独写一个规则

@iPwnXX
Copy link

iPwnXX commented Apr 17, 2023

这些case(加空格,大小写)实现起来比较简单,甚至不需要怎么改代码就能支持,我比较关心的是“我有 one thoundsand dollars” 这种涉及数字变化的“我有$1000”,这种case似乎不是很常见

想问个关于空格切分英文的问题:在用pip源下载导入包的LN normalizer.normalize()时会合并英文词空格,如输入“We Text Processing"会输出成‘WeTextProcessing’; 而使用clone 下来的WeTextProcessing代码仓里的normalize就可以保留空格。两者在tag输出都是一样的,应该是verbalize()的问题。请问这个具体是哪里规则导致的呢?是否保留英文空格是在源文件里哪部处理的

@xingchensong xingchensong added the good first issue Good for newcomers label Jul 6, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
good first issue Good for newcomers
Projects
None yet
Development

No branches or pull requests

6 participants