Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[new feature request] itn 分词歧义问题 #177

Closed
fanlu opened this issue Dec 26, 2023 · 2 comments
Closed

[new feature request] itn 分词歧义问题 #177

fanlu opened this issue Dec 26, 2023 · 2 comments

Comments

@fanlu
Copy link
Member

fanlu commented Dec 26, 2023

由于现在都是用char进行分割,缺失语义信息,存在一些badcase
'''以上这三个以核心的这个更新的内容我们大概介绍,整体来看我们整体的 PV 是上升的,这个幅度还是蛮大的。之前的话我们是对比了二三年后续所有的历史数据,都是针对的二三年从一月到十一月期间的一个平均数,然后来对比这一上线这五天的数据的一个动情况,我们的 PV 是整体上升了,从七点二万升到二十二万,所以其实是幅度还是蛮大的。然后我们 UV 是从一点一万上升到一点六万,特别说要说的是这个职场群体,我们也是 PV 从一点四万上升到七点六万,就是数据提升的还是非常明显的。'''
image

@xingchensong
Copy link
Member

可行解决方案:可以先过分词,再过itn,此时“23年后续”会被分成“23年”和“后续”,而不是“23年后” 和 “续”,从而解决itn的错误分词问题

@fanlu
Copy link
Member Author

fanlu commented Dec 26, 2023

确实是可行的

以上|这|3个|以|核心|的|这个|更新|的|内容|我们|大概|介绍|,|整体|来看|我们|整体|的|PV|是|上升|的|,|这个|幅度|还是|蛮大|的|。|之前|的话|我们|是|对比|了|23年|后续|所有|的|历史|数据|,|都|是|针对|的|23年|从|1月|到|11月|期间|的|一个|平均数|,|然后|来|对比|这|1|上线|这|5天|的|数据|的|一个|动|情况|,|我们|的|PV|是|整体|上升|了|,|从|7.2万|升到|22万|,|所以|其实|是|幅度|还是|蛮大|的|。|然后|我们|UV|是|从|1.1万|上升|到|1.6万|,|特别|说|要|说|的|是|这个|职场|群体|,|我们|也|是|PV|从|1.4万|上升|到|7.6万|,|就是|数据|提升|的|还是|非常|明显|的|。

用了pkuseg,jieba会把一点一万给切成一点一万

        text = seg.cut(args.text)
        print(text)
        merged_text_list = []
        i = 0
        while i < len(text):
            if text[i][1] == 'm' and text[i+1][1] == 'q': # m应该是数字 q应该是量词 放在一起过itn
                merged_text_list.append(text[i][0] + text[i+1][0])
                i = i + 2
            else:
                merged_text_list.append(text[i][0])
                i = i + 1
        merged_text = '|'.join(merged_text_list)

@fanlu fanlu closed this as completed Dec 26, 2023
@xingchensong xingchensong changed the title [new feature request] itn 存在部分badcase [new feature request] itn 分词歧义问题 Dec 26, 2023
@xingchensong xingchensong pinned this issue Dec 26, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants