Words surrounded by backwards quotation marks causing inaccurate tokenization results #17

rghavimi · 2023-02-16T02:49:11Z

It seems that the occurrence of a backwards quotation marks (“end“) in the text causes different tokenization results compared to Python implementations. This is the only inconsistency I've run into thus far. Curious if anyone else has seen similar issues.

Example: “ends -> tokenizes to ##end and ##s instead of ##ends

rghavimi changed the title ~~Backwards quotation mark causing different tokenization results~~ Backwards quotation mark causing inaccurate tokenization results Feb 16, 2023

rghavimi changed the title ~~Backwards quotation mark causing inaccurate tokenization results~~ Words surrounded by backwards quotation marks causing inaccurate tokenization results Feb 16, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Words surrounded by backwards quotation marks causing inaccurate tokenization results #17

Words surrounded by backwards quotation marks causing inaccurate tokenization results #17

rghavimi commented Feb 16, 2023 •

edited

Loading

Words surrounded by backwards quotation marks causing inaccurate tokenization results #17

Words surrounded by backwards quotation marks causing inaccurate tokenization results #17

Comments

rghavimi commented Feb 16, 2023 • edited Loading

rghavimi commented Feb 16, 2023 •

edited

Loading