请问wwm不适用于生成mlm+nsp格式的数据吗？ #362

dr-GitHub-account · 2023-05-07T15:00:59Z

运行process.py生成数据时，--data_processor默认是'bert'，这样生成的是mlm+nsp的数据。我在设置--whole_word_masking时，发现由于mask.py中的create_index函数没有删除src前后句子之间的分隔符[SEP]，该函数返回的tokens_index, src并不能准确反映整词掩码，主要原因就是中间的[SEP]被分为了'[', 'sep', ']'。前来确认一下，在设置wwm接口的时候，是不是没有考虑生成mlm+nsp格式的数据，只能用于--data_processor设置为'mlm'的情况？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问wwm不适用于生成mlm+nsp格式的数据吗？ #362

请问wwm不适用于生成mlm+nsp格式的数据吗？ #362

dr-GitHub-account commented May 7, 2023

请问wwm不适用于生成mlm+nsp格式的数据吗？ #362

请问wwm不适用于生成mlm+nsp格式的数据吗？ #362

Comments

dr-GitHub-account commented May 7, 2023