关于MLM的问题

一般在MLM中，通常屏蔽给定句子中特定百分比的单词，模型期望基于该句子中的其他单词预测这些被屏蔽的单词。那么在把实体识别任务转换成MLM（EntLM）的话，是要mask所有单词吗，毕竟最终需要对每个token都预测一个label word。