一般在MLM中,通常屏蔽给定句子中特定百分比的单词,模型期望基于该句子中的其他单词预测这些被屏蔽的单词。那么在把实体识别任务转换成MLM(EntLM)的话,是要mask所有单词吗,毕竟最终需要对每个token都预测一个label word。