123,123,123

基于预训练模型的基层治理敏感实体识别方法
所屬分類(lèi)：技术论文
上傳者：zhoubin333
文檔大?。?span>3658 K
標(biāo)簽：预训练语言模型基层治理中文命名实体识别
所需積分：0分積分不夠怎么辦？
文檔介紹：基层治理产生的大量敏感数据可通过数据脱敏去除隐私内容，但这些数据包含较多非结构化文本数据，难以直接进行数据脱敏。因此，需要对非结构化文本数据进行命名实体识别以提取敏感数据。首先把敏感实体分为16类并对信访文本进行标注，输入层表示采用预训练模型BERT，编码层利用双向长短时记忆网络汲取上下文信息，解码层通过条件随机场模型优化序列，构建了较高精度的基层治理敏感实体识别模型。针对脱敏工作需要，改变假阴性和假阳性的loss权重，并采用敏感实体框选率辅助评价模型性能。在基层治理信访数据集和公共数据集MSRA上进行实验，F1值分别为88.38%和90.11%，相较于基准模型提升了4.64%和3.78%。该模型可应用于非结构化文本的敏感实体识别，识别成功率高。现有评价指标未能较好地反映敏感实体的间接推理关系，应当探索更完善的敏感实体评价体系。
現(xiàn)在下載
VIP會(huì)員，AET專(zhuān)家下載不扣分；重復(fù)下載不扣分，本人上傳資源不扣分。

相關(guān)文章