排序方式: 共有1条查询结果,搜索用时 15 毫秒
1
1.
医疗健康一直是人们热议的话题,针对病历文本的自动抽取技术也日趋重要。目前医疗领域数据人工标注成本高,获取大规模标注语料较困难。一种解决标注语料缺失的方法是基于词表的远程监督方法。但由于远程监督的标准数据质量不高,导致模型性能缩水严重。该文主要研究如何缓解远程监督带来的数据漏标问题。通过对数据进行增强、结合基于片段排列的命名实体识别模型与负采样方法提高模型泛化能力,并选取全局最优节点集合解决实体识别冲突问题。实验表明,数据增强与选取全局最优节点集合两者分别对结果有0.5%左右稳定提高,负采样方法提高5%至10%不等。 相似文献
1