排序方式: 共有146条查询结果,搜索用时 15 毫秒
81.
82.
术语内部动态角色标注是航空领域HowNet构建的关键环节,其直接影响航空领域HowNet的规模与质量。针对动态角色种类多造成标注困难的问题,提出一种基于KNN的术语内部动态角色标注方法。通过对术语内部词语DEF项的分析进行样本预选择,并在最近邻样本选择阶段融合基于DEF的语义相似性及基于词向量的语境分布相似性。实验结果表明,1-Best、3-Best和7-Best的准确率分别为67.57%、86.00%和94.17%,平均倒数排名MRR为0.7764,优于现有的研究结果。 相似文献
83.
84.
PageRank模型在中文情感词极性判别中的应用 总被引:1,自引:1,他引:0
针对倾向性分析任务重的基础性工作——情感词的极性判断工作,提供了一种基于PageTank模型的情感词极性判断方法.由待判别情感词和少量中子情感词构成图中的节点,利用知网(HowNet)语义资源计算词语间的语义想死度,进而得到图中节点间边的权重.通过PageRank模型的引入,综合利用有标种子情感词和无标待判别情感词实现对无标情感词的极性判别.与传统的基于HowNet的情感词判别方法相比,PageRank模型的引入使情感词判别的准确率平均提高10%左右,充分验证了所提方法的可行性. 相似文献
85.
词语相似度计算在基于实例的机器翻译、信息检索、自动问答系统等有着广泛的应用。词语相似度的计算一般都是在基于《知网》的义原的基础上,通过计算概念之间的相似度来获取。文中在综合考虑义原距离、义原深度、义原宽度、义原密度和义原重合度的基础上,利用多特征结合的方法计算词语相似度。为了验证算法的合理性,利用Miller和Charles文献给出的基准词作为测试集合,将计算得到的词语相似度的值与专家值进行比较,计算其皮尔逊相关系数,计算结果达到了0.852。实验结果表明多特征结合的词语相似度计算和专家评定的词语相似度计算非常吻合。 相似文献
86.
网上的基础语言信息资源 总被引:1,自引:0,他引:1
俞士汶 《术语标准化与信息技术》2001,(4):19-23
论述了语言信息处理技术在信息化进程中的作用;介绍了北京大学计算语言学研究所在语言信息处理基础研究方面已经取得的成果以及语言资源情况;提出需要进一步研究的课题. 相似文献
87.
88.
文本聚类技术在文本挖掘和信息检索系统中发挥着重要的作用。目前,文本聚类方法大多数采用基于关键词集的经典向量模型来表征文本,这种方式忽略了词与词之间的语义关系,存在词频维数过高,聚类算法计算复杂度高等问题。为了解决这些问题,提出一种基于主题概念聚类的中文文本聚类方法,该方法利用HowNet提取文本的主题概念,然后使用Chameleon算法将主题概念聚类,再依据主题概念的聚类结果完成对文本的聚类。该方法用概念代替单个词条表示文本,减少文本特征之间的依赖关系,有效地降低了文本聚类的时间复杂度。 相似文献
89.
词义消歧一直是信息检索领域的关键问题和难点之一。统计学方法以其良好的词义消歧效果逐渐占据主流地位。文章结合义类词典HowNet,分别采用隐马尔可夫模型,贝叶斯模型,基于依存关系改进贝叶斯模型对大规模真实文本进行了词义消歧研究,其中基于依存关系改进贝叶斯模型的词义消歧效果最好。 相似文献
90.
一种基于《知网》的中文文本聚类算法的研究 总被引:3,自引:0,他引:3
针对基于关键词集的中文文本聚类算法中存在的问题,将《知网》引入到中文文本的特征表示中,并在此基础上提出了一种基于《知网》的中文文本聚类算法。该算法在中文文本表示中加入了基于《知网》的概念特征,实验结果表明该算法能够更好地将语义相关的中文文档聚集在一起,与传统的基于关键词集的中文文本聚类算法相比,聚类质量得到了较大提高。 相似文献