排序方式: 共有45条查询结果,搜索用时 15 毫秒
11.
12.
基于聚类的语料库分词评价方法研究 总被引:3,自引:0,他引:3
对大规模汉语文本语料库分词正确率的评价提出了新的见解,即在分层抽样基础上对文本样本进行聚类.通过聚类可提高检验精度或减少样本量.该方法采用了一种新的样本相似性度量公式,该公式综合考虑了样本向量间的距离和样本向量各分量之间的线性相关性.通过对聚类结果的动态评价,调整聚类的类别数和相似性因子,提高了聚类的效率和质量.实验表明该方法在评价大规模语料库分词正确率时取得了很好的效果。 相似文献
13.
研究了特定领域的文本的信息抽取,主要考虑了文本分布的观点。首先从未标注的语料中学习主题和主题问的关系,然后把它应用在同领域的文本信息抽取。经测试,其信息抽取的效果有所提高。 相似文献
14.
专有名词识别是中文信息处理领域的一个难题。句子相似度计算方法在中文信息处理领域有着广泛的应用。本文探索性地使用句子相似度计算方法来解决专有名词识别问题,并针对专有名词识别的研究背景对小句相似度计算方法做了一些改进,改进的计算方法不仅考虑了公共字符,而且还加入了语义信息和结构信息。实验证明该方法是可行的。 相似文献
15.
16.
17.
基于HMM的中国组织机构名自动识别 总被引:9,自引:0,他引:9
以 2 0 0 0年 11~ 12月《人民日报》网页中涉及社会、经济、法律等内容的 5 0万汉字语料为基础 ,利用基于隐马尔可夫模型并结合概率估值公式来评价在真实文本中构成组织机构名的能力 ,实现了中国组织机构名自动识别系统。实验研究表明准确率达 89%,召回率为 94 .5 %。 相似文献
18.
动词与动词搭配方法的研究 总被引:1,自引:0,他引:1
搭配是汉语自动句法分析的重要环节,而动词是句法分析的核心。论文面向中文信息处理,通过对真实文本的统计分析归纳了搭配自动获取规则,结合统计模型,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础上成功地抽取出所选语料中的动词—动词搭配。其中抽取正确率为75%,召回率为64%。 相似文献
19.
汉语语料词性标注自动校对方法的研究 总被引:6,自引:0,他引:6
兼类词的词类排歧是汉语语料词性标注中的难点问题,它严重影响语料的词性标注质量。针对这一难点问题,本文提出了一种兼类词词性标注的自动校对方法。它利用数据挖掘的方法从正确标注的训练语料中挖掘获取有效信息,自动生成兼类词词性校对规则,并应用获取的规则实现对机器初始标注语料的自动校对,从而提高语料中兼类词的词性标注质量。分别对50万汉语语料做封闭测试和开放测试,结果显示,校对后语料的兼类词词性标注正确率分别可提高11.32%和5.97%。 相似文献
20.
基于元数据的Office文档表示方法的研究 总被引:3,自引:0,他引:3
提出了一种将文本建立在矩阵模型基础上的元数据文档表示的方法。它将非结构 化的数据转化为结构化的数据,在信息检索中有广泛的应用前景。 相似文献