共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
3.
4.
动词与动词搭配方法的研究 总被引:1,自引:0,他引:1
搭配是汉语自动句法分析的重要环节,而动词是句法分析的核心。论文面向中文信息处理,通过对真实文本的统计分析归纳了搭配自动获取规则,结合统计模型,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础上成功地抽取出所选语料中的动词—动词搭配。其中抽取正确率为75%,召回率为64%。 相似文献
5.
汉语动词-动词搭配规则与分布特征 总被引:4,自引:0,他引:4
搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。论文面向中文信息处理,通过对真实文本的统计分析归纳了用于自动获取搭配的规则,研究了动词-动词搭配中各关系类型的分布特征以及搭配词语的位置分布特征,在此基础上提出了抽取动宾、动补、连谓和并列四种关系的动词-动词搭配的适宜观察窗口。 相似文献
6.
搭配是汉语自动句法分析的重要知识源,而动词是句法分析的核心和前提。通过对已标注真实文本的分析,构造了动词搭配对的上下文变量信息特征模板,给出利用最大熵方法抽取动词—动词搭配,对待测的1 000句汉语句子应用最大熵方法自动识别出搭配,其中封闭测试抽取正确率为85.6%,召回率达到70.6%。 相似文献
7.
针对非分类关系抽取中的关系识别问题,提出利用SAO结构和依存句法分析相结合的识别方法。该方法将中文专利领域的非分类关系抽取问题转化为符合SAO结构的识别问题,通过SAO结构中的动词信息可以解决关系识别的问题,并在此基础上,利用依存句法分析得到的依存关系强度结合传统的特征,分别对新特征、词特征、上下文特征、距离特征的有效性进行验证分析。实验结果表明,该方法优于传统方法,也验证了依存句法分析在非分类关系抽取中的可行性。 相似文献
8.
9.
针对现有的中文客户评论产品属性识别方法存在的不足,通过采用词法分析、句法分析、同义词词林等多项技术和资源,挖掘真实语料中蕴藏的语言知识,提出了一种基于模板的产品属性识别方法.该方法对评论语料进行词法、句法分析和人工标注,从标注结果中综合分析和归纳评论句的全局语言规则,提取属性词和评价词之间的词性和依存关系序列,借助同义词词林构建产品属性模板,使用属性模板识别产品属性.对比实验结果表明了提出方法的有效性. 相似文献
10.
特征—观点对的抽取是观点挖掘中非常重要的研究课题之一。该文首先利用依存语法对句子进行了依存分析,在此基础上研究了旅游评论文本中特征-观点对的抽取。利用词对间的依存关系,构建了获取含有特征和观点词语的组块规则,并设计了候选特征的识别算法和特征—观点对的抽取算法。该文对山西旅游景点评论语料进行了实验,结果表明,特征—观点对的抽取整体的F1值达到了87.10%,验证了方法的有效性。 相似文献
11.
12.
随着互联网的不断普及,针对各种产品的评论也不断增多,这些评论中所包含的丰富信息,对制造商和消费者都极具分析价值.只有正确分析评价对象,意见挖掘的结果才会准确可信.在总结前人成果的基础上,针对网络上的客户评论,提出了一种新的评价对象抽取方法.该方法是基于ICTParser的句法分析与IR的依存关系分析的联合,采用似然值检... 相似文献
13.
沈超 《计算机应用与软件》2011,28(2)
确定性依存句法分析(又称为基于动作的依存句法分析或基于转换的依存句法分析),由于采用了贪婪的搜索策略,它是一类比较有效率的依存句法分析方法.在一种主流的确定性依存句法分析方法-Yamada-Matsumoto算法的基础上,通过改进其转换模型,提出了一种基于子树的确定性依存句法分析方法.在新的方法中,引入了子树的结构,因而能够更加灵活地确定词与词间的依存关系.最后,通过在中文宾州树库上的实验,证明了这个新方法的有效性. 相似文献
14.
对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。 相似文献
15.
基于序列标注的中文依存句法分析方法 总被引:2,自引:0,他引:2
提出了一种基于序列标注模型的中文依存句法分析方法.该方法将依存句法分析转化成序列标注问题,利用条件随机场CRF(Conditional Random Field)建立序列标注模型.在宾州中文树库的测试中,达得了76.59%的依存关系准确率,句子准确率也达到了23.5%.同时我们改进了Viterbi算法,使得依存关系的准确率提高了近2个百分点,句子准确率提高了近3.5个百分点. 相似文献
16.
评价搭配识别是评论挖掘的研究热点之一.针对现有方法存在的不足,通过对真实语料的观察和分析,提出了一种基于语法模板的评价搭配识别方法.该方法借助HowNet和语法分析等资源和工具,从大规模的真实评论语料中自动获取反映评价搭配规律的候选语法模板,对候选模板进行泛化和遴选,通过生成的模板识别待分析的评论句的搭配关系.在手机和数码相机两种电子产品领域上的对比实验验证了该方法是有效的. 相似文献
17.
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,我们研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取的召回率较低问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为2类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括2个部分,一是参加NLPCC2012的公开评测,本文方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了本文算法的实用性.二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出本文的结论. 相似文献
18.
评论对象抽取是情感分析的重要研究内容。基于语义词典,从评论对象的类别视角出发,运用语义相似度和相关度计算方法,该文提出用于评价对象抽取的七种新的语义特征。评价对象和评价词之间通常存在句法依存关系,并且评价词往往带有情感倾向,将句法依存分析和评价词识别结合,提出句法情感依存特征抽取方法,忽略无情感词和微情感词的句法依存关系,提高评价对象抽取的准确率。使用条件随机场模型,在SEMEVAL比赛的三个领域数据集上进行实验,新的语义特征和句法情感依存特征组合的F1分数比SEMEVAL比赛限制性系统最好成绩平均高3.78%,比非限制性系统最好成绩平均高2%,证明了所提特征的有效性。 相似文献
19.
依存分析和HMM相结合的信息抽取方法 总被引:1,自引:0,他引:1
信息抽取是文本信息处理的一个重要环节,当前的信息抽取研究工作大多针对半结构化的文本。针对自由文本,提出一种依存分析和HMM相结合的文本信息抽取算法,该算法在运用依存分析对句子进行浅层句法分析的基础上制定相应规则,形成输入序列,结合HMM易于建立、适应性好、抽取精度较高的优势,实现自由文本的信息抽取。实验结果表明,新的算法在召回率、准确率和正确率指标上均有良好的性能,说明了算法的有效性,为文本信息的抽取提供了新思路。 相似文献
20.
构建藏语依存树库是实现藏语句法分析的重要基础,对藏语本体研究和信息处理具有重要价值。基于此,该文提出了一种基于树库转换的藏语依存树库构建方法。该方法首先扩充了前期构建的藏语短语结构树库,然后根据藏语短语结构树和依存树的特征设计树库转换规则,实现藏语短语结构树到依存结构树的初步转换,最后对自动转换结果进行人工校验,得到了2.2万句藏语依存树。为了对转换结果做出量化评价,该文抽取了依存树库中5%的依存树,对其依存关系进行校验和统计,最终依存关系的准确率达到89.36%,中心词的准确率达到92.09%。此外,该文使用基于神经网络的句法分析模型验证了依存树库的有效性。在该模型上,UAS值和LAS值分别达到83.62%和81.90%。研究证明,使用半自动的树库转换方法能够有效地完成藏语依存树库构建工作。 相似文献