共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。 相似文献
3.
结合条件随机场与伯克利句法分析器对中文专利文献中的单层并列结构进行识别。在经过分词和词性标注的中文专利语料的基础上,分别运用条件随机场和伯克利句法分析器对专利语料中的单层并列结构进行识别,提取两种机器模型相同的和识别结果中满足相应规则的并列结构识别结果。实验结果表明,该方法有效的识别了专利文献中的单层并列结构,取得了73.09%的F值。 相似文献
4.
5.
6.
7.
8.
针对非分类关系抽取中的关系识别问题,提出利用SAO结构和依存句法分析相结合的识别方法。该方法将中文专利领域的非分类关系抽取问题转化为符合SAO结构的识别问题,通过SAO结构中的动词信息可以解决关系识别的问题,并在此基础上,利用依存句法分析得到的依存关系强度结合传统的特征,分别对新特征、词特征、上下文特征、距离特征的有效性进行验证分析。实验结果表明,该方法优于传统方法,也验证了依存句法分析在非分类关系抽取中的可行性。 相似文献
9.
某些“基数词+时间单位词”组成的中文时间表达式在不同语境中可能表现为时点式,也可能表现为时段式。为自动判定中文时间表达式的类型,提出一种基于依存分析的判定方法。该方法首先借助依存分析考察中文时间表达式在句中所受的句法约束,然后将这些约束转化为具有可计算性的依存规则,最后利用依存规则对中文时间表达式的类型进行判定。实验结果显示,在此方法中,时间表达式确认的正确率、召回率、F值分别达到82.3%、88.1%和85.1%;时间表达式类型判定的正确率、召回率、F值分别达到77.1%、82.5%和79.7%。 相似文献
10.
针对专利文献翻译中的复杂并列结构的处理,提出了一种预处理和后处理的方法——拆分合并法。它弥补了统计翻译系统在复杂结构方面的劣势,同时保留统计翻译在经验句式、人力成本等方面优于规则系统的特点。实验表明,这种方法稳定地提高了翻译系统的准确率。此外,它独立于具体的统计翻译系统,可以方便地移植到不同的统计翻译系统上。 相似文献
11.
并列结构在文本中出现的几率很高,但并列结构识别的准确率并不高,并列结构识别一直是自然语言处理的一个难点。文章对国内外学者提出的并列结构的识别方法进行总结与综述,介绍了基于规则的和基于统计的较为典型的识别方法。 相似文献
12.
13.
中文微博的大数据、指数传播和跨媒体等特性,决定了依托人工方式监控和处理中文微博是不现实的,迫切需要依托计算机开展中文微博情感自动分析研究.该项研究可分为3个任务:中文微博观点句识别、情感倾向性分类和情感要素抽取.为完成上述任务,我们研制了一个评测系统:通过构建多级词库、制定成词规则、开展串频统计等给出一种基于规则和统计的新词识别方法,在情感词和评价对象的依存模式的基础上给出基于词语特征的观点句识别算法;以词序流表示文本的LDA-Collocation模型,采用吉布斯抽样法推导了算法,实现中文微博情感倾向性自动分类;针对中文微博情感要素抽取的召回率较低问题,利用依存关系分析理论,按主语类和宾语类把依存模式分为2类,建立了6个优先级的评价对象和情感词汇的依存模式,通过评价对象归并算法实现计算机自动抽取情感要素.实验包括2个部分,一是参加NLPCC2012的公开评测,本文方法在微博观点句识别任务中的准确率为第2,在中文微博情感要素抽取任务中的准确率和F值均为第2,验证了本文算法的实用性.二是在分析公开评测结果的基础上,分别比较了参加公开评测的各类算法在处理中文微博情感分析时的效率,给出本文的结论. 相似文献
14.
基于字符的中文分词、词性标注和依存句法分析联合模型 总被引:1,自引:0,他引:1
目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题: 一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作: Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。 相似文献
15.
16.
中文比较句研究多集中于语言学领域,然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法,该方法将词和词性作为一个基本元素,定义特征词表中核心词和依存词之间的关联方式,利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明,该方法能够有效地识别出中文比较句,在准确率、召回率和F值上均取得不错的效果。 相似文献
17.
《计算机科学与探索》2017,(4):599-607
依存句法分析是自然语言处理的一个关键环节,目前对于越南语短语结构树的研究比较多,而依存结构树的研究就显得十分薄弱。提出了一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短语结构树转换成依存结构树。首先依据中文依存关系标注体系与越南语的语法规则,制定出依存关系列表;然后结合越南语的语言特点,制定出中心子节点过滤表,利用中心子节点过滤表的思想进行初步转化;最后使用依存关系标注器来进行依存关系标注。基于转换后得到的依存结构树,利用MSTParser工具进一步训练得到更多的越南语依存结构树。对实验结果进行了抽样评估,树库转换的准确率达到了89.4%,较好地解决了越南语由短语树到依存树的转换问题。 相似文献
18.
该文提出一种基于汉语依存句法信息来构建维维吾尔语依存句法树库的方法。首先对维吾尔语进行形态分析,之后进行汉维词对齐、中文依存分析,然后根据词对齐信息以及汉语依存信息得到维吾尔语依存信息,最终对结果进行优化,获得维吾尔语依存句法库。在此基础上训练得到的依存句法分析器在CoNLL 2017 Shared Task 测试集上进行实验,带标记依存正确率LAS(Labeled Attachment Score)和无标记依存正确率UAS(Unlabeled Attachment Score)分别为34.38%和52.53%。 相似文献
19.
目前中文文本分类算法大多利用词语或词语映射为特征项的分类方式,未考虑中文语法语义的特点,导致分类性能较低。为此,提出中文文本的意群分类算法。通过中文依存句法分析结果制定规则提取意群,并作为特征项表示文本,进而采用支持向量机的方法对训练集进行学习,最终构建类别意群库对测试文本进行分类。实验结果表明,与基于词语的分类方法相比,意群分类算法在分类性能上平均提升3个百分点,平均查准率达到97%。 相似文献
20.
针对使用中文文本进行情感分析时,忽略语法规会降低分类准确率的问题,提出一种融合语法规则的双通道中文情感分类模型CB_Rule。首先设计语法规则提取出情感倾向更加明确的信息,再利用卷积神经网络(CNN)的局部感知特点提取出语义特征;然后考虑到规则处理时可能忽略上下文的问题,使用双向长短时记忆(Bi-LSTM)网络提取包含上下文信息的全局特征,并对局部特征进行融合补充,从而完善CNN模型的情感特征倾向信息;最后将完善后的特征输入到分类器中进行情感倾向判定,完成中文情感模型的构建。在中文电商评论文本数据集上将所提模型与融合语法规则的Bi-LSTM中文情感分类方法R-Bi-LSTM以及融合句法规则和CNN的旅游评论情感分析模型SCNN进行对比,实验结果表明,所提模型在准确率上分别提高了3.7个百分点和0.6个百分点,说明CB_Rule模型具有很好的分类效果。 相似文献