首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
该文提出了一种基于词汇集聚的文档相关性计算方法。该方法以知网为知识库,依靠词汇集聚,将文档中存在语义关联的词语连接成链,计算各条词汇链权重,以词汇链为元素对文档进行形式化表示,最终利用文档的此种形式化表示进行相关匹配计算。该文在中图法分类的语料上,开展了文档相关性计算的实验,准确率达到了85.4%。实验结果表明,该方法在一定程度上描述了文档的语义信息,将文档间的相关比较从字符或词层面的直接比较提升到近似概念层次的比较,是一种计算文档间相关性的有效方法。  相似文献   

2.
为了快速获取网络文本中主题内容和情感信息,提出了文本情感文摘的概念,同时提出了一种基于条件随机场模型的情感文摘提取方法.首先提取文本中的句子长度、提示词以及情感词语作为基本特征,同时应用浅层狄利赫雷分配的主题模型,分析文本潜在主题信息,提取主题特征,将这两类特征同时应用到条件随机场模型中,从而获取文本的情感文摘.实验结果表明,该方法细腻刻画了文本的主题信息,同时考虑了文本主题的情感色彩,文摘提取效果较理想,能满足用户的实际需要.  相似文献   

3.
在中文文本分类任务中,针对重要特征在中文文本中位置分布分散、稀疏的问题,以及不同文本特征对文本类别识别贡献不同的问题,该文提出一种基于语义理解的注意力神经网络、长短期记忆网络(LSTM)与卷积神经网络(CNN)的多元特征融合中文文本分类模型(3CLA)。模型首先通过文本预处理将中文文本分词、向量化。然后,通过嵌入层分别经过CNN通路、LSTM通路和注意力算法模型通路以提取不同层次、具有不同特点的文本特征。最终,文本特征经融合层融合后,由softmax分类器进行分类。基于中文语料进行了文本分类实验。实验结果表明,相较于CNN结构模型与LSTM结构模型,提出的算法模型对中文文本类别的识别能力最多提升约8%。  相似文献   

4.
在分析了文本中重要事件识别和文本分类方法的基础之上,提出了一种基于重要事件的文本分类方法.重点研究了该方法涉及到的两个关键技术:以重要事件表示文本和获取文本类别的模板.在中文事件语料CEC上,使用本文介绍的文本分类方法得到的平均准确率达到80%,而使用传统的以词为特征的文本分类方法得到的平均准确率为72%.  相似文献   

5.
Overlay text brings important semantic clues in video content analysis such as video information retrieval and summarization, since the content of the scene or the editor's intention can be well represented by using inserted text. Most of the previous approaches to extracting overlay text from videos are based on low-level features, such as edge, color, and texture information. However, existing methods experience difficulties in handling texts with various contrasts or inserted in a complex background. In this paper, we propose a novel framework to detect and extract the overlay text from the video scene. Based on our observation that there exist transient colors between inserted text and its adjacent background, a transition map is first generated. Then candidate regions are extracted by a reshaping method and the overlay text regions are determined based on the occurrence of overlay text in each candidate. The detected overlay text regions are localized accurately using the projection of overlay text pixels in the transition map and the text extraction is finally conducted. The proposed method is robust to different character size, position, contrast, and color. It is also language independent. Overlay text region update between frames is also employed to reduce the processing time. Experiments are performed on diverse videos to confirm the efficiency of the proposed method.  相似文献   

6.
针对利用抽象语义(AMR)图来预测摘要子图存在的语义结构不完整问题,该文提出一种基于整数线性规划(ILP)重构AMR图结构的语义摘要算法。首先将数据预处理生成一个AMR总图;然后基于统计特征从AMR总图中抽取出摘要子图重要节点信息;最后利用ILP的方法来对摘要子图中节点关系进行重构,利用完整的摘要子图恢复生成语义摘要。实验结果表明,相比其他语义摘要方法,所提方法的ROUGE值和Smatch值都有显著提高,最多分别提高了9%和14%,该方法有利于提高语义摘要的质量。  相似文献   

7.
一种基于N-gram模型和机器学习的汉语分词算法   总被引:6,自引:0,他引:6  
汉语的自动分词,是计算机中文信息处理领域中一个基础而困难的课题。该文提出了一种将汉语文本句子切分成词的新方法,这种方法以N-gram模型为基础,并结合有效的Viterbi搜索算法来实现汉语句子的切词。由于采用了基于机器学习的自组词算法,无需人工编制领域词典。该文还讨论了评价分词算法的两个定量指标,即查准率和查全率的定义,在此基础上,用封闭语料库和开放语料库对该文提出的汉语分词模型进行了实验测试,表明该模型和算法具有较高的查准率和查全率。  相似文献   

8.
刘铭  王晓龙  刘远超 《电子学报》2009,37(2):278-284
 本文提出一种新颖的文本分割算法,算法首先将待分割文档划分为若干片段的集合,然后构造全文词汇链分析文中描述的多个子主题,并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类.针对段落分割点可能落在片段内部的情况,算法对片段进行二次划分.实验表明:在对文档进行主题分析后,算法能够过滤掉与主题无关的特征对分割结果的干扰;构造的片段对子主题的覆盖图融合了相邻及相间片段的相似性,加大了划分的准确度;对片段进行二次划分使得分割的结果更加合理.  相似文献   

9.
视频数据中的文本是视频语义理解和检索的重要信息来源.文中对视频中文本的检测、定位、提取、增强和识别进行了研究.提出了应用小波模极大值算法检测视频帧文本所在的位置,用由粗到精的多层定位方法以及金字塔模型,对于多尺度的静止和滚动中英文文字进行提取,最后对文本区域进行二值化.实验表明文中方法取得了良好的效果.  相似文献   

10.
结合网购评论文本的特点,分别从网购评论文本情感信息的抽取、分类以及情感信息的检索与归纳三个方面来阐述文本情感分析在网购评论领域的实际应用前景.其中,网购评论文本情感信息的抽取和分类是进行网购评论文本情感信息检索与归纳的基础,而网购评论文本情感信息检索与归纳是与用户直接交互的接口,也是最具有实用价值和商业价值的部分.  相似文献   

11.
马慧芳  刘文  李志欣  蔺想红 《电子学报》2019,47(6):1331-1336
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.  相似文献   

12.
为了解决面向话题的搜索问题,提出一种新的面向话题的检索技术。首先分析了面向话题的搜索技术所面临的问题,然后基于数据挖掘技术提出了解决方案。利用数据挖掘技术抽取文本的多层次语义特征,形成对文本的多精度表示,抽取的特征不仅包括单个词特征也包括多词特征。建立了一个示例检索系统,实验表明利用多层次文本特征能够很好地实现面向话题的文本检索。  相似文献   

13.
Laurence Danlos 《电信纪事》1989,44(1-2):101-110
There exist two main models of translation system : 1) a transfer model which includes a representation of the text in the source language and a transfer module that changes this representation into a representation of the next in the target language, 2) a pivot model which includes a single representation shared by the texts in the source and target languages. The criteria used to choose one of these two models will be described. Then, a transfer system, Eurotra, will be presented in detail. Eurotra, which is an R and D project develop-ped within the European Economic Community, involves the nine official languages of the eec. The large number of transfer modules (i.e. 72) requires that they be simplified as much as possible. This entails to design a syntactico-semantic representation which is abstract enough to reduce transfer to lexical transfer in a significant number of cases.  相似文献   

14.
本文将近年来国内外出版的各种电路教材的总体突出特征在五个方面作出了比较,并对所使用的原版电路教材“Fundamentals of Electric Circuits”作出了简评.基于电路课程双语教学中对原版教材作出的一些探索性改革实践,提出了自主编写我国电气工程类外语教材的构想。  相似文献   

15.
中文文本分类中的特征选择算法研究   总被引:34,自引:0,他引:34  
比较了文档频率、信息增益、互信息、X^2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家“八六三计划”中文文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。  相似文献   

16.
The named entity extraction task aims to extract entity mentions from the unstructured text, including names of people, places, institutions and so on. It plays an important role in many Natural language processing (NLP) tasks, such as knowledge bases construction, automatic question answering system and information extraction. Most of the existing entity extraction studies are based on the long text data, which are easier to annotate due to the sufficient contextual information. Extracting entities from short texts such as search queries, conversations is still a challenging task. This paper proposes a dual pointer approach for entity mention extraction, it extracts one entities by two position pointers of the input sentence. The end-to-end deep neural networks model based on the proposed approach can extract the entities by serially generating the dual pointers. The evaluation results on the Chinese public dataset show that the model achieves the state-of-the-art results over the baseline models.  相似文献   

17.
18.
A Multi-document Rhetorical Structure (MRS) is proposed for multi-document automatic summarization task. In this structure, interrelationship between text units, including the correlation between units calculated by hierarchical topic tree, the rhetorical relationship and temporal relationship, were represented at different levels of granularity. MRS simplified traditional multi-document representation in cross structure theory and supplement change and distribution information of events topics which cannot be obtained in information fusion theory. Concretely, a series of algorithms including building MRS, multi-document information fusion based MRS and summarization generation are proposed. The capability of concurrently fuse multiple knowledge sources of MRS strategies is testified by sets of experiments and shows good result.  相似文献   

19.
随着基于内容检索技术的发展,人们逐渐意识到包含在彩色图像和视频中的文本具有重要的语义作用。提取并识别图像中的文本首先需要确定它们的位置。本文提出了一种新的基于连通区域确定彩色图像中文本位置的方法,它首先对图像进行多通道分解以得到连通区域,然后对连通区域的尺寸和位置排列进行分析以确定图像中文本的位置。本文方法不仅能确定水平排列和垂直排列文本的位置,也能确定按一定倾角排列的文本的位置。实验结果表明,该方法可得到较好的文本定位效果。  相似文献   

20.
分析英语单词音节计数算法,探索提高音节计数准确率的方法.测试结果表明:根据单词的形态特征增加匹配规则能够提升计数的准确率.如果再添加音节信息词典的支持,可继续提升计算的准确率和速度.音节计数改进算法可用于设计测量英语文本难度的程序,为客观高效地选择教学或训练用英语文本提供参考.该算法还适合用于其它与音节有关的英语词汇量化分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号