首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
伍杰 《通信技术》2013,(5):91-94
随着网络技术和应用迅猛发展,大量的不良视频图像在网上传播,极大地危害了社会的稳定和人们的身心健康,如何有效监测有害视频成为关注的重点。针对这个问题,提出了一种改进的文本安全检测方法。该检测方法首先采用基于语义倾向性分析对字幕文本进行分类,然后将分类结果与用户需求库比较并通过阈值判断是否报警,从而达到监测有害视频的目的。其中文本检测方法是通过分析上下文计算出极性词的修饰极性,并考虑到名词的影响,最后得到整篇文本的倾向性。实验结果表明,该方法能够有效的监测到有害视频。  相似文献   

2.
介绍了中文文本分类系统的原理,在特征提取上采用了文档频率法(DF)与潜在语义分析法(K认)相结合的方法,先采用DF法过滤掉DF值低的词条,降低文本矩阵的稀疏性,然后使用LSA法进行词语间的语义分析,消除同义词和多义词的影响,提高文本分类的速度与精确度。实验结果表明使用此种降维方法取得了良好的效果。  相似文献   

3.
中文文本倾向性分类技术比较研究   总被引:3,自引:1,他引:2  
随着近几年互联网的发展,网络评论数量正日益增加。对这些网络评论进行挖掘和分析,识别出其中的情感倾向,可以给用户、企业、政府提供重要的决策支持。采用机器学习方法中的朴素贝叶斯和支持向量机分类模型,根据不同的停用词表、特征选择方法、特征加权方法的组合,对中文文本倾向性分类进行了研究。结论表明,采用保留情感信息相关词性的停用词表,以文档频率为特征选择方法,并应用基于绝对词频的支持向量机分类模型,能取得较好的分类效果。  相似文献   

4.
随着互联网的快速发展,网络论坛已经成为了网络时代的重要组成部分,在论坛中,主题帖固然重要,然而多数人都是通过对所关心的主题帖进行回帖来表达自身的观点,因此论坛中的回帖往往更能反映出社会的舆论倾向。以论坛回帖为研究对象,提出了一种结合论坛回帖的特点的倾向性分析系统,相比传统的倾向性识别系统,该系统通过分析回帖文本所在的楼层结构以及文本倾向性来研究回帖的语义倾向。实验表明,新系统的判别准确率在80%以上,具有良好的应用前景。  相似文献   

5.
基于主题相关性分析的文本倾向性研究   总被引:5,自引:2,他引:3  
随着互联网的普及和电子商务的快速发展,网络评论、论坛讨论已成为人们网络生活的重要部分,并影响着社会舆论导向。如何识别网络评论对敏感主题(色情、法轮功等)的主观倾向性,把握网络舆情的正面或负面导向性,已成为信息安全领域研究的重要课题。文章以网络评论(影评)为研究对象,提出了一种分析文本语义倾向性的新模型,与传统倾向性识别系统不同的是,文章通过分析倾向性词汇与文本主题的相关性来研究文本的总体语义倾向。实验表明,新模型的判别准确率在80%以上,具有良好的应用前景。  相似文献   

6.
通过分析文本挖掘中的2个关键步骤——文本特征空间构造和相似距离度量,指出流行的文本挖掘过程中存在着大量同义和关联噪声。大量存在的同义词和关联词,造成文本特征空间无法准确表达文本语义以及高维计算复杂性问题。利用潜在语义分析和关联规则挖掘构造同义和关联词集,用于减少文本特征空间中的同义词和关联词,降低信息冗余,改进挖掘效率。文中对相应的算法进行了描述,实验结果令人满意。  相似文献   

7.
刘硕研  须德  冯松鹤  刘镝  裘正定 《电子学报》2010,38(5):1156-1161
基于视觉单词的词包模型表示(Bag-of-Words)算法是目前场景分类中的主流方法.传统的视觉单词是通过无监督聚类图像块的特征向量得到的.针对传统视觉单词生成算法中没有考虑任何语义信息的缺点,本论文提出一种基于上下文语义信息的图像块视觉单词生成算法:首先,本文中使用的上下文语义信息是视觉单词之间的语义共生概率,它是由概率潜在语义分析模型(probabilistic Latent Semantic Analysis)自动分析得到,无需任何人工标注.其次,我们引入Markov随机场理论中类别标记的伪似然度近似的策略,将图像块在特征域的相似性同空间域的上下文语义共生关系有机地结合起来,从而更准确地为图像块定义视觉单词.最后统计视觉单词的出现频率作为图像的场景表示,利用支持向量机分类器完成图像的场景分类任务.实验结果表明,本算法能有效地提高视觉单词的语义准确性,并在此基础上改善场景分类的性能.  相似文献   

8.
赵永威  周苑  李弼程  柯圣财 《电子学报》2016,44(9):2181-2188
传统的视觉词典模型(Bag of Visual Words Model,BoVWM)中广泛存在视觉单词同义性和歧义性问题.且视觉词典中的一些噪声单词-“视觉停用词”,也会降低视觉词典的语义分辨能力.针对这些问题,本文提出了基于近义词自适应软分配和卡方模型的图像目标分类方法.首先,该方法利用概率潜在语义分析模型(Probabilistic Latent Semantic Analysis,PLSA)分析图像中视觉单词的语义共生概率,挖掘图像隐藏的语义主题,进而得到语义主题在某一视觉单词上的概率分布;其次,引入K-L散度度量视觉单词间的语义相关性,获取语义相关的近义词;然后,结合自适应软分配策略实现SIFT特征点与若干语义相关的近义词之间的软映射;最后,利用卡方模型滤除“视觉停用词”,重构视觉词汇分布直方图,并采用SVM分类器完成目标分类.实验结果表明,新方法能够有效克服视觉单词同义性和歧义性问题带来的不利影响,增强视觉词典的语义分辨能力,较好地改善了目标分类性能.  相似文献   

9.
关键词提取在文本相似度计算得到应用。传统的关键词提取方法忽略文本中的未登录词以及缺乏对词语语义的理解。针对科技项目申请书,研究提出一种基于未登录词识别与语义的关键词提取方法。应用Lucene和统计相融合的方法进行分词,并识别未登录词作为申请书关键词的一部分;依据社会网络理论构建词语语义相似度网络,并计算词语关联度提取申请书其他关键词。实验结果表明,与传统的关键词提取方法相比,新方法能提取更准确的关键词,有更好的科技项目相似性检查效果。  相似文献   

10.
文本的情感倾向分析是一项具有较大实用价值的关键技术。文中主要针对短语级和句子级的情感倾向分析进行对比研究。采用情感粒度中的情感短语和情感句子模型,根据不同的短语搭配模式、语义依存关系方法的组合,对中文文本倾向性分析进行了研究。研究表明,采用选取合适短语搭配模式的方式,以情感句子为最小判断单位的倾向分析方法,并应用于网络话题的中文评论文本,能取得较好的倾向分析效果。  相似文献   

11.
李新 《电子工程师》2009,35(6):15-20,23
信息安全是人们关注的焦点,从传统的基于行为的安全向基于内容本身的安全不断发展,信息安全的外延在不断扩大。Internet提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康安全网络环境的重要环节。但是,传统的文本信息过滤算法仅能实现结构对应层次上的判断,无法体现文本的语义,过滤效果难以满足智能化的要求。文中结合计算机语言学知识,提出并实现了一种语义分析的过滤方法,对于那些冗长文本中因为分散存在的关键字而造成的假匹配,通过语义分析,可以很好地甄别处理,从而提高系统的召回率。  相似文献   

12.
提出了一种基于人工神经网络的短文语义向量放缩算法,结合社交节点自身信息和短文语义,给出社交网络短文语义计算方法和突发话题发现算法。通过文本数值化实现语义距离的计算、比较、节点的分类及社区发现等。通过自行开发的微博采集工具Argus采集的大量新浪微博内容对所提模型和算法进行了验证,最后对未来工作进行了展望。  相似文献   

13.
熊炜  孙鹏  赵迪  刘粤 《光电子.激光》2023,34(11):1158-1167
自然场景文本识别中采用固定大小的卷积核提取视觉特征,后仅进行字符分类的方法,其全局建模能力弱且忽视了文本语义建模的重要性,因此,本文提出一种基于字符注意力的自然场景文本识别方法。首先构建不同于卷积网络的多级efficient Swin Transformer提取特征,其可使不同窗口的特征进行信息交互;其次设计了字符注意力模块(character attention module, CAM),使网络专注于字符区域的特征,以提取识别度更高的视觉特征;并设计语义推理模块(semantic reasoning module, SRM),根据字符的上下文信息对文本序列进行建模,获得语义特征来纠正不易区分或模糊的字符;最后融合视觉和语义特征,分类得到字符识别结果。实验结果表明,在规则文本数据集IC13上识别准确率达到了95.2%,在不规则的弯曲文本数据集CUTE上达到了85.8%,通过消融及对比实验证明了本文提出的方法可行。  相似文献   

14.
基于语义的文本流形研究   总被引:2,自引:0,他引:2       下载免费PDF全文
杨震  范科峰  雷建军  郭军 《电子学报》2009,37(3):557-561
 本文通过引入包括Isomap流形降维、查询语义词典(WordNet)等高度非线性的方法,期望将文本信息处理领域长期专注于"语法"层次的研究,演进到"语义"的层次.利用流形学习工具研究了中文词汇在语义空间(分类空间)的分布聚集情况,通过利用WordNet词典进行了短信聚类的研究.实验结果表明,本文的方法能够更好地反映文本之间的内在联系.  相似文献   

15.
徐超  周一民  沈磊 《电子与信息学报》2010,32(11):2695-2700
该文针对上下文树核用于文本表示时缺乏语义信息的问题,提出了一种面向隐含主题的上下文树核构造方法。首先采用隐含狄利克雷分配将文本中的词语映射到隐含主题空间,然后以隐含主题为单位建立上下文树模型,最后利用模型间的互信息构造上下文树核。该方法以词的语义类别来定义文本的生成模型,解决了基于词的文本建模时所遇到的统计数据的稀疏性问题。在文本数据集上的聚类实验结果表明,文中提出的上下文树核能够更好地度量文本间主题的相似性,提高了文本聚类的性能。  相似文献   

16.
方面情感分析旨在识别句子中特定方面的情感极性,是一项细粒度情感分析任务。传统基于注意力机制方法,仅在单词之间进行单一的语义交互,没有建立方面词与文本词的语法信息交互,导致方面词错误地关注到与其语法无关的文本词信息。此外,单词的位置距离特征和语法距离特征,分别体现其在句子线性形式中和句子语法依存树中的位置关系,而基于图卷积网络处理语法信息的方法却忽略距离特征,使距方面词较远的无关信息对其情感分析造成干扰。针对上述问题,该文提出多交互图卷积网络(MIGCN),首先将文本词位置距离特征馈入到每层图卷积网络,同时利用依存树中文本词的语法距离特征对图卷积网络的邻接矩阵加权,最后,设计语义交互和语法交互分别处理单词之间语义和语法信息。实验结果表明,在公共数据集上,准确率和宏F1值均优于基准模型。  相似文献   

17.
The traditional short-text classification's accuracy usually highly relies on statistical feature selection. Owing to the fact that short-text has inherent defects such as short length, weak signal and less features. It is hard to avoid noise words when doing feature extension which will highly influence the accuracy of classification. In order to solve the above problem, this paper proposes a semantic dictionary method for short-text classification. The method builds a set of domain dictionary by analyzing the specific characteristics in certain field. As each word's weight in the dictionary is designed according to the correlation between the word and the category, classification accuracy has improved to some extent. Then, in order to enhance dictionary vocabulary coverage, association rules are utilized to automatically extend semantic dictionary. Finally, an experiment based on micro-blog data is conducted which shows that the method has a good effect.  相似文献   

18.
A semantic-extension-based algorithm for short texts is proposed, by involving the Word2vec and the LDA model, to improve the performance of classification, which is frequently deteriorated by semantic dependencies and scarcity of features. For every keyword within a short text, weighted synonyms and related words can be generated by the Word2Vec and LDA model, respectively, and subsequently be inserted to extend the short text to a reasonable length. We not only have established a criterion by means of similarity estimation to determine whether a sentence should be extended, we designed a scheme to choose the number of extended words. The extended text will be classified. Experimental results show that, the classification performance of the proposed algorithm, in terms of the precision rate, is approximately 5% higher than that of the TF-IDF model and approximately 10%higher than that of the VSM method.  相似文献   

19.
重点论述了文本信息中的知识发现及潜在关联分析技术。采用本体建模技术、信息抽取技术以及知识库上的语义推理技术等来完成并实现文本信息的关联关系发现和分析,最后给出了语义关联分析技术在文本信息处理系统中的应用,并简要描述了系统的处理流程。在信息处理领域的大数据环境下,该技术有利于信息分析人员快速获取关联线索,辅助完成信息挖掘,为指挥决策提供更全面的信息支持。  相似文献   

20.
胡佳妮  郭军  邓伟洪  徐蔚然 《通信学报》2007,28(12):121-124
提出了一种基于短文本的独立语义特征抽取算法,旨在降低文本向量的稀疏性并提其高语义表示能力。该算法首先采用潜在语义分析降低文本的维数并去除噪声,然后运用独立成份分析方法在潜在语义特征中提取出最能表达语义且相互统计独立的特征。实验表明此算法优于潜在语义索引算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号