首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 238 毫秒
1.
克服当前文本分类法中基于词形匹配带来的局限性,基于WordNet语义词典和隐含语义索引(LSI)模型,提出了基于语义集索引的英文文本分类方法. 该方法在分类初期首先利用WordNet构建语义词典库,利用单词的语义集代替单词作为文本特征向量的特征项;然后利用LSI模型进一步深入挖掘语义集概念间的深层联系,将语言知识和概念索引有效地融合到文本向量空间的表示中. 针对Naive Bayes及简单向量距离文本分类法的实验结果显示,2种文本分类法的分类准确率均随着语义分析的深入逐步提高,充分表明了语义挖掘对文本分类的重要性和必要性。  相似文献   

2.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。  相似文献   

3.
基于文本挖掘的搭配词典自动架构探讨   总被引:2,自引:0,他引:2  
研究词语搭配的关系对于自然语言处理有很大的帮助。目前对计算机用的搭配词典是用人工方法实现的,它由人工进行维护,有更新慢、收藏的词少等缺点。为此,利用文本挖掘技术对大规模语料库进行分析,挖掘词语搭配的深层关系,在此基础上自动建立词语搭配词典,实验结果显示该方法是有效的。  相似文献   

4.
针对短文本在情感极性判断上准确率不高的缺点,在隐含狄利克雷分配(latent Dirichlet allocation, LDA)的基础上提出一种适用于短文本的情感分析模型。该模型在短文本中按词性寻找情感词汇,并对其进行有约束的词语扩充形成扩充集合,增强情感词汇之间的共现频率。将扩充集合加入文本中已发现的情感词汇,使得短文本长度增加并且模型可以提取到情感信息,模型通过这种方法将主题聚类变成情感主题聚类。该模型使用4 000条带有正负情感极性的短文本进行验证,结果表明该模型准确率比情感主题联合模型提高约11%,比隐含情感模型提高约9.5%,同时可以发现更多的情感词汇,证明该模型对于短文本能够提取更丰富的情感特征并在情感极性分类上准确率较高。  相似文献   

5.
为了提高信息挖掘方法的效率和动态性,支持在线定义知识提取模式,提出一种快速文本匹配框架.该框架包括上下文索引、上下文挖掘语言、上下文匹配算法等模块.框架从索引中直接获得提取内容的上下文信息,无需依赖文本过滤,从而提高信息提取性能.理论分析和实验表明:本框架提取方法同文本提取方法、倒排提取方法等相比,其运行时间在不同大小和结构的数据集上更为稳定高效,提取模式的长度对本框架的影响较小,因此,适合海量数据的在线提取.  相似文献   

6.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

7.
针对常规电力系统操作票的安全校验依赖人工经验、主观性强、容易出错、可靠性不高且校验效率较低,提出了一种基于注意力机制的CNN (convolutional neural network)-BiLSTM (bidirectional long short-term memory network)操作票自动校核方法。该方法首先对操作票文本进行分词处理,并利用文本向量化模型将操作票文本转变为词向量矩阵;然后以词向量矩阵作为CNN的输入,提取操作票文本局部词语间的高维语义特征,以高维语义特征构成的序列作为BiLSTM网络的输入,进一步挖掘操作票文本的上下文联系;同时引入注意力机制给予BiLSTM网络隐藏层不同的权重以加强关键词语的影响,最终实现操作票文本的深度语义特征挖掘,通过全连接层将深度语义特征映射到校核标签空间,给出调度操作票文本的校核判定结果。以湖北某地区电网的操作票为样本进行实验,实验结果表明,该方法校验正确率较高,能够较为准确地判别操作票的正确性,有效提高操作票校验的工作效率。  相似文献   

8.
随着信息的海量化,如何获取用户所需已经日益突显出其重要性.Web文本挖掘可对Web上大量文档集合的内容进行总结、分类、聚类、分析以便于利用.介绍了Web文本挖掘的定义、特点,重点分析了其相关的几种关键技术-文本特征表示、特征子选取、文本分类、文本聚类,并对其发展作以展望.  相似文献   

9.
针对特征提取忽略特征项语义问题,提出一种基于潜在狄利克雷分配模型(LDA)改进的特征提取算法。该算法基于文档的潜在主题分布,将文档转换为隐含主题与主题下的单词分布按特定比例组成的集合,通过一定的概率选中某个主题,并从该主题下以一定的概率选中某个词语来生成一篇文档。同时,针对LDA算法"平等"对待所有特征项的情况,对LDA模型进行高斯加权。实验结果表明,该算法相比TF-IDF算法、信息增益法,能够提取更多的有效特征,使得分类准确率有所提高。  相似文献   

10.
特征提取是文本挖掘基础性、关键性的技术,现将基于粗糙集的属性约简算法应用于文本挖掘中特征项的提取工作,以解决文本特征降维问题.实验表明,利用粗糙集方法进行特征提取,能够去掉多余属性,大大降低文本特征项的维数。  相似文献   

11.
为提高关键词自动抽取的准确率,提出了基于字同现频率的关键词自动抽取算法。根据词的位置和文本长度改进TF/IDF算法,由字同现频率计算词的信息量,运用特征加权计算词的权重,选取权重大的词作为关键词。给出了关键词自动抽取的过程,设计了关键词抽取的对比实验,验证该算法的有效性。实验结果表明该算法在准确率和召回率上具有优势。  相似文献   

12.
针对短文本单一共现词特征扩展效果不理想的情况,提出一种改进的基于共现关系的短文本特征扩展算法,改进之处在于考虑了多个共现词同时出现的情况,改进了特征词权重计算公式及特征扩展策略,并应用于中文短文本分类,使分类准确度得到了一定提升。  相似文献   

13.
与传统静态数据库中的数据不同,数据流是一个按时间到达的有序的项集,这使得经典的频繁项集挖掘算法难以适用到数据流中.根据数据流的特点,提出了数据流频繁项集挖掘算法FP—SegCount.该算法将数据流分段并利用改进的FP—growth算法挖掘分段中的频繁项集.然后,利用Count Min Sketch进行项集计数.算法解决了压缩统计和计算快速高效的问题.通过和FP—Ds算法的实验对比,FP—SegCount算法具有较好的时间效率.  相似文献   

14.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

15.
刘挺  卢志茂  李生 《哈尔滨工业大学学报》2005,37(12):1603-1605,1649
为研究在给定上下文中如何确定多义词的词义,介绍了一种无指导的词义消歧技术和一个汉语全文词义标注系统的设计实现过程.该系统基于贝叶斯模型,使用大规模语料进行训练,较好地解决了知识获取中数据稀疏的问题.该系统具有标注正确率高和运行速度快等特点,适合大规模文本的词义标注工作.  相似文献   

16.
在公检法、纪检监察等领域的大数据分析中,结构化数据和非结构化文本数据往往成为主要数据源. 基于这类数据进行业务分析时,需要重点提取数据背后的隐型关联,而事件抽取是对此类文本数据进行关联分析的核心基础. 过往事件抽取任务将事件触发词识别和事件要素识别分开进行,由事件触发词识别得到的事件触发词及事件类型进行后续的事件要素识别,存在误差传播的问题,且以往的基于表示的方法构建的词向量,对于句子级特征的提取能力存在缺失. 提出了一种RBBLC联合抽取模型,以序列标注的方式同时完成事件识别和事件要素识别. 所提RBBLC模型基于RoBERTa构建包含更丰富上下文信息的词向量,继而应用BiLSTM-CNN的网络结构捕捉语句内部关联信息进行事件触发词及论元标签预测和事件类型预测. 在CEC语料库上进行了抽取实验和归纳分析,本方法的F1值、准确率、召回率三项指标较基线方法分别提高了16%、28%和24%,有效提升了事件抽取任务性能.  相似文献   

17.
Category-based statistic language model is an important method to solve the problem of sparse data. But there are two bottlenecks: 1) The problem of word clustering. It is hard to find a suitable clustering method with good performance and less computation. 2) Class-based method always loses the prediction ability to adapt the text in different domains. In order to solve above problems, a definition of word similarity by utilizing mutual information was presented. Based on word similarity, the definition of word set similarity was given. Experiments show that word clustering algorithm based on similarity is better than conventional greedy clustering method in speed and performance, and the perplexity is reduced from 283 to 218. At the same time, an absolute weighted difference method was presented and was used to construct vari-gram language model which has good prediction ability. The perplexity of vari-gram model is reduced from 234.65 to 219.14 on Chinese corpora, and is reduced from 195.56 to 184.25 on English corpora compared with category-based model.  相似文献   

18.
针对自动驾驶车辆在行使中对目标路径跟踪精度不高、鲁棒性能较差等问题,提出了一种深度确定性策略梯度RF-DDPG(reward function-deep deterministic policy gradient)路径跟踪算法。该算法是在深度强化学习DDPG的基础上,设计DDPG算法的奖励函数,以此优化DDPG的参数,达到所需跟踪精度及稳定性。并且采用aopllo自动驾驶仿真平台,对原始的DDPG算法和改进的RF-DDPG路径跟踪控制算法进行了仿真实验。研究结果表明,所提出的RF-DDPG算法在路径跟踪精度以及鲁棒性能等方面均优于DDPG算法。  相似文献   

19.
针对现有序列挖掘算法特征维度高、学习算法时间复杂度高等方面的不足,提出一种主题特征表示法,将符号序列转换为一组表示多个主题呈现度的概率向量。基于文本挖掘中常用的隐含狄利克雷分配(latent Dirichlet allocation, LDA)主题模型,视短序列元组为序列的浅层特征(词),利用LDA模型学习算法提取主题及其概率分布,作为序列的深层特征。在6个实际序列数据集上进行试验,并与基于元组、Markov模型的现有方法作对比,结果表明,新方法在降低特征维度的同时提高了表示模型的学习效率,在符号序列分类应用中可以取得较理想的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号