首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
王品  黄广君 《计算机工程》2011,37(12):38-40
为同时提高信息检索的查全率和查准率,提出一种基于语义依存度的句子相似度改进算法。在计算关键词相似度的基础上,研究基于语义依存相似度算法,在判定句子有效搭配对权重时加入语义角色标注信息,对算法进行加权,并用实例证明其可行性。在提高系统查全率的基础上,用改进算法对查询结果进行重排序,从而提高前K个返回结果的查准率。实验数据显示,重排序后的前20篇返回文档的查准率比系统排序前提高了3.6%。结果表明,该算法能有效提高系统查准率。  相似文献   

2.
为提高网络信息检索系统的查全率和查准率,引入空间向量模型设计网络信息检索系统。首先,基于网络信息检索系统结构基本框架采集和预处理网络信息文档。其次,引入空间向量模型计算文本段与查询式相似度。再次,根据相似度计算公式设置不同网络信息文档的相似度门槛值。最后,基于相似度门槛值过滤网络信息检索,将过滤后的网络信息作为检索结果显示给系统用户。通过对比实验的方式证明,新的检索系统可根据用户输入内容给出查全率和查准率较高的检索结果。  相似文献   

3.
文中主要研究了自动问答系统的句子相似度的几种常见算法,基于统计的VSM算法、语义相似度算法、结构的相似度算法,并在此基础上进行改进,提出了一种新的句子相似度算法,提高了自动问答系统的查全率和查准率.主要研究了分词、标注词性和权值、计算词语的相似度,进而计算句子的加权相似度,最后从FAQ中抽取相似度比较高的句子以及答案给用户.最后通过实验进行验证,这种新的句子相似度算法在一定程度上提高了自动问答系统的查全率和查准率,并具有一定的合理性  相似文献   

4.
《软件》2017,(7):97-102
根据用户观看的视频时长与视频的实际时长信息来计算用户对该视频的喜好度,在spark内存计算框架下,以喜好度作为特征项,使用朴素贝叶斯,TF-IDF和改进了的TFC-IDFC分类算法,对视频用户属性进行分析,建立用户年龄区间的分类模型。此分类模型适合视频网站运营商将信息准确的推荐给用户,同时可提高信息的利用率。考虑到传统的TF-IDF算法没有体现特征项在类内和类间的分布特点,提出了改进的TFC-IDFC算法,通过正确率和F1值两个指标对以上三种分类算法的评价,证明了加权的分类算法比不加权的算法分类效果更好,改进的TFC-IDFC算法比传统的TF-IDF算法效果更优。  相似文献   

5.
传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关键词和林业领域内其他词汇的语义距离、语义重合度和概念的层次差,并计算语义相关度;结合TF-IDF和语义相似度的结果计算特征权重。实验证明该模型可以提高文本检索的查准率和查全率,使检索结果更加满足用户的需求。  相似文献   

6.
针对用户个人兴趣度偏好、本体有效信息利用不足、本体自适应学习能力差和基于单一策略的语义相似度搜索效率低等问题,提出一种基于兴趣度和本体自适应学习的语义搜索算法。在该算法中,首先利用本体信息共享含量和信息贴近均衡路径策略来进行本体语义相似度加权度量,并对用户的兴趣度进行偏好计算,然后利用本体评价模型,依据用户个性化偏好进行本体自适应学习,从而提高本体知识库的信息共享度。实验证明,该算法具有较高的查全率和查准率。  相似文献   

7.
为提高搜索的查准率和查全率,设计一个主题式的元搜索引擎和一个类似于爬行器的伪爬行器,通过调用通用搜索引擎采集信息,查全率高于通用搜索引擎。利用反馈机制,参考用户查询历史记录,搜索结果更加接近用户的要求。通过采用主题式策略,改进文档相似度算法,提高分类的正确率和搜索引擎的查准率与搜索范围,同时减少系统响应时间,降低对服务器性能的要求。  相似文献   

8.
为了提高文本信息检索的查准率和缩短检索时间,提出了一种基于多策略的文档过滤算法.该算法根据潜在词性特征初步生成候选词,采用基于标题的特征词发现扩充候选词,使用改进的TFIDF对候选词的特征进行加权合成,去除不符合条件词,求出用户需求向量和待过滤文档向量的相似度,将相似度大于一定阈值的文档提供给用户.从实验参数确定、策略对结果的影响两方面论证了文档信息过滤算法的可行性.实验结果表明,基于多策略的文档信息过滤算法能够提高信息检索的查准率,改善信息检索的质量.  相似文献   

9.
王景中  邱铜相 《计算机应用》2015,35(10):2901-2904
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。  相似文献   

10.
为了将用户的搜索过程与用户当前情境相关联,提出一种基于面本体的情境搜索模型(Faceted Ontology-based Context Search,FOCS)。FOCS根据情境本体对用户输入的关键字进行语义扩展,生成相应的搜索本体。通过面本体标注各类异构文档,利用洪泛相似度算法进行搜索本体与面本体的本体匹配,实现情境搜索。实验结果表明,提出的方法应用于搜索引擎,与传统的信息搜索比较,具有更好的查全率与查准率。  相似文献   

11.
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。  相似文献   

12.
基于词频统计的文本关键词提取方法   总被引:1,自引:0,他引:1  
针对传统TF-IDF算法关键词提取效率低下及准确率欠佳的问题,提出一种基于词频统计的文本关键词提取方法。首先,通过齐普夫定律推导出文本中同频词数的计算公式;其次,根据同频词数计算公式确定文本中各频次词语所占比重,发现文本中绝大多数是低频词;最后,将词频统计规律应用于关键词提取,提出基于词频统计的TF-IDF算法。采用中、英文文本实验数据集进行仿真实验,其中推导出的同频词数计算公式平均相对误差未超过0.05;确立的各频次词语所占比重的最大误差绝对值为0.04;提出的基于词频统计的TF-IDF算法与传统TF-IDF算法相比,平均查准率、平均查全率和平均F1度量均有提高,而平均运行时间则均有降低。实验结果表明,在文本关键词提取中,基于词频统计的TF-IDF算法在查准率、查全率及F1指标上均优于传统TF-IDF算法,并能够有效减少关键词提取运行时间。  相似文献   

13.
文本分类特征权重改进算法   总被引:3,自引:2,他引:1       下载免费PDF全文
台德艺  王俊 《计算机工程》2010,36(9):197-199,
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

14.
文本分类特征权重改进算法   总被引:6,自引:2,他引:4       下载免费PDF全文
台德艺  王俊 《计算机工程》2010,36(9):197-199
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。  相似文献   

15.
FastText是一种准确高效的文本分类模型,但直接应用在中文长文本分类领域存在准确度不高的问题.针对该问题,提出一种融合TextRank关键子句提取和词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)的FastText中文长文本分类方法.该方法在FastText模型输入阶段使用TextRank算法提取文本的关键子句输入训练模型,同时采用TF-IDF提取文本的关键词作为特征补充,从而在减少训练语料的同时尽可能保留文本分类的关键特征.实验结果表明,此文本分类方法在数据集上准确率达到86.1%,比经典的FastText模型提高了约4%.  相似文献   

16.
针对当前医院护理不良事件上报的内容多为非结构化文本数据,缺乏合理明确的分类,人工分析难度大、人为因素多、存在漏报瞒报、人为降低事件级别等问题,提出一种基于字符卷积神经网络CNN与支持向量机SVM的中文护理不良事件文本分类模型。该模型通过构建字符级文本词汇表对文本进行向量化,利用CNN对文本进行抽象的特征提取,并用SVM分类器实现中文文本分类。与传统基于TF-IDF的SVM、随机森林等多组分类模型进行对比实验,来验证该模型在中文护理不良事件文本分类中的分类效果。  相似文献   

17.
孙向琨  邓伟 《计算机工程》2011,37(19):189-190,197
提出一种结合词频-逆向文件频率(TF-IDF)规则与多标记分类的歌曲情感分析方法。对歌曲中基于声学特征的音乐内容,用带向量夹角的多标记k近邻算法进行分类,将TF-IDF规则用于歌词内容,以计算歌词情感分数,并将其作为情感特征。采用该方法对歌词内容分类错误的类别标记进行修正。选用396首英文歌曲对该算法进行测试,结果表明,与其他方法相比,该方法能使分类精确度从69%提高到74%。  相似文献   

18.
李勇  相中启 《计算机应用》2018,38(9):2554-2559
云计算环境下密文检索困难,已有的可搜索加密方案存在时间效率低、文件检索索引不支持更新、检索结果不能实现按精确度排序等问题。首先基于计数型布隆过滤器构建文件检索索引,将文件集中的关键词哈希映射到计数型布隆过滤器索引向量,实现了按关键词进行密文检索,同时,支持密文检索索引的动态更新。其次,由于计数型布隆过滤器本身不具备语义功能,不能实现按相关度对检索结果排序,引入关键词频率矩阵和词频逆文本频率(TF-IDF)模型计算关键词的相关度分值,以实现按相关度分值对检索结果排序。最后,理论和实验性能分析证明了该方法的安全性、可更新能力、可排序能力和高效性。  相似文献   

19.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

20.
杨宏宇  王玥 《计算机应用》2018,38(2):343-347
针对现有云存储环境下多关键字密文搜索方法效率较低、缺乏自适应能力的问题,提出一种基于改进质量层次聚类的加密云数据多关键字排序搜索(MRSE-IQHC)方法。首先,采用词频-逆向文件频率(TF-IDF)方法和向量空间模型(VSM)构建文件向量;然后,提出一种改进质量层次聚类(IQHC)算法对文件向量聚类,构建文件索引和聚类索引;其次,采用K最近邻(KNN)查询算法对索引加密;最后,采用用户自定义关键字权值的方法构建搜索请求并在密文状态下搜索出前k个最相关的文件。实验结果表明,该方法与加密的云数据多关键字排序搜索(MRSE)方法以及基于层次聚类索引的加密数据多关键字排序搜索(MRSE-HCI)方法相比,在相同的搜索文件数量、返回文件数量、搜索关键字数量条件下搜索时间平均缩短了44.3%和34.2%、32.4%和13.2%、36.9%和19.4%,准确率提升了10.8%和8.6%。所提方法在云存储环境下的多关键字密文搜索中具有较高的搜索效率和准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号