首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
李镇君  周竹荣 《计算机应用》2015,35(12):3506-3510
针对TF-IDF算法在加权时没有考虑特征词本身在文档中重要度的问题,提出利用用户阅读时的阅读行为来改进TF-IDF。将Document Triage引入到TF-IDF中,利用IPM收集用户阅读中行为的相关信息,计算文档评分。由于用户的标注内容往往是文章的重要内容,或者反映了用户的兴趣。因此,赋予用户标注词项更大的权重,将文档评分和用户的标注信息等作为因子引入到TF-IDF中,设计出改进的加权算法DT-TF-IDF。实验结果表明,相对传统TF-IDF算法,DT-TF-IDF的查全率、查准率,以及查准率和查全率的调和均值都有了一定的提高。DT-TF-IDF算法比传统TF-IDF算法更加有效,提高了文本相似度计算的准确性。  相似文献   

2.
针对传统推荐系统主要依赖用户对物品的评分数据而无法学习到用户和项目的深层次特征的问题,提出基于注意力机制与改进TF-IDF的推荐算法(AMITI)。通过将双层注意力机制引入并行的神经网络推荐模型,提高模型对重要特征的挖掘能力。基于用户评分及项目类别改进TF-IDF,依据项目类别权重将推荐结果分类以构建不同类型的项目组并完成推荐。实验结果表明,AMITI算法能提高对文本中重要内容的关注度以及项目分配的注意力权重,有效提升推荐精度并在实现项目组推荐后改善推荐效果。  相似文献   

3.
刘金硕  邓莹莹  邓娟 《计算机科学》2015,42(Z11):7-9, 26
以网络食品安全信息为研究对象,旨在提出一个能够解决食品安全领域专有名词指代不明的歧义消解算法。文中采用的歧义消解算法是在改进的TF-IDF特征选择算法的基础上,结合了隐含马尔可夫模型(HMM)和SVM分类器,从而实现专有名词的歧义消解。提出了一个在TF-IDF的基础上增加两个加权因子的特征提取算法LN-TF-IDF。实验表明,以202831条文本实验所得的准确率和召回率的调和平均值F1值为评价标准,设计的基于改进TF-IDF的食品安全领域歧义消解算法的效果比基于传统TF-IDF的歧义消解算法平均提升了7.31%,且在不同时间抓取的实验数据集下,本算法的效果也相对稳定。  相似文献   

4.
龚静  胡平霞  胡灿 《微机发展》2014,(9):128-132
TF-IDF算法是文本分类中一种常用的权重计算方法,但是TF-IDF仅仅考虑了特征项在文本中出现的次数以及该特征项在训练集中的出现频率,没有考虑特征项在各个类间的分布情况及特征项的语义信息。因此针对TF-IDF的不足提出了一种改进的TF-IDF算法,此算法既考虑了特征项在类内的分布情况又考虑了特征项的位置及长度等语义因素,能更好地反映特征项的重要性。用朴素贝叶斯分类器验证其有效性,实验结果表明该算法优于TF-IDF算法,能较好地提高文本分类的准确率。  相似文献   

5.
经典的TF-IDF算法仅考虑了特征词频率和逆文档频率等,忽略了特征词的类间、类内分布信息.本文通过TF-IDF算法计算特征词在不同规模语料库中的权重,分析特征词的类信息对权重的影响,并进一步针对该影响提出一种新的衡量特征词的类间、类内分布信息的方法.本文通过增加两个新的权值,类间离散因子和类内离散因子,将其与经典的TF-IDF算法结合,提出了基于类信息的改进的TF-IDF-CI算法.本文通过朴素贝叶斯模型对改进后的算法的分类性能进行了验证.实验证明,改进后的权重算法在测试数据集上的表现,在准确率、召回率和F1值上均优于经典的TF-IDF算法.  相似文献   

6.
随着Internet技术的发展,人们不仅可以从网络获取信息,也能够在网络上表达个人观点、分享自身体验。自Web2.0以来网络已经由原来的阅读式网络转换成为了当今的交互式网络。而伴随网络发展的是成几何速率增长的网络信息。文本信息是网络信息的重要组成部分,不同文本信息可以分成新闻、娱乐、时评、财经等不同类别。进行中文文本分类不仅能为建立文本语料库提供便利还能够应用到其它数据挖掘领域。论文基于改进TF-IDF特征并结合SVM模型设计了一种自动化的中文文本分类系统。实验证明,对比传统特征提取方式,采用改进TF-IDF特征策略进行文本分类能够获得更高的准确度。  相似文献   

7.
对日本文学进行语料处理,有助于快速提取具有一定价值的文本信息,从而方便阅读和理解。为此,基于深度学习算法,构建了日本文学语料处理模型。首先,利用改进TF-IDF算法进行情感语料分类;其次,结合卷积神经网络与自循环思想构建自循环CNN模型,以处理不等长语料的分类问题;最后,结合卷积神经网络与双向门控循环单元处理特定主题语料分类问题。综合上述内容,构建日本文学语料处理模型。经多次实验结果显示,该模型的分类准确率超过90%,表明该模型能够有效实现日本文学的语料处理。  相似文献   

8.
《软件》2017,(7):97-102
根据用户观看的视频时长与视频的实际时长信息来计算用户对该视频的喜好度,在spark内存计算框架下,以喜好度作为特征项,使用朴素贝叶斯,TF-IDF和改进了的TFC-IDFC分类算法,对视频用户属性进行分析,建立用户年龄区间的分类模型。此分类模型适合视频网站运营商将信息准确的推荐给用户,同时可提高信息的利用率。考虑到传统的TF-IDF算法没有体现特征项在类内和类间的分布特点,提出了改进的TFC-IDFC算法,通过正确率和F1值两个指标对以上三种分类算法的评价,证明了加权的分类算法比不加权的算法分类效果更好,改进的TFC-IDFC算法比传统的TF-IDF算法效果更优。  相似文献   

9.
王景中  邱铜相 《计算机应用》2015,35(10):2901-2904
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。  相似文献   

10.
银行智能派单系统的实现和功能完善,对银行提升客户满意度、提高突发事件处理效率、降低人工处理成本等非常重要。针对现有的基于Word2vec和TextCNN模型的银行智能派单系统进行了改进,针对特征词权重表达性弱,特征词类别及位置区分性弱等问题,提出基于改进TF-IDF加权的Word2vec词嵌入表示和卷积神经网络结合的银行智能派单系统:首先利用Word2vec模型得到输入事件单的词嵌入向量;再针对经典TF-IDF方法不具备类别区分性、位置区分性,也没有考虑极端频率特征词代表性的情况,提出改进型TF-IDF算法,计算每个特征词的权重,得到基于改进TF-IDF加权的Word2vec词嵌入表示;最后在卷积神经网络模型中进行训练,通过迭代训练最终得到分类器,利用分类器可对输入事件单信息自动进行系统类别的判断。实验结果表明改进词嵌入表示的银行智能派单系统分类模型的宏查准率、宏查全率、准确率以及宏F1值都得到进一步的提高。  相似文献   

11.
中文RSS信息自动检索与分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
设计并实现了RSS垂直爬虫算法,利用广度优先算法聚焦于RSS源进行自动采集,并在文本分词基础上,针对RSS源进行词语权重计算方法的改进及词语过滤,利用VSM方法实现RSS自动分类。实验结果表明,RSS系统在较低的负载下,能以较高的效率和正确率实现中文RSS信息自动检索与分类,从而有效进行RSS信息聚合管理。  相似文献   

12.
针对复杂网络拓扑采用传统网络拓扑可视化方式呈现会导致网络结构信息难以观察的问题,文中在提出一种基于节点和边关键性的网络拓扑压缩算法—NECB算法以及改进的FDA算法—FR算法的基础上,利用复杂网络拓扑可视化软件NetworkX设计并实现了一种复杂网络拓扑可视化方案。呈现结果表明NECB算法能在有效压缩网络拓扑规模的同时保存原始网络的主要信息,该方案能有效展现复杂网络拓扑的结构信息,为分析复杂网络提供支持。  相似文献   

13.
采用向量空间模型(vector space model,VSM)表示网页文本,通过在CHI(Chi-Square)特征选择算法中引入频度、集中度、分散度、位置信息这四个特征因子,并考虑词长和位置特征因子改进TF-IDF权重计算公式,提出了PCHI-PTFIDF(promoted CHI-promoted TF-IDF)算法用于中文文本分类。改进算法能降维得到分类能力更强的特征项集、更精确地反映特征项的权重分布情况。结果显示,与使用传统CHI和传统TF-IDF的文本分类算法相比,PCHI-PTFIDF算法的宏F1值平均提高了10%。  相似文献   

14.
传统的TF-IDF(Term Frequency&Inverse Documentation Frequency)算法提取的关键词不能合理地代表某疾病的症状,降低智能诊断系统的性能。对此,提出一种改进的TF-IDF算法,并将其应用在牛疾病诊断系统中。系统将用户描述的文本内容转换成向量的形式,用TF-IDF算法提取关键症状词,利用余弦定理和可信度计算给出可靠的疾病推荐和治疗方案。实验结果表明,该算法在疾病诊断中准确率和可信度两方面都具有更好的效果。与传统TF-IDF算法相比,平均可信度提高约4%。  相似文献   

15.
为解决核电文件分发面临准确性不高以及处理时间长的问题,文章提出建立一套自动化、智能化的文件分发系统方案,并从基于规则和利用机器学习进行文件智能化分发两个方面展开研究。通过对文件关键信息的识别和提取,建立基于关键信息的规则矩阵,同时附加规则执行反馈机制以完善规则矩阵。此外,对系统的数据来源和数据存储进行分析设计,借助机器学习完善分发规则以及利用算法计算出供系统使用的文件推荐列表。通过在原分发流程上增加规则引擎和智能推荐环节,大大增强了系统的自动化和智能化程度。从实际应用情况来看,智能化的文件分发系统能有效地提高分发准确性和及时性,实现了从人工向智能的跨越。为进一步提升应用效果,文章从语言算法模型和深度学习框架角度提出了后续的改进方向。  相似文献   

16.
利用标签的形式简单有效地对教育资源进行准确描述,对互联网中杂乱、庞大的教育资源进行高效分类,能使用户便捷地浏览和获取教育资源信息并提高教育资源的利用率。自然语言处理中生成文本标签的方法有很多种,但特征描述不全面,因此需要研究多特征融合的标签生成方法。本文结合中文文本的特点,在TextRank算法基础上,加入TF-IDF权重和位置信息权重,考虑词语在语料库中的信息及在文章中的位置信息,生成包括语料库信息和位置信息的标签,形成多特征融合的标签生成算法。测试结果及分析表明,多特征融合后的标签生成算法最高F值为0.571,其平均值为0.34,优于常用的TextRank算法和TF-IDF算法,有效提高了教育资源标签质量,有利于教育资源更好的利用和管理。  相似文献   

17.
柴天佑 《自动化学报》2018,44(11):1923-1930
本文结合中国自动化科学与技术的发展状况和中国绝大多数大学设有自动化专业的现状,借鉴自动化科学与技术发展历程中的成功经验,结合国家社会经济发展和国家安全对自动化系统的未来需求,以生产制造系统、重要运载工具和人参与的信息物理系统为主要对象,以自动化系统的发展方向—智能自主控制系统、智能优化决策系统和智能优化决策与控制一体化系统的愿景功能为目标,以研究实现愿景功能的建模、控制与优化新算法和新的自动化系统的设计方法和实现技术以及结合重大应用领域开展的应用研究为主线,提出了自动化科学与技术的发展方向,并结合新兴应用领域对自动化科学与技术的需求与挑战,提出了未来自动化科学与技术的发展方向.  相似文献   

18.
针对民航空管自动化系统主备同步信息监测方法效率低、通用性较差的现状,研究并提出了一种基于IFPL的飞行计划解析算法和一种基于主备自动化航迹同步算法。依据所研究的算法,设计了一款基于JAVA的空管自动化主备同步信息监测系统,详细阐述了系统结构原理和软件设计实现过程,给出了系统功能实现。实践表明,该系统能够全面、实时反馈目标航迹运动态势和飞行计划信息的更新,能对自动化系统数据交换标准MH/T4029.3和航迹同步的应用建立科学评价体系,实现自动化系统主备同步信息在线监控,对民航空管自动化系统主备同步工作的推进具有重要的参考价值。  相似文献   

19.
《软件》2019,(7):47-51
如何更方便快速地获取到准确的信息是众多专家学者研究的课题。立足于微信小程序与手机客户端平台,智能问答系统从总体的设计出发,到知识库的构建,通过对自然语言处理,借用改进的TF-IDF算法提取关键字特征,BM25算法计算语素权值,以达到精确快速匹配到最佳答案的目的,从而解决问题。初步测试证明,该系统具有良好的实用性,稳定性和可拓展性。  相似文献   

20.
基于贝叶斯分类器的主题爬虫研究*   总被引:4,自引:0,他引:4  
主题爬虫是实现定题搜索引擎的核心技术。提出了基于贝叶斯分类器实现主题爬虫的方法,介绍了基于贝叶斯分类器的主题爬虫的系统结构以及系统关键部分的实现,包括URL队列、爬行历史、页面下载以及页面分析,并重点介绍了基于贝叶斯分类器的主题相关度算法。爬虫使用改进的TF-IDF算法来提取网页内容的特征,并采用贝叶斯分类器计算其主题相关度。实验结果表明,在搜索大量网络资源的情况下,贝叶斯分类器比PageRank算法更适合用于实现主题爬虫。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号