首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。  相似文献   

2.
基于聚类的雷达数据按需分发技术   总被引:1,自引:0,他引:1       下载免费PDF全文
针对传统雷达数据分发方式未能较好地实现按需分发的问题,提出基于聚类的雷达数据按需分发技术.根据用户提交的感兴趣项目信息,采用聚类和协同过滤推荐算法挖掘出用户潜在感兴趣的详细项目信息.仿真结果表明,该方法能够较好地实现雷达数据的按需分发.  相似文献   

3.
为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法.针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,提升算法提取分类特征的能力;通过属性加权的文本表示方法将可疑人员信息制作成特征向量,使用支持...  相似文献   

4.
基于VSM的分层网页推荐算法   总被引:2,自引:0,他引:2  
在面对大数据量时,传统的基于VSM的分层网页推荐算法由于分类的不准确,造成推荐精确率较低。该文针对这个缺陷提出了改进的分层推荐算法,该算法在推荐过程中综合考虑了领域和用户兴趣,以及网页和用户兴趣的相似程度,来为用户提供高效的个性化网页推荐。实验表明,该算法提高了网页推荐的精确率。  相似文献   

5.
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大都通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。 针对以上问题,本文提出了一种新的计算方法, 该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。 因此, 本文利用词汇相似度改进了基于余弦公式的文本相似度计算方法。 实验表明该方法在 F1 值和准确度评价标准上优于其他方法。  相似文献   

6.
基于微博扩展的用户兴趣主题挖掘算法   总被引:1,自引:0,他引:1  
为解决基于微博的用户兴趣建模存在建模不全面的问题,提出一种基于微博扩展的用户兴趣主题挖掘算法。通过结合用户自身兴趣及用户关注人的兴趣来扩充微博用户兴趣,将兴趣分为长期兴趣、过期兴趣、近期兴趣,利用改进的TF. IDF算法分析相关微博内容,利用基于时间及文档频率加权的主题词重要度计算兴趣主题词得分,得出综合全面的用户兴趣。实验结果表明,综合分析用户及用户关注人的兴趣,可以有效得到真实、全面、包含潜在兴趣的用户个人兴趣。  相似文献   

7.
基于VSM的文本相似度计算的研究*   总被引:14,自引:1,他引:14  
文本相似度的计算作为其他文本信息处理的基础和关键,其计算准确率和效率直接影响其他文本信息处理的结果。提出改进的DF算法和TDIDF算法,一方面利用了DF算法具有线性的时间复杂度,比较适合大规模文本处理的特点,并通过适当增加关键词的方法,弥补了其对个别有用信息错误过滤的不足;另一方面,利用特征项在特征选择阶段的权重对TDIDF方法进行加权处理,在不增加开销的情况下扩大了文档集的规模,还提高了相似度计算的精确度。  相似文献   

8.
针对传统的分类算法不能满足多层次的工程信息分类,提出一种基于词频逆文档频率TFIDF(term frequency inverse document frequency)和分类树的多层工程信息分类法。通过对每条工程信息生成多层分类树,在不同层次构建TFIDF矩阵,减少冗余计算。通过计算树结点中储存的相似度,进行判决得出分类结果。与传统单层分类算法相比,基于树的判决方法可以对类进行多级划分、多类属划分,且计算时间仅为单层分类的59%,并获得了95.1%的召回率和97.4%的准确率,具有很好的灵活性与鲁棒性。实验结果证实了算法的有效性。  相似文献   

9.
快速准确地将不同数据库中重复数据过滤清除是构建数据仓库的重要技术之一。在科技文献资源服务领域,传统的数据去重方法主要是利用数据库检索技术,进行字段内容匹配,过滤内容相同的论文数据.然而,分布在不同数据库中的论文,一般有着不同的字段信息和字段类型,即使有相同的字段也会因为字段内容可能存在乱码信息,导致算法鲁棒性不强,这是传统搜索查找匹配方法面临的一个主要挑战。为解决这个问题,借鉴推荐系统中物品画像和人物画像算法的思想,该文提出了一种基于论文画像的科技文献数据去重算法。该算法通过tf-idf技术提取文章摘要中的关键字信息,再将关键字信息通过word2vec转换为词向量,进而计算出论文之间的相似程度并过滤掉重复数据。实验结果表明,在真实的大型论文数据集下,该算法能够有效去除重复信息,auc均值可达到0.98以上。  相似文献   

10.
近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性能。然而,深度学习检测模型参数量较大,难以在计算机底层得到实际应用。为了解决上述问题,本文提出了一种新颖的动态分析方法来检测恶意软件。首先,该方法创建了一个自动微结构特征收集系统,并从收集的通用寄存器(General-Purpose Registers, GPRs)数据中随机抽取子样本作为分类特征矩阵。相比于其他微结构特征, GPRs特征具有更丰富的行为特征信息,但也包含更多的噪声信息。因此,需要对GPRs数据进行特征区间分割,以降低数据复杂度并抑制噪声。本文随后采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)技术从抽取的特征矩阵中选择最具区分性的信息来进行恶意软件检测。TF-IDF技术可以有效降低特征矩阵的维度,从而提高检测效率。为了降低模型复杂度,并保证检测方法的性能,本文利用集成学习模型来识...  相似文献   

11.
为降低用户寻找旅游资源时的负担,更好地处理用户的需求和偏好,从用户角度出发,提出了一种基于本体的二次推荐方法。该方法引入本体来描述旅游资源,实现了用户的直接需求及偏好兴趣信息与推荐中过滤条件的关联,用户可对推荐结果进行评价。理论分析和实验表明,该方法可行,推荐结果能够覆盖绝大部分用户的选择,具有较好的效果。  相似文献   

12.
结合用户信任模型的协同过滤推荐方法研究   总被引:5,自引:0,他引:5       下载免费PDF全文
协同过滤推荐是当前最成功的推荐技术之一,在电子商务推荐服务中得到了广泛的应用,它根据和目标用户具有相似行为的用户对项目的评价来进行推荐。鉴于传统的协同过滤推荐算法过于强调相似性的作用,并且和用户的认知习惯矛盾,引入了社会学中较成熟的信任机制来改进传统算法。实验结果表明,改进方法是有效的,它和传统的协同过滤推荐算法相比有更好的推荐质量。  相似文献   

13.
基于网络结构的推荐算法利用用户与项目间的结构关系进行推荐,忽略了用户偏好,而项目的标签隐含了项目的内容及用户的偏好,提出一种基于网络结构和标签的混合推荐方法。算法根据用户选择项目的标签统计信息,分别采用TF-IDF和用户对标签的支持度两种方法构建用户偏好模型,与基于网络的推荐模型进行线性组合推荐。通过在基准数据集MovieLens上测试证明,该算法在推荐结果命中率、个性化程度、多样性等方面均优于基于网络的推荐算法。  相似文献   

14.
人体经络系统中的个性化信息服务研究   总被引:1,自引:0,他引:1  
人体经络较为复杂,涉及到经络、穴位、疾病、脏腑和针灸等方面的知识,容易导致"信息迷航",且对于不同的用户,信息需求也各不相同。针对该问题,文章系统地研究了人体经络系统中的个性化信息服务,构建了用户兴趣模型,并根据用户对场景的访问次数和停留时间来更新用户的兴趣模型,在此基础上提出基于相似用户兴趣的个性化推荐算法,从而实现为用户提供个性化的信息服务。实验结果表明,系统能根据用户信息及其交互行为,有效地推荐与用户兴趣相关的信息,较好地为用户提供个性化的信息服务。  相似文献   

15.
针对新闻推荐系统中用户兴趣模型构建与用户兴趣漂移问题,提出了一种面向新闻推荐的用户兴趣模型构建与更新方法。首先采用向量空间模型与bisecting K-means聚类算法构建了原始用户兴趣模型;然后以艾宾浩斯遗忘曲线为基础构造了遗忘函数,并以此对用户兴趣模型进行时间加权,从而达到对用户兴趣模型更新的目的。实验以基于用户的协同过滤推荐、基于物品的协同过滤推荐为baseline,实验结果表明所构建的原始用户兴趣模型推荐性能更优,在◢F◣值上提升了4%,更新后的模型与原始模型相比◢F◣值提高了1.3%。  相似文献   

16.
为满足用户需求,以用户为中心,解决用户关注度不断变化、数据稀疏性、优化时间和空间效率等问题,提出基于用户关注度的个性化新闻推荐系统。推荐系统引入个人兴趣和场景兴趣来描述用户关注度,使用雅克比度量用户相似性,对相似度加权求和预测用户关注度,从而提供给用户经过排序的新闻推荐列表。实验结果表明,推荐系统有效地提高了推荐精准度和覆盖度,改善了系统可扩展性和自动更新能力,具有良好的推荐效果。  相似文献   

17.
以往的协同过滤推荐算法具有数据稀疏性问题,而对于新资源还具有"冷启动"问题。为此提出了一种基于资源特征的协同过滤推荐方法。通过收集和分析用户的行为,将用户对于资源的喜好转化为用户对于关键词的兴趣权重,将用户兴趣的改变表示为用户兴趣关键词权重的改变,以此来建立和更新用户兴趣模型。最后,通过发现用户兴趣模型与资源模型之间的联系从而达到资源推荐的目的。实验表明,该算法不仅可以跟踪用户的兴趣变迁,而且没有数据稀疏性问题和新资源的"冷启动"问题。  相似文献   

18.
首先分析了向量模型度量用户会话的兴趣特征(SI)和聚类的兴趣特征(CI)方法的不足,在此基础上,提出了一种可扩展兴趣表示模型(SIM),给出了它的数据结构,以及使用SIM表示SI和CI的方法,并分析了这种表示方法的性能优点,最后,通过实验,以实际数据验证了使用SIM表示SI和CI的优越性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号