共查询到18条相似文献,搜索用时 62 毫秒
1.
中国互联网环境的发展,让大量蕴含丰富信息的新词得以普及。而传统的特征词权重TF-IDF(Term Frequency and Inverted Document Frequency)算法主要考虑TF和IDF两个方面的因素,未考虑到新词这一新兴词类的优势。针对特征项中的新词对分类结果的影响,提出基于网络新词改进文本分类TF-IDF算法。在文本预处理中识别新词,并在向量空间模型表示中改变特征权重计算公式。实验结果表明把新词发现加入文本预处理,可以达到特征降维的目的,并且改进后的特征权重算法能优化文本分类的结果。 相似文献
2.
3.
为解决重大安保任务中,情报人员在进行可疑人员情报研判时效率低下的问题,提出一种面向情报研判的可疑人员文本表示方法.针对可疑人员信息库的特点,将文本分类领域的文本表示方法应用到情报研判领域,引入文本类别参数,改进TF-IDF算法,提升算法提取分类特征的能力;通过属性加权的文本表示方法将可疑人员信息制作成特征向量,使用支持... 相似文献
4.
5.
传统的文本相似度计算大多基于词匹配的方法,忽略了词汇语义信息,计算结果很大程度上取决于文本的词汇重复率。虽然分布式词向量可以有效表达词汇语义关系,但目前基于词向量的文本处理方法大都通过词汇串联等形式表示文本,无法体现词汇在语料库中的分布情况。 针对以上问题,本文提出了一种新的计算方法, 该方法认为基于统计的文本向量各元素之间存在相关性,且该相关性可通过词汇语义相似度表示。 因此, 本文利用词汇相似度改进了基于余弦公式的文本相似度计算方法。 实验表明该方法在 F1 值和准确度评价标准上优于其他方法。 相似文献
6.
基于微博扩展的用户兴趣主题挖掘算法 总被引:1,自引:0,他引:1
为解决基于微博的用户兴趣建模存在建模不全面的问题,提出一种基于微博扩展的用户兴趣主题挖掘算法。通过结合用户自身兴趣及用户关注人的兴趣来扩充微博用户兴趣,将兴趣分为长期兴趣、过期兴趣、近期兴趣,利用改进的TF. IDF算法分析相关微博内容,利用基于时间及文档频率加权的主题词重要度计算兴趣主题词得分,得出综合全面的用户兴趣。实验结果表明,综合分析用户及用户关注人的兴趣,可以有效得到真实、全面、包含潜在兴趣的用户个人兴趣。 相似文献
7.
8.
《计算机应用与软件》2014,(6)
针对传统的分类算法不能满足多层次的工程信息分类,提出一种基于词频逆文档频率TFIDF(term frequency inverse document frequency)和分类树的多层工程信息分类法。通过对每条工程信息生成多层分类树,在不同层次构建TFIDF矩阵,减少冗余计算。通过计算树结点中储存的相似度,进行判决得出分类结果。与传统单层分类算法相比,基于树的判决方法可以对类进行多级划分、多类属划分,且计算时间仅为单层分类的59%,并获得了95.1%的召回率和97.4%的准确率,具有很好的灵活性与鲁棒性。实验结果证实了算法的有效性。 相似文献
9.
快速准确地将不同数据库中重复数据过滤清除是构建数据仓库的重要技术之一。在科技文献资源服务领域,传统的数据去重方法主要是利用数据库检索技术,进行字段内容匹配,过滤内容相同的论文数据.然而,分布在不同数据库中的论文,一般有着不同的字段信息和字段类型,即使有相同的字段也会因为字段内容可能存在乱码信息,导致算法鲁棒性不强,这是传统搜索查找匹配方法面临的一个主要挑战。为解决这个问题,借鉴推荐系统中物品画像和人物画像算法的思想,该文提出了一种基于论文画像的科技文献数据去重算法。该算法通过tf-idf技术提取文章摘要中的关键字信息,再将关键字信息通过word2vec转换为词向量,进而计算出论文之间的相似程度并过滤掉重复数据。实验结果表明,在真实的大型论文数据集下,该算法能够有效去除重复信息,auc均值可达到0.98以上。 相似文献
10.
近年来,低级别微结构特征已被广泛应用于恶意软件检测。但是,微结构特征数据通常包含大量的冗余信息,且目前的检测方法并没有对输入微结构数据进行有效地预处理,这就造成恶意软件检测需要依赖于复杂的深度学习模型才能获得较高的检测性能。然而,深度学习检测模型参数量较大,难以在计算机底层得到实际应用。为了解决上述问题,本文提出了一种新颖的动态分析方法来检测恶意软件。首先,该方法创建了一个自动微结构特征收集系统,并从收集的通用寄存器(General-Purpose Registers, GPRs)数据中随机抽取子样本作为分类特征矩阵。相比于其他微结构特征, GPRs特征具有更丰富的行为特征信息,但也包含更多的噪声信息。因此,需要对GPRs数据进行特征区间分割,以降低数据复杂度并抑制噪声。本文随后采用词频-逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)技术从抽取的特征矩阵中选择最具区分性的信息来进行恶意软件检测。TF-IDF技术可以有效降低特征矩阵的维度,从而提高检测效率。为了降低模型复杂度,并保证检测方法的性能,本文利用集成学习模型来识... 相似文献
11.
12.
协同过滤推荐是当前最成功的推荐技术之一,在电子商务推荐服务中得到了广泛的应用,它根据和目标用户具有相似行为的用户对项目的评价来进行推荐。鉴于传统的协同过滤推荐算法过于强调相似性的作用,并且和用户的认知习惯矛盾,引入了社会学中较成熟的信任机制来改进传统算法。实验结果表明,改进方法是有效的,它和传统的协同过滤推荐算法相比有更好的推荐质量。 相似文献
13.
基于网络结构的推荐算法利用用户与项目间的结构关系进行推荐,忽略了用户偏好,而项目的标签隐含了项目的内容及用户的偏好,提出一种基于网络结构和标签的混合推荐方法。算法根据用户选择项目的标签统计信息,分别采用TF-IDF和用户对标签的支持度两种方法构建用户偏好模型,与基于网络的推荐模型进行线性组合推荐。通过在基准数据集MovieLens上测试证明,该算法在推荐结果命中率、个性化程度、多样性等方面均优于基于网络的推荐算法。 相似文献
14.
人体经络系统中的个性化信息服务研究 总被引:1,自引:0,他引:1
人体经络较为复杂,涉及到经络、穴位、疾病、脏腑和针灸等方面的知识,容易导致"信息迷航",且对于不同的用户,信息需求也各不相同。针对该问题,文章系统地研究了人体经络系统中的个性化信息服务,构建了用户兴趣模型,并根据用户对场景的访问次数和停留时间来更新用户的兴趣模型,在此基础上提出基于相似用户兴趣的个性化推荐算法,从而实现为用户提供个性化的信息服务。实验结果表明,系统能根据用户信息及其交互行为,有效地推荐与用户兴趣相关的信息,较好地为用户提供个性化的信息服务。 相似文献
15.
针对新闻推荐系统中用户兴趣模型构建与用户兴趣漂移问题,提出了一种面向新闻推荐的用户兴趣模型构建与更新方法。首先采用向量空间模型与bisecting K-means聚类算法构建了原始用户兴趣模型;然后以艾宾浩斯遗忘曲线为基础构造了遗忘函数,并以此对用户兴趣模型进行时间加权,从而达到对用户兴趣模型更新的目的。实验以基于用户的协同过滤推荐、基于物品的协同过滤推荐为baseline,实验结果表明所构建的原始用户兴趣模型推荐性能更优,在◢F◣值上提升了4%,更新后的模型与原始模型相比◢F◣值提高了1.3%。 相似文献
16.
为满足用户需求,以用户为中心,解决用户关注度不断变化、数据稀疏性、优化时间和空间效率等问题,提出基于用户关注度的个性化新闻推荐系统。推荐系统引入个人兴趣和场景兴趣来描述用户关注度,使用雅克比度量用户相似性,对相似度加权求和预测用户关注度,从而提供给用户经过排序的新闻推荐列表。实验结果表明,推荐系统有效地提高了推荐精准度和覆盖度,改善了系统可扩展性和自动更新能力,具有良好的推荐效果。 相似文献
17.
18.
王文兴 《计算机工程与应用》2007,43(34):188-191
首先分析了向量模型度量用户会话的兴趣特征(SI)和聚类的兴趣特征(CI)方法的不足,在此基础上,提出了一种可扩展兴趣表示模型(SIM),给出了它的数据结构,以及使用SIM表示SI和CI的方法,并分析了这种表示方法的性能优点,最后,通过实验,以实际数据验证了使用SIM表示SI和CI的优越性。 相似文献