排序方式: 共有182条查询结果,搜索用时 15 毫秒
171.
172.
针对多示例多标记学习算法MIMLBoost中退化过程造成的类别不平衡问题,运用人工降采样思想,引入类别重要度,提出一种改进的基于类别标记评估的退化方法.该方法通过对示例空间中的示例包进行聚类,把标记空间中的标记量化到聚类簇上,再以聚类簇为单位,利用TF-IDF算法对每个类别标记进行重要度评估和筛选,去除重要度低的标记,并将簇中的示例包与其余的类别标记拼接起来,以此来减少大类样本的出现,完成多示例多标记样本向多示例单标记样本的转化.在自然数据集上进行了实验,实验结果发现,改进算法的性能整体上优于原算法,尤其在Hamming loss、coverage、ranking loss三个评测指标上尤为明显,说明所提算法能够有效降低分类的出错率,提高算法的精度和分类效率. 相似文献
173.
174.
基于网络结构的推荐算法利用用户与项目间的结构关系进行推荐,忽略了用户偏好,而项目的标签隐含了项目的内容及用户的偏好,提出一种基于网络结构和标签的混合推荐方法。算法根据用户选择项目的标签统计信息,分别采用TF-IDF和用户对标签的支持度两种方法构建用户偏好模型,与基于网络的推荐模型进行线性组合推荐。通过在基准数据集MovieLens上测试证明,该算法在推荐结果命中率、个性化程度、多样性等方面均优于基于网络的推荐算法。 相似文献
175.
鉴于词频-逆文本频率(term frequency-inverse document frequency,TF-IDF)算法仅考虑新闻文档内特征词的频率,没有考虑类间权重值的影响,基于此,提出了一种改进的TF-IDF算法,让文本实现更好的分类效果.新算法比较特征词在不同类别中的频数,将频数最高的类确定为特征词对该类的文... 相似文献
176.
对日本文学进行语料处理,有助于快速提取具有一定价值的文本信息,从而方便阅读和理解。为此,基于深度学习算法,构建了日本文学语料处理模型。首先,利用改进TF-IDF算法进行情感语料分类;其次,结合卷积神经网络与自循环思想构建自循环CNN模型,以处理不等长语料的分类问题;最后,结合卷积神经网络与双向门控循环单元处理特定主题语料分类问题。综合上述内容,构建日本文学语料处理模型。经多次实验结果显示,该模型的分类准确率超过90%,表明该模型能够有效实现日本文学的语料处理。 相似文献
177.
基于2014—2020年我国PPP政策文本内容,运用TF-IDF算法分析PPP政策关切点演变趋势,以2017—2019年各季度政策数量为自变量、14个省的发展环境指标为控制变量、PPP规模数据为因变量,运用回归分析法对各变量之间的影响关系进行研究。结果表明:PPP政策在融资关切维度呈现“投融资—全过程管理—绩效管理—资产证券化—信托基金”的发展趋势,且模式创新一直是政策发文的关键主题;PPP政策数量与区域消费价格指数、城镇化率、交通客运总量等因素密切相关;区域发展环境指标对PPP项目规模具有显著综合影响效应。 相似文献
178.
179.
电子图画书具有较好的阅读便捷性和可获得性,但其阅读信息的冗杂性以及提取的复杂性无形中加大了儿童阅读的难度。在B/S架构体系上引入CNN以实现信息提取,并考虑到敏感性词汇带来的阅读困扰,以信息熵改进下的词权重实现TF-IDF算法的优化,最终完成自动化采集系统的设计。实验结果表明,改进TF-IDF算法能有效避免算法过拟合,信息识别最高准确率为92.14%,单字及词组检索的AUC值为0.958和0.971,系统延迟时间小于1.7 s。该自动化信息识别系统能在有效保证阅读信息的完整性、针对性以及交互性,极大地提高了阅读效率和质量。 相似文献
180.
为了提高科技项目文本相似性度量的准确性和性能,将TF-IDF和Simhash相结合,提出了一种新的科技项目文本相似性度量方法。首先,该方法对科技项目文本进行预处理得到词项集合,再使用TF-IDF计算词项集合中每个词项的权重值,并选取具有较高权重值的重要词项;其次,使用Simhash把重要词项映射为固定长度的二进制串,并求和得到文本的Simhash签名;最后,使用汉明距离计算两个Simhash签名间的相似性。实验结果表明,所提方法在查准率、召回率和F度量值方面优于传统的Simhash算法和TF-IDF方法。 相似文献