首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 125 毫秒
1.
为解决社交媒体中标签的缺失、错误等问题,提出一种基于内容相似度和语义相似度的标签优化方法。首先利用TF-IDF(term frequency-inverse document frequency)计算文本间相似度,然后利用文本间相似度与标签相似度的一致性定义了目标函数,最后加入了修正项来减少优化前后用户提供标签的偏差。将目标函数应用到豆瓣电影标签进行优化,并将结果与原标签进行比较分析。与原标签相比,优化后的标签准确性得到了提高。试验结果表明,该方法能够有效地优化标签,有效解决标签缺失和错误等问题。  相似文献   

2.
利用互联网上的社会化标注信息来改善查询扩展效果,是目前信息检索领域的一个研究热点.根据社会化标注系统中数据的特点,提出了一种改进的加权社会化相似度算法,称作Weighted Sim-Rank(WSR)算法,用于改善查询扩展效果.WSR方法在计算标签和网页之间边的权值时,既考虑与标签和网页共现的用户数量,又兼顾到被同一标签所标注过的不同网页数.所有的实验都是在从del.icio.us网站上抽取的真实标注数据集上进行的.实验结果表明,WSR方法能够有效地衡量标签之间的相似度,与其他几种基于社会化标注的方法相比,可以获得更有用的查询扩展信息,明显地改善了查询扩展的效果.  相似文献   

3.
为了实现雷达情报信息的按需推送、解决情报用户信息过载的问题,提出了一种利用内容相似度的个性化推荐技术筛选用户感兴趣情报信息的方法.通过专家评价建立基于情报特征向量的用户兴趣模型,利用余弦相似度和欧几里得相似度算法获得其内容相似度,根据相似度形成用户的雷达情报推荐.仿真分析比较了两种相似度算法对情报内容的处理性能,结果表明两种算法均可实现情报推荐,而欧几里得相似度算法具有更好的平均绝对偏差性能.  相似文献   

4.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

5.
针对向量空间模型忽略词语出现位置和词序的缺点,结合科技文献结构明显分层的特点,本文提出了基于N层向量空间模型的文本相似度计算方法.该算法首先用N层向量空间模型表示查询短语和科技文献,其次在词频角度上和词序角度上分别计算两者间的相似度,最后得出整体的文本相似度.将本文算法应用于中、朝、英对照科技文献多语种检索模块测试其有效性,测试结果表明,本文设计的文本相似度计算方法算法性能较好,与传统的向量空间模型余弦相似度算法相比,查准率提高了2.7%,MRR提高了2.02%.  相似文献   

6.
针对基于VSM的文档排版格式检查算法中,段落无法同时与多个逻辑标签对比,段落逻辑标签判断正确率召回率较低的问题。在原VSM算法的基础之上,根据模糊模式识别中的隶属度原理为定性分量的量化设计了隶属度表,分析去量纲化后各分量的变化范围和差异程度的变化,找到适用于格式向量的去量纲化方法,分析去量纲化方法和相似度度量方法结合之后的逻辑标签判断效果,找到与去量纲化方法匹配的相似度度量方法。实验表明,较以往算法,改进算法可以将段落与任意逻辑标签对比,减少去量纲化与相似度度量中信息的丢失,有效提高逻辑标签判断的准确率及召回率,适合于含有多种类型变量的向量相似度问题的求解。  相似文献   

7.
针对图像检索中图像间相似度和训练集带标签样本不足问题,提出一种改进的三元组卷积神经网络的图像检索算法。采用基于三元组卷积神经网络,在相似数据集上进行网络训练,为图像检索项目提取更好的特征。实验结果表明,该算法在相似数据集上进行重训练,有助于提高基于内容的图像检索任务的性能。  相似文献   

8.
K-邻近算法作为一种比较简单,易于实现并且错误低的分类算法,广泛应用于网页分类、模式识别和数据挖掘等多个领域中.本文介绍了传统K-邻近算法并分析了该算法在网页相似度值的计算存在的不足,在此基础上,本文提出了基于类中心向量的K-近邻算法,通过理论分析和仿真实验结果证明了该算法对于中文网页分类具有较好的分类效果.  相似文献   

9.
基于同义词词林的词语相似度计算方法   总被引:1,自引:0,他引:1  
为解决词语相在语义网自适应学习系统中相似度计算不清的问题,以同义词词林为基础,提出并实现了一种基于同义词词林的词语相似度计算方法,充分分析并利用了同义词词林的编码及结构特点。该算法同时考虑了词语的相似性,和词语的相关性。进行人工测试,替换测试以及与当前流行的基于"知网"的词语相似度算法对比测试的结果表明,该算法与人们思维中的相似度值基本一致,有较高的准确性。  相似文献   

10.
微博具有传播快、数量大、语言简练等特点,对舆情分析提出了更高要求。从微博短文本中提取特征用来计算相似度时,现有的字符串匹配方法在语义分析方面存在局限性。因此本文从语义角度提出一种基于名词语义的微博相似度算法。该算法将名词集合作为微博特征,利用《知网》词典树状结构,计算得到微博短文本间的相似度。中等规模微博数据集实验表明,本文提出的算法能够准确判断微博主题含义,同一类别微博相似度90%以上分布在0.6-1.0之间,可为后续微博聚类服务。  相似文献   

11.
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.  相似文献   

12.
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测.  相似文献   

13.
提出一种新的新闻网页内容提取方法。与已有的研究相比,它自动判别网页是否含有主内容,并且回避了模板和DOM-Tree方法所带来的局限。主要工作包括:①提出了一种网页分块方法,通过一趟遍历将网页主内容和噪声划分到不同的块中;②提出网页块分布的概念并研究了块分布的属性,根据块分布可以有效地使用分类方法来判别网页是否有主内容,采用孤立点分析的方法从网页块分布中提取主内容。本文通过理论和实验证明了该方法的有效性。  相似文献   

14.
Ajax页面的生成和页面导航需要执行客户端的JavaScript代码, 传统网络爬行算法无法获取Ajax页面全部内容. 分析了Ajax的工作方式, 阐述了爬行Ajax网页所面临的主要问题, 提出并实现了一种有效爬行Ajax页面的网络爬行算法. 该算法可控制客户端浏览器动态生成页面内容和完成页面导航, 为爬行过的页面分配标识编号并生成相应静态页面. 实验结果表明, 提出的算法所爬行的Ajax页面数量明显多于传统方法, 同时, 采用的双重消重策略可有效减少算法的时间耗费.  相似文献   

15.
为了使出版机构能够及时从大量网页中发现所需文献,需要设计能够从超文本标记语言页面中自动提取文献信息的算法.为此,设计了基于条件随机场的文献记录分析算法:首先,设计了文档对象树的分割算法,通过分割标记将页面数据分成独立的部分,这些数据块由标签和文本序列构成;随后,将该序列作为条件随机场模型的特征向量,建立文献信息标记模型;最后,设计启发式算法,从标记模型中提取文献信息数据,并通过实验验证了其有效性.  相似文献   

16.
一种基于统计学特征和DOM树的网页去噪技术   总被引:1,自引:0,他引:1  
针对特定的网站或网页中抽取出用户感兴趣的信息这一问题,分析现有去噪技术的优缺点,提出了一种基于统计学特征和DOM树的Web页面去噪方法。该方法首先对原始网页进行预处理,然后分析网页的统计学特征,结合启发式的抽取规则,对网页进行去噪。实验证实该方法在较少人为干预的基础上能达到较好的抽取效果。  相似文献   

17.
针对传统网页分类中存在的准确率和查全率不高、分类效率低的情况,提出一种基于朴素贝叶斯分类的网页预分类算法.算法根据用户的网上活动情况提取相关网址,分析网页内容和网页关键词,利用朴素贝叶斯分类算法进行分类,根据用户对各类网页的浏览情况分析用户的行为特征.采用改进的文本权值计算方法,并引进网址预分类机制,提高数据的处理效率以及分类的准确率.结果表明,网址分类算法准确,能够充分发掘用户的兴趣喜好,可以作为用户行为分析的数据算法进行商业推广和司法取证.  相似文献   

18.
基于LBS的中文自动文摘技术研究   总被引:1,自引:0,他引:1  
LBS的终端用户通过各种无线手持设备访问因特网,获取与位置有关的资讯,但由于这些设备显示屏较小,再加上无线通讯网带宽不足,无法浏览整个网页,采用文本摘要来浓缩整个网页将是LBS中重要技术之一。提出了一种基于文本结构分析的文摘方法,首先通过向量空间模型来计算段落和全文的相似度,按照给定的阈值选定主题段落;然后计算主题段中各个句子与相应主题段的相似度,按照相似度由高到低选取主题句,组成粗的文摘。实际开发的系统原型验证了此方法的有效性。  相似文献   

19.
Java Server Page(JSP)是近几年发展起来的用于生成动态页面的技术,在1.1版本里推出了一项的新功能:允许用户在JSP页面中开发和使用自定义的标记。复杂自定义标记形式(如嵌套)有助于增强JSP页面的功能,扩充自定义标记的应用范围。本文以JSP页面中实现自定义标记的过程为基础,着重分析了标记处理类的处理流程和嵌套的自定义标记形式。提出了通过标记处理类可以解决嵌套的自定义标记中父标记如何完全包含子标记的问题,并以IF-ELSE-THEN形式的标记为例子,成功解决了在JSP中使用嵌套的自定义标记。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号