首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 734 毫秒
1.
互联网网页数量爆炸性地增长,使得网页文档分类技术研究成为目前Web挖掘的一大热点.针对面向某特定领域文档的特点,提出一种基于层次特征词权重的文档特征表示方法,以此为基础,在网页文档分类时,通过对网页结构和文本链接分析,设计了网页文档分类算法HFSHA(Text Categorization Algorithm Based on Hierarchy Feature Word Weight and Structure and Hyperlink Analysis).在服装网页文档语料库上的分类实验表明,对服装专业文档HFSHA算法比基于向量空间模型(VSM)的普通文本分类算法的分类准确率高.  相似文献   

2.
为挖掘互联网上的不良信息,本研究借鉴了事件语义分析技术。研究了基于事件本体的Web不良信息挖掘方法,重点是事件本体的构建、文本特征重构。为了验证所提方法的有效性,以信息聚类为例实现了一个基于事件本体的Web不良信息挖掘的原型系统。实验结果表明:基于事件本体和k均值的信息聚类方法的平均准确率为721%,较之传统的基于k均值的信息聚类方法的平均准确率提高了5.3%。  相似文献   

3.
垂直搜索引擎需要对网页的内容进行提取,信息提取算法是研究的关键内容之一,文章提出一种新的基于行模式的索引网页的信息提取算法,该算法基于网页结构,具有较高的分析速度与准确率,使信息的分析与提取变得简单高效。  相似文献   

4.
为了设计出基于自我意识的语义Web中网眼agent的自我意识即Web的语义结构,文中分析了网站及网页的组成元素和组成结构,收集互联网的主题词并精简处理得到Web特征词,根据特征词的出现频率对主题词进行排序;把这个主题词序列作为网站特征值的结构,根据这些特征词在某个网站上是否出现把对应位置为1或0,计算出网站的特征值;提出并实现了一种基于主题词的网站特征值排序划界聚类算法,最后通过两组数据对该算法的有效性进行了验证.  相似文献   

5.
Web页面所表达的主要信息通常隐藏在大量无关的结构和文字中,使用户不能迅速获取主题信息,限制了Web的可用性.为了高效地抽取基于模板的网页主题信息,提出了一种新的从HTML网页结构分析入手的模板生成方法.该方法以文档对象模型(DOM)为基础,通过对网页对应的DOM树层次结构进行分析,来判断两个网页是否相似,结构上相似的网页可以作为一个样本集.利用生成的样本集可以比较方便的抽象出网页结构模板,实现高效的信息抽取.实验表明,该方法准确率可达97%.  相似文献   

6.
因为基于Web数据挖掘的商品价格预测的准确率都不高,所以为了提高价格预测的准确率,提出了一种基于线性插补与自适应滑动窗口的商品价格预测方法,给出了将线性数据插补方法与自适应滑动窗口结合的商品价格预测模型,并将该商品价格预测模型应用于手机与黄金价格的预测。实验结果表明,该预测模型获得了99%以上的预测准确率,提高了网页商品价格数据抽取的抗噪性能,解决了现有销售商只有历史销售价格数据没有基于多个销售商的预测价格问题,可以为商品的市场预测与分析提供依据。  相似文献   

7.
随着Internet的发展,Web上信息呈爆炸式增长趋势,呈现方式也愈发多种多样,这就给多媒体内容的检索,信息提取等计算机处理带来了巨大困难。针对信息提取后,网页的多媒体内容的不一致性,本文提出了一种Web网页多媒体信息提取的融合算法。该算法通过对图像和文本的语义融合,判断信息提取后的网页中的各种形态的内容是否一致,并通过网页中的文字更加准确地表示图片所传达的内容。对来自30个网站的307个网页进行测试后的实验表明,本文提出的方法是可行的。  相似文献   

8.
信息抽取技术在LBS中的应用   总被引:1,自引:0,他引:1  
由于LBS系统的终端设备处理能力较低,显示屏幕较小,再加上无线数据网络带宽不足,因此无法浏览整个Web网页。采用信息抽取技术可以将用户感兴趣的信息提取出来,再发送给用户终端,有效地解决上述问题,信息抽取技术将是LBS系统中的一项重要应用。提出了一种基于信息抽取的从删.到WML的页面转换方法,首先标记少量的Web网页形成样本实例集,采用归纳算法生成信息抽取规则;其次应用抽取规则和模式匹配来处理结构和风格类似的Web页面;最后将抽取结果转换为WML页面。开发了原型系统,通过对实际数据源的抽取,验证了此方法的有效性。  相似文献   

9.
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.  相似文献   

10.
基于HTML结构特征的网页信息提取   总被引:1,自引:0,他引:1  
Web上的信息很多存储在HTML页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM模型,增加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法进行新闻类网页主体信息提取的有效性。  相似文献   

11.
网页正文提取是WEB挖掘的重要步骤。传统网页正文提取方法都需要经过分块这一步骤之后来识别网页正文块,提出了利用行文本之间的内容相似度和标签相似度结合的方法来提取网页正文。该算法避免了传统网页提取算法的分块步骤,在规范网页之后,先提取网页的最大文本行,然后计算每行文本与最大行的内容相似度和标签相似度,再结合内容相似度与标签相似度来提取网页正文。实验中,利用随机抽取的网页进行了测试,其测试精度接近95%,表明该算法在实际中是有效的。  相似文献   

12.
基于隐马尔可夫模型的招聘网络信息抽取   总被引:1,自引:0,他引:1  
网络信息抽取是从半结构化的Web海量数据中,按用户要求抽取且形成相关的有效的结构数据处理过程。论文以隐马尔科夫模型(HMM)进行数据抽取中的若干关键问题进行研究,提出了基于数据挖掘聚类的模型合并方法生成隐马尔可夫模型,即可根据数据自动生成HMM,同时对一般的隐马尔可夫模型进行了扩展,为每个抽取域生成一个隐马尔可夫模型,用于获取更多的有用信息。  相似文献   

13.
网络使用挖掘是利用数据挖掘技术从网络用户浏览行为中发现各种信息.这些访问请求信息一般被保存在服务器的访问日志中.网络使用挖掘的第一阶段是数据预处理阶段,在数据预处理阶段,首先从服务器日志中过滤出有关信息.之后将属于同一个用户的访问请求合并为一组用户会话.最后将面向时间和面向导航相结合的启发式进行会话构造.在传统的启发式会话构造方法中加入网站拓扑信息,以达到提高会话构造准确性的目的.  相似文献   

14.
目的为了有效地预测用户在信息检索过程中可能点击的检索结果,从而进行网页的智能推荐.方法采取网络日志挖掘的技术,通过词频信息和知网(HowNet)中词的概念计算模型计算网页文档间的主题相关度,再将该语义信息与统计模型计算的条件概率值相结合,以此作为网页推荐的依据.结果提出了一种检索推荐统计模型,并构建了相应的原型系统,实验表明该方法显著提高了推荐系统的准确率.结论这项技术有效地提高了推荐结果与用户信息需求的相关程度,使推荐系统的性能获得了较大地提高,可以很好的应用于信息检索的智能推荐服务领域.  相似文献   

15.
针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果.  相似文献   

16.
Extracting mining subsidence land from RS images is one of important research contents for environment monitoring in mining area. The accuracy of traditional extracting models based on spectral features is low. In order to extract subsidence land from RS images with high accuracy, some domain knowledge should be imported and new models should be proposed. This paper, in terms of the disadvantage of traditional extracting models, imports domain knowledge from practice and experience, converts semantic knowledge into digital information, and proposes a new model for the specific task. By selecting Luan mining area as study area, this new model is tested based on GIS and related knowledge. The result shows that the proposed method is more pre- cise than traditional methods and can satisfy the demands of land subsidence monitoring in mining area.  相似文献   

17.
面向制造网络的节点发现技术研究   总被引:2,自引:0,他引:2  
为了提高制造资源和服务的发现准确性,提出了一种基于互联网的制造网络节点发现方法.制造主
题节点内容和结构存在相似的特点,从网络节点的文本中抽取反映节点主题的结构和内容特征词,采用
不同的加权方法表示为内容和结构特征信息,建立描述节点主题的混合向量空间模型.在此模型的基础上
,通过类中心距离法来分析和识别节点的主题,并利用网络搜索、信息处理等技术构建了制造节点发现
的实验原型系统.实验结果表明,混合向量空间模型适合描述制造主题的节点,原型系统对制造节点的发
现准确性较高  相似文献   

18.
法语复杂的语法和词形变化规则导致N-gram等词语提取方法的效果无法保证,影响法语文本挖掘的准确性。该文提出一种高效的法文词语提取方法,从待分析的法语文本中自动获取包括单词和短语的词语集合,构建法语文本挖掘所需的词库。该方法把文本中的单词共现信息压缩为FP序列树结构,快速提取频繁词串并计算其成词度,得到法文词语集合。实验表明,该方法的准确率高达90%,且具有比现有法文词语提取方法更高的召回率,能有效支持法语文本挖掘应用。  相似文献   

19.
典型隐马尔可夫模型对初始参数非常敏感,采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于W eb信息抽取时效果不佳.文中提出基于模拟退火算法与隐马尔可夫模型的W eb信息抽取算法.通过实验比较选择最佳的模拟退火算法参数,结合Baum-W elch算法优化隐马尔可夫模型并应用于W eb信息抽取.实验结果表明新算法在信息抽取的精确率和召回率都有明显的提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号