首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
李贵  李征宇  陈韶刚  韩子扬  孙平  孙焕良 《计算机科学》2013,40(Z6):157-159,175
面向领域的Web数据挖掘包括领域Web数据抽取和领域Web数据集成。针对领域数据抽取,提出了Web结构数据模型和Web表模式,给出了Web表定位和数据记录抽取的算法,针对领域Web数据集成,提出了基于领域模型的数据集成算法。结合行业领域的实际需求,验证了模型和算法的有效性。  相似文献   

2.
基于Multi-Agent的Web文本挖掘系统   总被引:1,自引:0,他引:1  
基于Multi-Agent(多智体)技术的Web文本挖掘是从海量信息源尤其是Web文本信息源中快速、有效地获取知识所提出的一个新型研究领域。本论文给出了基于Multi-Agent技术的Web文本挖掘系统模型,并利用Multi-Agent技术实现了Web数据预处理、数据的挖掘、知识的获取、知识的评价与表示等功能。  相似文献   

3.
Web文本挖掘及特征选择   总被引:11,自引:0,他引:11  
文章介绍了Web挖掘的有关理论,从Web文本挖掘的定义,Web文本挖掘任务的功能等方面加以阐述,然后重点分析了Web文本挖掘,文本的特征表示,特征选择,将多维文本分析与文本挖掘这两种技术有机地结合起来,快速,有效地挖掘Web上的HTML文档,最后,概述了Web文本挖掘的用途和前景。  相似文献   

4.
Deep Web自动分类是建立深网数据集成系统的前提和基础。提出了一种基于领域特征文本的Deep Web分类方法。首先借助本体知识对表达同一语义的不同词汇进行了概念抽象,进而给出了领域相关度的定义,并将其作为特征文本选择的量化标准,避免了人为选取的主观性和不确定性;在接口向量模型构建中,考虑了不同特征文本对于分类作用的差异,提出了一种改进的W-TFIDF权重计算方法;最后采用KNN算法对接口向量进行了分类。对比实验证明,利用所提方法选择的特征文本是准确有效的,新的特征文本权重计算方法能显著地提高分类精度,且在KNN算法中表现出较好的稳定性。  相似文献   

5.
文本分类是自然语言处理领域中一项基本任务,但目前的文本分类任务往往是领域独立的,且需要丰富的标注数据。该文通过利用不同领域的数据蕴含的相似信息,在一定程度上缓解标签训练数据不足的问题。该文提出了一种多任务学习模型来解决跨领域文本分类任务,通过每个领域的私有编码器和所有领域的共享编码器来分别提取私有特征和共享特征,从而利用不同层面的领域知识来表示文本,并帮助文本分类。另外,该文还利用正交投影将共享特征和领域私有特征进一步异化,从而强化共享特征的纯度,同时使用门控机制将共享特征和私有特征进行重组融合。我们在两个常用的多领域文本分类数据集(Amazon和FDU-MTL)上对所提模型进行了验证。实验结果表明,该模型在Amazon和FDU-MTL数据集上的平均分类准确率分别达到了86.04%和89.2%,较之前多个基线模型有明显提升。  相似文献   

6.
面向Web的文本信息挖掘研究   总被引:2,自引:0,他引:2       下载免费PDF全文
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它包含了丰富的信息资源。Web挖掘可以快速有效地获取所需要的信息。基于Web的文本挖掘是数据挖掘的重要组成部分,探讨了Web文本特征提取、文本分类、文本聚类等Web文本挖掘关键实现技术,最后讨论了Web文本挖掘的价值及其对Web发展的重要性。  相似文献   

7.
Web文本挖掘系统及聚类分析算法   总被引:2,自引:0,他引:2  
朱克斌  唐菁  杨炳儒 《计算机工程》2004,30(13):138-139,183
给出了Web文本挖掘系统WTMS的系统总体结构图,开发并实现了基于SOM的Web文档层次聚类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

8.
Web文本挖掘三种技术的比较   总被引:2,自引:0,他引:2  
文章介绍了Web挖掘的有关理论,从Web文本挖掘的定义、Web文本挖掘任务、功能等方面加以阐述,然后重点比较了Web文本挖掘的三种技术(朴素贝叶斯方法(NaiveBayes)、K-最近邻接参照分类算法(K-NearestNeighbor)、学习一阶规则算法(FirstOrderInductiveLearner))的分类效果。最后,概述了Web文本挖掘的用途和前景。  相似文献   

9.
Web文本挖掘中的特征选取方法研究   总被引:11,自引:0,他引:11  
和亚丽  陈立潮 《计算机工程》2005,31(5):181-182,190
研究了Web文本挖掘中的高维特征选取问题,对常见的评估函数法、主成分分析法、模拟退火法等特征选取和降维算法进行了理论分析与性能比较,通过实验对各种算法的优劣性及适用性进行了讨论。旨在通过降维处理来解决高维空间的文本挖掘问题。  相似文献   

10.
Web文本挖掘系统及其分类算法的研究与实现   总被引:9,自引:0,他引:9  
介绍了Web文本挖掘系统WTMS的系统总体结构图,实现了其核心算法——基于距离测度函数的分类算法。同时结合现代远程教育背景实现了Web文本挖掘的原型系统。该系统可以对各类远程教育站点上收集的文本资料信息自动进行分类挖掘,从而帮助人们快速进行文本信息导航,获取重要的知识。  相似文献   

11.
该文介绍了web文本挖掘的概念和一般处理过程,着重就web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究.同时对不同方法进行了初步比较。  相似文献   

12.
该文介绍了Web文本挖掘的概念和一般处理过程,着重就Web文本挖掘中前期的分词、特征表示和特征提取的常用方法进行研究,同时对不同方法进行了初步比较。  相似文献   

13.
Web文本信息的特征获取算法   总被引:17,自引:0,他引:17  
Internet的发展为人们提供了大量的信息资源,Web文本挖掘是从非结构化的文本中发展潜在的、有价值知识的一种有效技术,本文以矢量空间模型为Web文本的表示方法,提出了一个基于遗传算法的Web文本特征抽取算法,进一步提高了Web文本诉处理效率,为文本的分类、聚类以及其它处理提供了简炼的特征表示方法,实验证明,该种处理方法有效地降低了文本特征矢量的维数。  相似文献   

14.
本文在分析Web数据挖掘相关理论基础上,深入探讨XML在Web数据挖掘中应用问题,利用XML和Web数据挖掘技术的结合点,提出建立基于XML的Web文本数据挖掘模型,为如何从大量的Web资源中获得有价值的知识提供了一种可行的解决方案。  相似文献   

15.
Web文本挖掘中特征提取的设计与实现   总被引:6,自引:0,他引:6  
特征提取是Web文本挖掘中的一项关键技术 ,在此就Web文本挖掘中特征项的提取作了一番讨论 ,并以名字的提取算法为例 ,介绍了其提取算法。最后给出了名字提取算法的Prolog语言实现  相似文献   

16.
特征选择是数据挖掘和机器学习等领域内重要的预处理步骤,近年来得到了广泛的关注。文本数据的高维性往往会影响分类等数据挖掘任务的效率,因此特征选择常被作为文本分类过程中的重要组成部分,以达到降维的目的。随着分类技术的快速发展,类别的日益细化,文本的多类分类问题为特征选择方法提出了更多的挑战。本文面向文本多类分类的应用背景,阐述了目前特征选择方法所面临的主要挑战,给出了多分类特征选择方法的主要种类。本文沿着相关研究的发展路线,由易至难,由浅入深,通过对目前多分类特征选择算法的应用情况进行总结,并进行综述评论,最后对全文进行了概括,提出了未来可能的研究方向。  相似文献   

17.
熊忠阳  蔺显强  张玉芳  牙漫 《计算机工程》2013,(12):200-203,210
网页中存在正文信息以及与正文无关的信息,无关信息的存在对Web页面的分类、存储及检索等带来负面的影响。为降低无关信息的影响,从网页的结构特征和文本特征出发,提出一种结合网页结构特征与文本特征的正文提取方法。通过正则表达式去除网页中的无关元素,完成对网页的初次过滤。根据网页的结构特征对网页进行线性分块,依据各个块的文本特征将其区分为链接块与文本块,并利用噪音块连续出现的结果完成对正文部分的定位,得到网页正文信息。实验结果表明,该方法能够快速准确地提取网页的正文内容。  相似文献   

18.
用户在互联网发布信息的自由性对Web信息内容过滤提出新的挑战。为此,给出一种自学习的两级内容过滤算法SAFE(self-study algorithm of filtering Chinese text content)。SAFE以数据流的方式处理文本,并根据Apriori性质,在不依赖词典的情况下,通过挖掘关键字和关键词实现对文档的两级内容过滤。利用真实世界Web文档验证了SAFE的有效性,实验表明对给定的主题进行文本内容过滤,SAFE的查全率达到93.75%以上,查准率达到100%,执行时间能够满足Web应用的实时性要求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号