首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
一种基于向量空间模型的文本分类方法   总被引:21,自引:1,他引:21  
介绍的文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型。这一模型的关键算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类。这种分类方法在相似文本分类中具有明显的优势。  相似文献   

2.
通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在对于相似文本分类中具有明显的优势.  相似文献   

3.
因特网给我们提供了巨大的信息量,在信息量极其丰富的Web资源中,蕴涵着大量有用的知识信息.信息爆炸而知识匮乏是当今人们所面临的一个很重要的问题.通过搜索引擎来查找信息将不容易定位到用户最感兴趣的数据上.而通过wleb信息抽取的自动化实现,可以提高信息获得的效率.信息抽取可以从网络上分析和发现有用的信息,废弃冗余的数据,提取用户知识领域的知识.本文分析了基于XML的web信息提取,讨论了相关技术在Web信息抽取中的应用并建立了相应的Web信息抽取摸型,通过自动学习来获取信息抽取规则,实现Wleb信息的自动提取.  相似文献   

4.
病情自述是网络疾病咨询中普遍的信息形式。为了从这些不规范的数据中发现隐含疾病知识和用户语义提出一种无监督学习方法构建知识图谱,并基于此进行疾病辅助诊断。从同一疾病的病情自述提取特征关键词,使用特征关键词的概率关联和语义关联构建特征关联网络。在特征关联网络中找出描述疾病时常用的特征团模式,基于特征团的语义关系构建知识图谱;从知识图谱上抽取结构化特征,利用结构化特征与病情自述文本的Jaccard系数完成病情自述的文本表示;利用SVM实现病情自述的分类识别,结果分类的微平均和宏平均都在80%以上。研究能够用于疾病结构化知识发现和用户意图分析,初步诊断病情自述疾病类型。  相似文献   

5.
介绍了一个基于专业搜索引擎的元搜索引擎,提出了一种将专业搜索引擎与专门搜索"Invisible Web"检索工具相结合的方法。在对检索结果进行融合处理时采用建立专业词典的方法来提取主题,并进行主题分类,同时通过记录用户感兴趣的主题,为用户提供个性化服务。  相似文献   

6.
针对传统基于模板匹配、关键词共现、人工特征集合等方法的问答机器人存在用户意图识别耗时、费力且扩展性不强的问题,本文结合地质领域文献中结构化知识问答的复杂特点,使用了基于网格记忆网络(LSTM+CRF+Lattice)与基于卷积神经网络(CNN)融合的优化模型.该模型将用户询问意图识别看作分类问题,首先使用网格记忆网络进行文本信息的命名实体识别及关系抽取,然后使用卷积神经网络将用户输入的其他文本信息进行属性分类,接着将分类结果转化为满足知识图谱查询的结构化方式,最终实现地质知识属性映射的用户询问意图识别.实验证明,在考虑地质知识特征的处理中,对于准确率的提升起到了极大帮助.  相似文献   

7.
基于网络资源与用户行为信息的领域术语提取   总被引:1,自引:0,他引:1  
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果.  相似文献   

8.
搜索引擎是Web上最常见的信息发现工具,但由于信息的快速增长,搜索查询结果通常过于庞大,并且很多与客户的实际需求无关。本文提出的文本挖掘算法,在使用奇异值分解(SVD)的基础上,对部分Web文件进行群集,生成分类模型,再使用基于集合覆盖的SVM(SupportVectorMachines)分类算法将剩余文件归类。这样,客户就可以根据群集筛选轻松定位到感兴趣的文件,提高查询精度。  相似文献   

9.
目前关于商品评论的深度网络模型难以有效利用评论中的用户信息和产品信息。提出一种基于注意力交互机制的层次网络(HNAIM)模型。该模型利用层次网络对不同粒度语义信息进行提取,并通过注意力交互机制在层次网络中通过捕捉用户、产品中的重要特征来帮助提取文本特征。最终将用户视角下的损失值和产品视角下的损失值作为辅助分类信息,并利用层次网络输出的针对用户或产品的关键文本特征进行训练和分类。三个公开数据集上对比结果表明,该模型较相关模型而言效果均有提升。  相似文献   

10.
随着互联网的快速发展,网络信息呈现海量和多元化的趋势。如何为互联网用户快速、准确地提取其所需信息,已成为搜索引擎面临的首要问题。传统的通用搜索引擎虽然能够在较大的信息范围内获取目标,但在某些特定领域无法给用户提供专业而深入的信息。提出基于SVM分类的主题爬虫技术,其将基于文字内容和部分链接信息的主题相关度预测算法、SVM分类算法和HITS算法相结合,解决了特定信息检索的难题。实验结果表明,使用基于SVM分类算法的爬取策略,能够较好地区分主题相关网页和不相关网页,提高了主题相关网页的收获率和召回率,进而提高了搜索引擎的检索效率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号