首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。  相似文献   

2.
相对于传统的纸媒体,网络媒体中的数据具有更新速度快、用户参与度高、覆盖面广等特点。如何协助用户在较短时间了解网络媒体中的主题信息,是一个亟待研究的领域。目前,文本主题聚类的研究技术还不够成熟,且在国内处于不断研究的阶段,尤其是在中文文本领域。对国内外主题检测研究现状、主题挖掘基本步骤、聚类算法的优缺点等方面进行了系统的概述,指出了当前研究方法的不足以及未来可研究的方向。  相似文献   

3.
提出了一种基于信息检索技术的程序源代码与中文文档关联信息的自动提取方法.假设程序员在编写代码时使用了有意义的类、函数和变量名,利用信息检索方法得到对应的包含有这些意义的文档.通过提取文档中的词汇建立文档的语言概率模型,在此基础上采用由代码信息组成的检索项来检索文档集,由此得到代码和文档的相关性列表和关联矩阵.通过三个软件系统对此方法进行测试,结果表明,当提取项大于5时可获得95%以上的关联.  相似文献   

4.
基于中文文本主题跟踪的网络信息分析   总被引:1,自引:1,他引:1  
随着网络的飞速发展,对网络中大量信息的监控成为众多网络技术中的难点。以网络信息分析为目标,讨论了信息截获和分析的模型,将主题跟踪技术引入到网络环境下中文文本的分析,并讨论了基于中文文本主题跟踪的主题论点倾向跟踪的算法思想。具体实现了简单论点倾向跟踪的算法,并在实际网路环境下进行了实验和实验分析。实验结果表明,该算法完全达到实时性要求,文章正确率88.92%。  相似文献   

5.
基于中文分词的文本自动校对算法   总被引:1,自引:0,他引:1  
中文文本自动校对是自然语言处理领域中有着广阔应用前景的一个研究方向.依据中文分词的结果以及常见错误的特点,结合三元字模型的特点,提出了一种有效的文本校对方法,实验表明,该方法具有较高的准确率和召回率.  相似文献   

6.
基于数字图像的自动对焦算法有广泛的应用。提出了一种新的自动对焦算法,该算法通过一最小各向同性小波滤波器在对焦图像序列进行滤波,得到了一边缘特征图像序列,再以能量目标函数为准则,从这些边缘特征图像序列中,选出最佳对焦图像,从而确定精确对焦的位置。实验证明了该算法效果好于方差函数对焦算法。  相似文献   

7.
基于改进的kNN算法的中文网页自动分类方法研究   总被引:6,自引:0,他引:6  
概述了中文网页分类的一般过程,重点论述了在分类过程中特征词提取、训练库建立和文本分类算法等关键问题,针对向量空间模型的文本特征表示方法中特征词数量的多少与分类算法的效率有着密切关系的特点,提出了基于词性的特征词提取方法,并且在文本相似度计算时,融入传统的特征向量的比较方法来对kNN算法进行改进,提出了基于特征词减少的改进kNN算法,提高了分类算法的效率和性能.  相似文献   

8.
关键词提取是中文信息处理的一个关键环节。提出一种关键词自动提取的有效方法,首先对普通词典进行了扩充,在普通词典的基础上结合大量的训练样本对词典进行训练得到一个带有TFxIDF值和互信息的优化词典。然后在此词典上按段落进行切词,对切词结果集根据词频、权重、同现关系和互信息排序后筛选出候选关键词。最后根据候选词的上位词和下位词进行词汇合并,设定一个阀值,取出其中的n个词作为文章的关键词。通过小数据测试样本集的抽取实验结果表明,文中方法在一定程度上能够提高关键词提取的正确率,得到了较为满意的效果.  相似文献   

9.
装配图明细表信息的自动提取   总被引:2,自引:0,他引:2  
在分析装配图中明细表信息的基础上,以AutoCAD2000 ActiveX对象为基础,讨论了用VBA来实现装配图文件明细表信息自动提取的一些关键技术和方法。  相似文献   

10.
扫描地形图线状要素的自动提取   总被引:4,自引:0,他引:4  
提出了一种对地形图扫描数据进行线状要素提取的方法,对等高线的提取具有满意的效果,该算法对地形图扫描数据分层具有重要意义  相似文献   

11.
基于LBS的中文自动文摘技术研究   总被引:1,自引:0,他引:1  
LBS的终端用户通过各种无线手持设备访问因特网,获取与位置有关的资讯,但由于这些设备显示屏较小,再加上无线通讯网带宽不足,无法浏览整个网页,采用文本摘要来浓缩整个网页将是LBS中重要技术之一。提出了一种基于文本结构分析的文摘方法,首先通过向量空间模型来计算段落和全文的相似度,按照给定的阈值选定主题段落;然后计算主题段中各个句子与相应主题段的相似度,按照相似度由高到低选取主题句,组成粗的文摘。实际开发的系统原型验证了此方法的有效性。  相似文献   

12.
摘要是对文档内容的概括,在信息检索中起着重要的作用。分析了机械式自动摘要的局限性,提出一种模仿人工进行自动摘要的方法;探讨了简单的中文自动摘要系统的结构模型,在此基础上对模型中的分词模块和文摘句的提取模块进行了分析。最后,结合实例对系统进行了进一步地讨论。结果表明:该系统能够达到较好的质量和效率。  相似文献   

13.
随着互联网的普及,网络数据的增长速度也呈现出井喷的态势。通过搜索引擎获取网络信息,已成为人们获取信息的主要途径,因此,搜索引擎的搜索精度,就成了亟待研究的问题。本文首先研究了文本摘要领域国内外的研究现状,分析了目前该领域的研究成果,对各种算法进行了综合分析,然后针对科研网站这类多文本内容的网站,提出了一种基于统计的网站文本信息的抽取算法。该算法利用宽度优先搜索策略爬虫,获取网站的HTML源码,对源码的结构进行分析,将其解析成DOM树,最后再利用基于统计的方法将网站的文本信息抽取出来。通过验证,该算法可以较好地实现用于网站摘要的综合文本的抽取。  相似文献   

14.
汉语的自动理解与汉语文本的改进   总被引:3,自引:0,他引:3  
汉字的“字”与汉语的“词”单位不一致,给人脑和电脑的理解都带来困难。汉语另外有三种可能的文本“:汉字词式书写”文本“,纯拼音词式书写”文本和“拼音夹用汉字”文本“。拼音夹用汉字”文本最有可能成为走出汉语自动理解困境的最佳路径。  相似文献   

15.
基于K-最近距离的自动文本分类的研究   总被引:13,自引:1,他引:13  
提出并实现了利用统计词频信息和语言信息相结合的方法选择特征,计算特征的权重值时不仅考虑词频,还利用了特征的集中度、分散度.经过训练和统计对每一类文本形成特征的权重向量,利用K-最近距离的方法对测试集进行分类.对英文文本的测试结果表明,该算法提高了文本分类的准确率.  相似文献   

16.
该文介绍了一种基于字符串匹配的中文文本抄袭检测方法——k-grams算法,并指出了选取常用语句降低了其判别的准确性。提出了利用基于统计的中文分词技术实现对k-grams算法的改良。实验结果表明改良后的算法判断抄袭的准确性得到了提高。  相似文献   

17.
随着网络技术的发展,文本信息急速增长。文本内容自动处理的相关研究无疑成为最急迫的任务。文章从一些文本内容相关的应用研究开始介绍,其中简要介绍了自动摘要技术、自动标引、信息抽取、文本分类和聚类等,期冀通过对这些应用研究的了解,认识到要重视文本内容的基础研究,从词语层到篇章层的深入分析才是文本内容处理研究发展的最终突破点。  相似文献   

18.
数据分类是数据挖掘的一个重要功能,神经网络以其良好的抗噪性和鲁棒性而成为一种广泛使用的数据挖掘工具,尤其是运用在数据分类中.但是,神经网络对用户来说是一个黑箱,所获得的知识隐含在神经网络的连接权中而难以理解.针对这种情况,建立了一个基于神经网络的数据分类系统模型,通过数据处理、网络训练、规则抽取等几个阶段,达到将获得的知识清晰化的目的.在系统中,首先对连续性数据作规一化和对语义性数据进行编码;然后经过网络训练而获取知识;规则抽取采用功能性方法:即把神经网络视为黑盒,随机产生输入得到相应的输出组成实例,然后采用Rough集的方法进行约简得出规则.  相似文献   

19.
对H系列铋浸出剂进行了浸铋试验研究,结果表明:H系列铋浸出剂的浸出率比传统的FeCl3浸出剂的浸出率高出5 ̄8%,H-3浸出剂的药剂成本仅为FeCl3的药剂成本的58.79%。  相似文献   

20.
词义消歧一直是信息检索领域的关键问题和难点之一。统计学方法以其良好的词义消歧效果逐渐占据主流地位。文章结合义类词典HowNet,分别采用隐马尔可夫模型,贝叶斯模型,基于依存关系改进贝叶斯模型对大规模真实文本进行了词义消歧研究,其中基于依存关系改进贝叶斯模型的词义消歧效果最好。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号