共查询到20条相似文献,搜索用时 77 毫秒
1.
2.
一个无需词典支持和切词处理的中文文档分类系统 总被引:12,自引:0,他引:12
报道了一个无需词典支持和切词处理的中文文档分类系统。其特点是利用N-gram信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现了中文文档分类的领域无关性和时间无关性;采用开放的体系结构使文档分类系统易于功能扩充和性能完善。测试结果表明该系统具有令人满意的分类性能。 相似文献
3.
基于相邻字对信息的中文文档分类研究 总被引:2,自引:0,他引:2
本文首次提出利用相邻字对信息进行中文文档分类,使中文文档分类摆脱了对词典和切词处理的依赖,实现中文文档分类的领域无关性和时间无关性性。分别利用Naive Bayes和kNN分类方法建立了基于相邻字对信息的中文文档分类系统。初步的测试结果表明本文文档系统具有和同类文档分类系统相当的性能。 相似文献
4.
一种优化的文档图像分割方法 总被引:1,自引:0,他引:1
文档图像在数字图书馆、电子商务以及电子政务等工程中已获得广泛应用。如何对文档图像进行有效的转换、存储和传输,成为人们研究的焦点。将文档图像分割成不同的区域,根据不同区域的特点分别进行处理,成为一种有效的解决方案。本文在传统的块分割和图层分割方法的基础上,提出了一种优化的文档图像分割思路,对这两种方法进行了合理的综合处理,能够取得更好的效果。 相似文献
5.
6.
韩晓琴 《数字社区&智能家居》2009,(26)
如何对急速增长的文档图像进行有效检索是文档图像管理系统的关键技术之一。提出了一种不需要识别文字的检索中文文档图像的方法,该方法在字符分割基础上采用基于粗外围特征粗匹配和基于改进Hausdorff距离相似度测量的两级匹配方法,以适应于时间、准确性的不同要求。同时用对200幅文档图像样本进行了实验,其结果表明,使用该方法对检索印刷体汉字的文档图像具有较高的检索效果,对于数字图书馆中文档图像检索系统的设计,有一定的参考价值。 相似文献
7.
本文介绍基于主观Bayes方法的渐进式中文文档分类.包括三个方面:一是应用主观Bayes方法,利用领域专家的经验,减少复杂的计算量.二是采用渐进式中文文档分类,先进行粗分类,把文档集映射到大的类别集中去,再对属于每一大类别中的文档子集进行细分类,映射到次级类别中去,直到划分到最后的基类.三是选择文档属性时,采用相邻字对提取方法,某种程度可摆脱对复杂切词处理程序和庞大词库的依赖. 相似文献
8.
<正> 通常的检索引擎将用户检索的结果表现为一个按照相关度排序的列表,这里的相关度指所检索的文档与用户问题之间的相似度。这种排序的机制仅仅能够在用户可以将想要查询内容很好地定义出来的情况下才能发挥良好的功效,这个条件往往只适用于一些专业人员,在真实的情况下,70%的Web用户会将其所查询的问题浓缩到一或两个单词中,在这种条件下,检索引擎很难找到用户真正感兴趣的内容,当用户对其所检索的领域 相似文献
9.
基于核方法的XML文档自动分类 总被引:3,自引:0,他引:3
支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML 文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核... 相似文献
10.
为了从中英文混排的中文文档中定位数学公式,提出了一种基于中文字符识别和公式符号识别的数学公式定位方法。该方法主要由中文字符提取、内嵌公式提取和独立公式定位三个部分组成。在中文字符提取中,首先提取字符块信息中文字符识别结果、公式符号识别结果和字符块的几何特征,然后使用决策树的方法区分中文字符和非中文字符。在内嵌公式提取中,使用公式符号的语义信息、符号间的角标关系和公式的语义信息等从非中文字符中定位内嵌公式。在独立数学公式定位中,对包含较多内嵌公式符号且不包含中文字符的文字行提取版式结构特征,并使用高斯混合模型区分独立公式和普通文字行。在148幅文档图像共包含3 690个公式组成的测试集上取得了91.19%的公式定位正确率。 相似文献
11.
基于扩展角分类神经网络的文档分类方法 总被引:10,自引:0,他引:10
CC4神经网络是一种三层前馈网络的新型角分类(corner classification)训练算法,原用于元搜索引擎Anvish的文档分类.当各文档之间的规模接近时,CC4神经网络有较好的分类效果.然而当文档之间规模差别较大时,其分类性能较差.针对这一问题,本文意图扩展原始CC4神经网络,达到对文档有效分类的效果.为此,提出了一种基于MDS-NN的数据索引方法,将每一文档映射至k维空间数据点,并尽可能多地保持原始文档之间的距离信息.其次,通过将索引信息变换为CC4神经网络接受的0,1序列,实现对CC4神经网络的扩展,使其能够接受索引信息作为输入.实验结果表明对相互之间规模差别较大的文档,扩展CC4神经网络的性能优于原始CC4神经网络的性能.同时,扩展CC4神经网络的分类精度与文档索引方法有密切关系. 相似文献
12.
中文文献的层次分类方法 总被引:11,自引:2,他引:9
现有的分类系统通常忽略类别体系的层次结构,在对文献进行分类时,往往很难区分类别相近的文献属于哪一类。本文基于向量空间模型,提出根据类别体系的层次结构,自顶向下,逐层分类的方法。其目的是提高分类精度;并根据概念词典,将同义词或下位概念映射到单一的概念词上,由这些概念词构成一个规模很小的特征集,以缩小特征向量空间的维数,从而减少分类系统的计算量。此外,通过对类别层次体系的分析,压缩特征向量,从另一方面减少分类系统的计算量。 相似文献
13.
本文提出了一种词间匹配的后处理方法,利用汉语上下文中词和词之间有一定的联系来对识别结果进行纠错,并综合词匹配、词间匹配和Markov语言模型使各环节之间形成反馈,相互补偿,形成一个较好的组合,以此来提高后处理部分的纠错能力以及稳定性。 相似文献
14.
基于模糊相关的Web文档分类方法 总被引:1,自引:1,他引:1
面对Internet上不断增长的巨大信息量,如何使用户获得有趣的和有用的信息已成为信息检索急需解决的问题。由于Web文档往往具有不确定的特征,使得利用模糊集合理论对信息检索过程的不确定性建立模型成为可能。文章提出了一种基于模糊相关技术的Web文档分类方法,实验结果表明,该方法比基于向量空间模型的Web分类方法有较高的分类精度。 相似文献
15.
针对文本图象的识别,此文提出了一种新的方法.该方法中分别利用了图象的颜色及纹理信息,并将其结果进行融合得到了很好的效果.首先根据颜色直方图的特征,利用其分布特征及信息熵,对图象做识别;其次以图象的灰度共生矩阵用来表达纹理,并提取该矩阵的相关特征量用来对图象做识别.该方法充分考虑了文本图象的颜色及空间分布特性,提取了有效的表达参数,实验结果与性能比较表明,该方法是有效的. 相似文献
16.
17.
信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型一图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的. 相似文献
18.
19.
针对基于数码相机拍摄的小型文档图像,提出一种集成型的小型文档图像透视变形校正方法.利用小型文档本身面积小,文字数少,版面较复杂的特点,通过彩色图像分割提取小型文档的外边缘并结合小型文档内部的文字信息进行校正.实验表明,该方法能够有效地对小型文档图像进行快速准确的校正. 相似文献