共查询到20条相似文献,搜索用时 53 毫秒
1.
文本分类中特征权重因子的作用研究 总被引:1,自引:0,他引:1
在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能。一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能,但没有探究各权重因子如何影响分类的性能。该文以词频、逆文档频率及特征选择函数分别作为衡量特征的文档代表性、文档区分性及类别区分性的因子,通过实验测试了它们对分类性能的影响,得到文档代表性因子能使分类效果峰值最高但抵抗噪音特征能力差、文档区分性因子具有抗噪能力但性能不稳定、而类别区分性因子抗噪能力最强且性能最稳定的结论。最后给出权重表示的四点构造原则,并通过实验验证了其对分类性能的优化效果。 相似文献
2.
在文本分类领域中,目前关于特征权重的研究存在两方面不足:一方面,对于基于文档频率的特征权重算法,其中的文档频率常常忽略特征的词频信息;另一方面,对特征与类别的关系表达不够准确和充分。针对以上两点不足,提出一种新的基于词频的类别相关特征权重算法(全称CDF-AICF)。该算法在度量特征权重时,考虑了特征在每个词频下的文档频率。同时,为了准确表达特征与类别的关系,提出了两个新的概念:类别相关文档频率CDF和平均逆类频率AICF,分别用于表示特征对类别的表现力和区分力。最后,通过与其它5个特征权重度量方法相比较,在三个数据集上进行分类实验。结果显示,CDF-AICF的分类性能优于其它5种度量方法。 相似文献
3.
基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均◢F◣▼1▽值。 相似文献
4.
文本分类是NLP(natural language processing,自然语言处理)处理技术的重要分支.信息检索、文本挖掘作为自然语言处理领域的关键技术,给人们的生活带来了许多便利,而文本分类正是这些关键技术开展的重要基础.文本分类作为自然语言处理研究的一个热点,其主要原理是将文本数据按照一定的分类规则实现自动化分... 相似文献
5.
6.
基于文本集密度的特征词选择与权重计算方法 总被引:3,自引:0,他引:3
根据汉语语言自身的特点,在基于原有的特征项提取方法基础之上,提出了基于文本集密度的特征词选择的思想,对于特征项个数和选择进行了界定,找出了不损失文本有效信息的最小特征词语集,并且利用其中的中间值作为词语权重计算的一部分,创造出更为合理的权重计算方案。最后利用一种新的衡量权重好坏的标准——元打分法,对文中所提出的方法的正确性和有效性进行了实验和证明。 相似文献
7.
8.
文本分类特征权重改进算法 总被引:6,自引:2,他引:4
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。 相似文献
9.
文本分类特征权重改进算法 总被引:3,自引:2,他引:1
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。 相似文献
10.
《计算机科学与探索》2016,(9):1299-1309
随着文本数据量变得很大且仍在迅猛增加,自动文本分类变得越来越重要。为了提高分类准确率,作为文本特征的词的权重计算方法是文本分类领域的研究热点之一。研究发现,基于信息熵的权重计算方法(熵加权)相对于其他方法更有效,但现有方法仍然存在问题,比如在某些语料库上相比TF-IDF(term frequency&inverse document frequency),它们可能表现较差。于是将对数词频与一个新的基于熵的类别区分力度量因子相结合,提出了LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power)方法。通过在Tan Corp、Web KB和20 Newsgroups语料库上使用支持向量机(support vector machine,SVM)进行一系列文本分类实验,验证和比较了8种词权重计算方法的性能。实验结果表明,LTF-ECDP方法比其他熵加权方法和TF-IDF、TF-RF(term frequency&relevance frequency)等著名方法更优越,不仅提高了文本分类准确率,而且在不同数据集上的性能更加稳定。 相似文献
11.
主题划分是多主题文档自动摘要中的一个重要问题,提出了一种以网页结构为指导,利用页面对应DOM树中节点的自然分割功能以及相邻边界节点语义相似度的比较进行网页主题划分的方法.实验结果表明该方法具有较高的划分准确率,在此基础上抽取的网页摘要可显著增加文摘内容对原文的覆盖率、有效解决Web文档摘要分布不平衡问题. 相似文献
12.
近年来,基于符号表示的时间序列分类方法受到广泛关注,大部分现有方法对原始数据进行符号表示时,没有使用类别的标签信息。提出基于线性判别分析(LDA)的时间序列符号表示方法,考虑最大化类间区分度,使用LDA对原始数据集进行维数约减。再利用信息增益寻找降维后数据的符号投影区间,采用多重系数分箱(MCB)技术将维数约简后数据表示成符号序列。该方法在20个时间序列数据集上的分类效果好于已有方法,有监督的符号表示方法能有效提高分类性能。 相似文献
13.
文档类型定义(DTD)是一类文档逻辑结构的共同特征的规范化描述,作为文档内容层次关系描述的结构是文档类型定义的一个具体体现,并被文档类型定义所制约。通过采用一种快速的定位方法来支持文档结构节点在文档类型定义中的定位,本文提出了一个基于文档类型定义约束的文档结构生成算法,该算法可为基于结构的文档处理提供高效的实时约束机制和更严格的验证机制。 相似文献
14.
基于符号表示的时间序列分类方法是时间序列数据挖掘的关键技术.大部分现有方法主要针对单个时间序列样本进行符号表示,没有考虑样本间的近邻关系对符号化分类的影响.对此提出一种基于正交局部保持映射(Orthogonal Locality Preserving Projection,OLPP)的时间序列符号表示方法.使用OLPP... 相似文献
15.
针对传统向量空间模型中的特征项孤立处理问题,首先通过χ2统计和特征聚类相结合的模式实现特征降维,然后使用图模型来建立词和词之间相互关联信息,最后运用KNN方法进行文档分类测试。该算法提高了稀有词对分类的贡献,强化了关联词的分类效果,并降低了文档向量的维数。实验证明,该算法提高了分类的准确率和召回率。 相似文献
16.
基于CSCW的文档会议系统 总被引:2,自引:1,他引:2
基于计算机支持的协同工作文档会议系统是多媒体会议系统重要的组成部分,也可独立作为共同编辑,集体决策,远程教学、共同设计CAD系统等,本文论述文档会议系统功能,系统模型及系统设计与实现。最后对系统的性能进行了评价。 相似文献
17.
本文针对目前组件文档不完备的情况,指出组件文档在CBSE中的重要作用,分析了组件的特点和组件使用中的风险。并从方便开发者选择、装配组件和降低组件使用风险的角度提出了书写组件文档的框架。 相似文献
18.
龙鹏飞 《计算机应用与软件》2008,25(3):43-45
软件开发中文字和数据的输出编码工作量大且烦琐,较好的解决方法是将软件中的文字和数据组织成具有相似结构的文档-软件输出文档,开发一个通用组件对其进行处理并实现输出.它设计了一种通用的软件输出文档结构,使用UML建立了文档结构可视模型,使用XML schema建立了文档格式,并对文档处理提供了参考方法.应用说明基于软件输出文档模型及其组件进行文字和数据的输出能够提高软件的开发效率和可移植性. 相似文献
19.
本文提出了一种面向光盘文档库的数据组织方案(简称CBCD),并在此基础上实现了光盘文档库的生成系统和浏览系统。文档库生成系统以Internet上丰富的置标文档如SGML、HTML、XML等文档为数据源,通过转换生成光盘档库。同时利用在处理过程中可嵌入用户私有处理的功能来建立用户浏览和检索的支持机制。 相似文献
20.
随着电子纸技术、无线网络以及嵌入式等技术的快速发展,移动阅读已悄然兴起。而以电子纸为显示媒介的电子阅读器则备受青睐,市场上相关的嵌入式产品也越来越多。作为其核心之一的格式解析引擎在开发过程中会遇到不少问题。例如:文档格式标准众多,GUI平台差异较大,电子纸刷新速度较慢,等等。提出一种利用中间格式版面重构的方法,设计多格式解析引擎,并详细介绍了在版面重构过程中的一些关键性问题。该系统利用虚拟打印技术,做到了设备无关,以页为基本单位适应电子纸显示特点,支持多国语言的文字排版,支持表格、图形等多种元素,支持文档的缩放、旋转等。经在某商业公司的实验平台验证,该方案具有一定可行性。 相似文献