共查询到20条相似文献,搜索用时 46 毫秒
1.
2.
3.
4.
针对中文文本分类问题,将其用于分类规则的抽取。为了避免微粒群算法在全局优化中陷入局部极值,利用混沌运动遍历性、随机性等特点,对标准微粒群算法进行了改进,提出了基于混沌微粒群算法的文本自动分类方法。仿真实验表明本算法对文档进行分类是一种比较可行的分类方法,分类精度高、速度快。 相似文献
5.
向量空间模型是自动文本分类中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项通常只能提供较少的局部语义信息。为实现基于内容的文本分类,该文用HNC理论中的句类作为特征项,通过混合句类分解等技术对句类向量空间降维,使用tfc算法对特征项进行权重计算,用KNN算法进行分类。该分类器的平均准确率和召回率都是可接受的,对类别的抽象程度无要求,即抽象度较高和较低的类别可以同时分类。通过使用更好的机器学习算法和其他的HNC语言理解技术,性能可以进一步提高。 相似文献
6.
介绍中文文本分类的流程及相关技术。在分析传统的文本特征选择不足的基础上,提出了基于粗糙集与集成学习结合的文本分类方法,通过粗糙集进行文本的特征选择,采用一种集成学习算法AdaBoost.M1来提高弱分类器的分类性能,对中文文本进行分类。实验证明,这种算法分类结果的F1值比C4.5、kNN分类器都高,具有更加优良的分类性能。 相似文献
7.
8.
在文本情感分类中,传统的特征表达通常忽略了语言知识的重要性。提出了一种基于词性嵌入的特征权重计算方法,通过构造一种特征嵌入模式将名词、动词、形容词、副词四种词性对情感分类的贡献度嵌入到传统的TF-IDF(Term Frequency-Inverse Document Frequency)权值中。其中,词性的情感贡献度通过粒子群优化算法获得。实验采用支持向量机完成分类,并对比了不同知识的嵌入情况,包括词性、情感词及词性和情感词的组合。结果表明基于词性嵌入的方法分类性能最优,可以显著提高中文文本情感分类的准确率。 相似文献
9.
特征选择算法(TFFS)存有一定的不足:集中度难于正确衡量低频繁特征项的权值;分散度忽略了互信息为负数的特征项对文本分类的影响。提出一种改进的特征选择算法(TFFSL),TFFSL对集中度、分散度做了一定的改进,避免了TFFS的缺陷,同时TFFSL结合特征项长度信息,提高了短语和词语在分类中的作用。SVM分类实验结果表明:与TFFS相比,TFFSL有更高的文本分类性能和剔除无关特征项的能力。 相似文献
10.
中文文本分类中的特征选择研究 总被引:14,自引:0,他引:14
有多种特征选择算法被用于文本自动分类,YimingYang教授曾针对英文文本分类中的特征选择做过深入的研究,并得出结论:IG和CHI方法效果相对较好.考虑到该结论不一定适合对中文文本的分类,对中文文本分类中的特征选择方法进行研究,采用了包含500篇新闻的中文语料库对几种特征选择算法进行测试,结果表明:在测试的特征选择算法中,χ2估计方法无需因训练集的改变而人为调节特征阀值,并且分类准确率较高. 相似文献
11.
12.
多目标群体决策问题的模糊分析方法 总被引:6,自引:2,他引:4
将用于个人的多目标决策的广义海明权距离法推广到群体多目标决策情形 ,利用工程模糊集理论中相对优属度的定义 ,引入群体广义海明权距离概念 ,提出了解决群体多目标决策问题的方法 .并通过一实例说明了该方法的有效性及通用性 相似文献
13.
HI—1三感觉机械手的研究 总被引:4,自引:2,他引:2
本文对机器人的接近觉、接触觉、滑觉进行了研究,设计并制作了能装于机械手爪上的小型组合传感器.传感器组成的系统在一简易的机械手上完成了抓鸡蛋、纸盒、玻璃瓶、铁块等多种操作. 相似文献
14.
霍楷 《数码设计:surface》2010,(12):29-31
平面设计的视觉语义是由视觉语言表达特定的创意理念完成的主体之于客体的整合,这种视觉语义概括为创意的设计感、形式感及表现力。文章对设计感的、形式感和表现力的探索与把握及其之间的关系来研究平面设计的视觉语义要素,并得出结论:设计感是平面设计的精髓,形式感是平面设计的外衣,表现力是平面设计的加速器,三者整合为一体,构成视觉语义的完整要素。 相似文献
15.
本文从"安全感"的视角,通过阐述传统装饰图案寓意和现代装饰图案审美内涵,探索人们对安全感需求的重要性,呼吁设计师关注消费者的心理需求并重视安全感设计。 相似文献
16.
词义消歧是自然语言处理中的一项基础任务,古汉语信息处理也急需深层次的语义标注工作。该文针对先秦古汉语这一特殊的语言材料,在训练语料和语义资源匮乏的条件下,采用《汉语大词典2.0》作为知识来源,将其词条释义作为义类,每个义项的例句作为训练语料,使用基于支持向量机(SVM)的半指导方法对《左传》进行全文的词义标注。按照频度不同、义项数量不同的原则,我们随机选取了22个词进行了人工检查,平均正确率达到67%。该方法可以广泛用于缺乏训练语料的古汉语义项标注工作,能够在古汉语全文词义标注的起步阶段提供初始结果,为人工标注词语义项提供良好的数据底本,补正传统词典释义不全的问题,进一步丰富汉语史发展研究资料。 相似文献
17.
古汉语以单音节词为主,其一词多义现象十分突出,这为现代人理解古文含义带来了一定的挑战。为了更好地实现古汉语词义的分析和判别,该研究基于传统辞书和语料库反映的语言事实,设计了针对古汉语多义词的词义划分原则,并对常用古汉语单音节词进行词义级别的知识整理,据此对包含多义词的语料开展词义标注。现有的语料库包含3.87万条标注数据,规模超过117.6万字,丰富了古代汉语领域的语言资源。实验显示,基于该语料库和BERT语言模型,词义判别算法准确率达到80%左右。进一步地,该文以词义历时演变分析和义族归纳为案例,初步探索了语料库与词义消歧技术在语言本体研究和词典编撰等领域的应用。 相似文献
18.
常识问答是一项重要的自然语言理解任务, 旨在利用常识知识对自然语言问句进行自动求解, 以得到准确答案. 常识问答在虚拟助手或社交聊天机器人等领域有着广泛的应用前景, 且其蕴涵了知识挖掘与表示、语言理解与计算、答案推理和生成等关键科学问题, 因而受到工业界和学术界的广泛关注. 首先介绍常识问答领域的主要数据集; 其次, 归纳不同常识知识源在构建方式、常识来源和表现形式上的区别; 同时, 重点分析并对比前沿常识问答模型, 以及融合常识知识的特色方法. 特别地, 根据不同问答任务场景中常识知识的共性和特性, 建立包含属性、语义、因果、语境、抽象和意图6大类的知识分类体系. 以此为支撑, 针对常识知识数据集建设, 感知知识融合和预训练语言模型的协作机制, 以及在此基础上的常识知识预分类技术, 进行前瞻性的研究, 并具体报告上述模型在跨数据集迁移场景下的性能变化, 及其在常识答案推理中的潜在贡献. 总体上, 包含对现有数据和前沿技术的回顾, 也包含面向跨数据知识体系建设、技术迁移与通用化的预研内容, 借以在汇报领域技术积累的前提下, 为其理论和技术的进一步发展提供参考意见. 相似文献
19.
词义排歧是自然语言处理中的一个难点问题,它在机器翻译、信息检索、句子分析和语音识别等自然语言处理的许多领域中起着举足轻重的作用。因此词义排歧方法的研究在自然语言处理领域具有重要的理论和实践意义。获得带语义标记的大规模训练语料是词义排歧在自然语言处理中的一个难点。为了解决这一问题,提出了一种基于知识的语义剪枝方法。其目的是通过语义剪枝系统尽可能地减少歧义词在上下文中错误的或最不可能的义项。语义剪枝以后,形成词和其可能义项的一个列表,尽量将一个词真正正确的义项保留下来。为了对语义剪枝算法进行评价,特意开发了一个人机交互的语义标注系统,并将获得的语料应用到了词义排歧系统。通过对系统标注的语料和人工标注的语料进行对比,达到对算法评价的目的,收到了良好的效果。 相似文献