排序方式: 共有28条查询结果,搜索用时 218 毫秒
1.
目前如何对互联网上的海量数据进行文本分类已经成为一个重要的研究方向,随着云计算技术和Hadoop平台的逐步发展,文本分类的并行化方式将能够更有效的解决当前的问题.论文针对文本分类中特征选择阶段对文本分类性能有很大影响的缺点,提出了一种改进的特征选择算法——类别相关度算法(Class Correlation Algorithm,CCA),同时根据Hadoop平台在海量数据存储和处理方面所具有的优点,利用MapReduce的并行编程框架和HDFS分布式存储系统对文本分类的各个阶段实现了并行化编程.最后通过实验将Hadoop平台下的文本分类的优化算法与传统的单机运行环境下的文本分类算法进行了对比分析,实验结果表明对于相同的数据集,该算法在运算时间上有极大的提高. 相似文献
2.
近年来随着深度学习技术的不断革新,预训练模型在自然语言处理中的应用也越来越广泛,关系抽取不再是单纯地依赖传统的流水线方法。预训练语言模型的发展已经极大地推动了关系抽取的相关研究,在很多领域已经超越了传统方法。首先简要介绍关系抽取的发展与经典预训练模型;其次总结当下常用的数据集与评测方法,并分析模型在各数据集上的表现;最后探讨关系抽取发展的挑战与未来研究趋势。 相似文献
3.
词语语义相似度计算在很多自然语言处理相关领域都有着广泛应用.基于知网的现有词语语义相似度计算方法未深入考虑同棵义原层次树的义原距离、义原深度、义原密度及主次关系的影响,致使相似度计算结果并不够精确.针对该问题,提出一种词语语义相似度改进算法,通过分析知网中的义项表达式和义原层次树,用集合的加权平均值代替了义项相似度最大... 相似文献
4.
对于合同文本中当事人信息、合同基本信息、合同条款等细粒度实体的正确提取,可以有效提升合同的审查效率,为智能合同管理赋能。然而现有的实体识别方法,难以解决合同文本中实体类型复杂和合同实体细化的问题。因此,该文提出一种新的基于词汇增强的细粒度实体识别模型BLBC-CFER,该方法通过对预训练语言模型提供的字级增强、字加词嵌入提供的词级增强以及词汇集合结构提供的词级增强进行融合并嵌入到模型输入中,然后采用深度神经网络获取最优标记序列。该文在自行构建的买卖合同细粒度实体语料集和两个不同领域的公开数据集上进行实验。实验结果表明,该方法不仅可以有效地完成合同文本的细粒度实体识别任务,而且具有较好的鲁棒性,效果优于基线模型。 相似文献
6.
在文本分类过程中,经典的最近邻分类算法(KNN)面对海量数据时的执行时间较长.对经典KNN算法进行改进,通过在训练阶段构造初级分类器以减少训练阶段的计算量,并在Hadoop平台MapReduce下予以实现.实验结果表明,改进后的算法可以在保证分类精度的情况下节省运行时间. 相似文献
7.
8.
9.
近年来,人工智能飞速发展并在社会各个方面都得到了广泛应用,随之也影响着教育向智能化方向发展.该文首先分析对外汉语教学对于智能聊天机器人对话系统的实际需求;然后在总结国内外研究成果和相关会议的基础上,对基于聊天机器人的智能对外汉语学习系统的相关理论和系统结构进行了详细阐述,以情境学习理论、建构主义学习理论、人工智能中的自... 相似文献
10.
特征词的选取与文本表示是文本分类信息预处理的核心问题之一,鉴于此,论文提出一种改进的加权连续词袋模型(CBOW)与基于注意力机制的双向长短期记忆网络模型(BI-LASM-ATT)应用于文本分类研究.该模型以词频作为特征选择依据,改进了频次与反频次,利用加权CBOW模型得到词向量表示,作为BI-LSTM-ATT模型的词嵌入层,得到Soft-max分类器分类结果.论文在复旦大学提供的语料集的实验结果表明,该模型在文本分类的精确率、召回率、F_meature效果对比中,比传统机器学习和深度学习算法均有明显提高. 相似文献