首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
为了解决中医症状描述词的异名同义、一对多的问题,提出了一种基于预训练语言模型的2阶段症状标准化框架:第1阶段,生成候选标准症状词,参考中医症状词的定义与分类,利用多标签分类思想对原始症状词进行语义划分,进而得到相应语义标签下的候选标准症状词;第2阶段,对候选标准症状词进行排序,使用匹配模型对第1阶段得到的候选标准症状词集进行评分与排序,同时用策略对结果进行二次召回以提高症状标准化框架的性能,由此得到最终的标准化结果。实验结果表明,提出的症状标准化方法与传统方法相比能够更有效地处理症状标准化的问题。通过对比分析不同预训练语言模型在症状标准化任务上的性能,进一步说明了所提框架和策略的有效性。  相似文献   

2.
为解决一般预训练语言表示模型在语义理解和推理过程中存在不足的问题,提出了一种知识嵌入式预训练语言模型,使用知识嵌入和预训练语言表示的统一模型将事实知识集成到增强的语言表示模型中,充分利用知识图谱中包含的丰富的结构化知识事实来增强文本表示,从而提高预训练模型的效果。该模型利用大规模文本语料库和知识图谱进行训练优化,在THUCNews数据集上的文本分类的准确率和召回率分别达到了96.51%和90.36%,优于文本循环神经网络、基于变换器的双向编码器表征、增强语言表示模型的实验结果,验证了经知识图谱优化后的预训练语言模型在文本分类任务上的优越性。  相似文献   

3.
4.
给出了一种基于快速排序和归并排序的高阶汉语大标记集Markov统计语言模型的统计算法,并对算法的时间复杂性和空间复杂性进行了分析,依据这种统计算法,设计实现了一个汉语字(词)统计统计系统,通过对上千万字的汉语语料的统计,建立起了汉了(词)一元,二元和三元Markov模型,并对统计结果进行了分析。  相似文献   

5.
机器问答是通过自然语言处理技术,使机器可以理解人们用自然语言提交的问题,同时并对问题做出响应回答。针对机器问答进行研究,采用了基于Bert模型的答案选择模型,提出了基于预训练与答案选择模型的机器问答方法。对于答案选择部分,采用全连接神经网络模型和长短时记忆网络两种网络模型结构,并对这两种模型进行对比分析。所采用的模型在NLPCC-ICCPOL DBQA数据集中评价指标ACC@1、MRR、MAP测试结果分别为0.8102、0.8110、0.7204。在Natural-Conv数据集上评价指标ACC@1、MRR、MAP测试结果分别为0.8380、0.8250、0.8490,其中ACC@1评测结果相较于CNN、LSTM等模型的结果分别提高了0.0854、0.0952。  相似文献   

6.
一种基于向量空间模型的文本聚类方法   总被引:1,自引:0,他引:1  
研究了一种基于向量空间模型的文档聚类方法.提出了一个新的聚类模型,即在传统聚类模型的基础上增加一个文档特征向量调整模块;给出了一个特征评价函数用以进行特征提取;对一种基于相似度的平面划分聚类算法做了一些改进.实验结果表明本文提出的聚类模型是可行的.  相似文献   

7.
预训练语言模型被广泛运用在多项自然语言处理任务中,但是对于不同的任务没有精细的微调.针对文本分类任务,提出基于探测任务的语言模型微调方法,利用探测任务训练模型特定的语言学知识,可提高模型在文本分类任务上的性能.设计了6个探测任务,覆盖句子浅层、语法和语义三方面信息.最后在6个文本分类数据集上验证了本文的方法,使分类错误率得到改善.  相似文献   

8.
对文本特征表示模型和文本特征提取方法进行了探讨,分析了分类效果的影响因素,设计了一种动态调整训练集的文本分类算法,并结合支持向量机验证了该分类系统的类别特征信息和分类适应性.  相似文献   

9.
在对化工领域类文本进行分类任务时,由于文本的专业性以及复杂多样性,仅仅依靠现有的词向量表征方式,很难对其中的专业术语以及其他化工领域内相关字词的语义进行充分表征,从而导致分类任务的准确率不高.本文提出一种融合多粒度动态语义表征的文本分类模型,首先在词嵌入层使用动态词向量表征语义信息并引入对抗扰动,使得词向量具有更好的表征能力,然后利用多头注意力机制进行词向量权重分配,获得带有关键语义信息的文本表示,最后使用提出的多尺度残差收缩深层金字塔形的卷积神经网络与混合注意力胶囊双向LSTM网络模型分别提取不同粒度的文本表示,融合后对得到的最终文本表示进行分类.实验结果表明,相比于现有模型,所提出的模型使用不同词向量表示时,在化工领域文本数据集上F1-Score最高可达84.62%,提升了0.38~5.58个百分点;在公开中文数据集THUCNews和谭松波酒店评论数据集ChnSentiCorp上进行模型泛化性能评估,模型也有较好表现.  相似文献   

10.
深度学习在事件检测任务上取得了显著的成果,但模型严重依赖于大量的标注数据. 由于事件结构化的信息和丰富的标签表示,使得获取注释的成本很高,难以大量获得. 针对事件检测任务,为了提高语料标注效率,减少训练过程所需的标注样本数量,提出一种联合主动学习和预训练模型的事件检测模型. 针对主动学习模型存在的冷启动问题,设计了基于融合不确定性的特殊样本选择策略,估计样本在微调下游事件检测任务方面的潜在贡献. 一方面,结合预训练模型从原始任务中带来的丰富的语义信息,避免了重新设计网络结构或从零开始训练; 另一方面,利用主动学习选择信息丰富的样本能更好地微调预训练模型,减少数据标注成本. 在ACE 2005语料上进行数值实验验证,结果证明了所提出的EDPAL算法的有效性.  相似文献   

11.
无监督的动态分词方法   总被引:2,自引:0,他引:2  
介绍了一种变长汉语语料自动分词方法,这种方法以信息理论中极限熵的概念为基础,运用汉字字串间最大似然度的概念,对汉语语料进行自动分词。讨论了这些方法的局限性,并列出了一些试验结果。  相似文献   

12.
英文文本识别系统中单词切分效果直接影响系统识别准确率.提出一种有效利用单词中的连通域以实现单词切分的方法,该方法首先对给定的图像文件进行扫描,搜索图像中所存在的所有连通域,然后根据连通域的坐标、尺寸等影响因素,对有效的连通域进行合并,并过滤掉噪声等因素所产生的连通域碎片,以实现有效的英文单词区域的正确分割,从而实现英文单词的正确切分.实验结果表明,针对相同的英文文本图像,该方法对英文单词切分的准确率达95%以上,与垂直投影切分法最高准确率27%相比有较大幅度的提高,证明该方法可以很好解决垂直投影法无法解决的字母之间相互交迭的单词切分问题.  相似文献   

13.
中文分词技术是中文信息处理的基础,快速、准确的中文分词方法是进行中文信息搜索的关键。基于N-最短路径的分词算法,需要计算有向图中从起点到终点的所有路径值,分词效率低,将动态删除算法与最短路径算法结合,通过从最短路径中删除部分节点的策略减少搜索路径范围,从而提高分词效率。  相似文献   

14.
基于多特征的自适应新词识别   总被引:4,自引:0,他引:4  
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.  相似文献   

15.
汉语是有调语言,声调主要表现在FO曲线的变化上,FO曲线特征在单字中变化简单,在连续语音中变化复杂,但连续语音主要由单字,二字组和少量多字组成组成的,因此对连续语音音调的研究可以分解为单字,二字组和多字组的声调研究,本文主要研究单字和二字组声调。对于辨认声调,我们并不关心FO曲线的具体取值,而是对它的变化趋势变化清楚明晰,也便于计算机处理,另外,本文总结了FO曲线中的一些特征点活动规律,这些规律对辨认真调有重要作用。  相似文献   

16.
近年来互联网在全球化的大背景下飞速发展,针对跨语言的网络数据挖掘成为国内外舆情分析的热点问题,有效实时地检测中英文网络环境下的热点话题对舆情的掌握和舆情的发展有着至关重要的作用。网络新闻作为网络信息舆情中的重要组成部分,由于互联网的大规模普及而成为人们方便快捷获知信息的重要来源。首先,本文选择中文与英文的网络新闻作为数据源进行采集,提出了在LDA模型上改进的ICE-LDA模型进行跨英汉语言网络环境下的共现话题发现。采用话题向量化的方式,对建模产生的话题进行JS距离检测和话题文本分布相似度度量。其次,本文分别对爬虫采集到的中英混合新闻数据分别构建可对比平行语料集和非可对比语料集进行话题建模,在建模过程中利用TF-IDF算法对文档提取特征词去噪,提高话题特征表示去除无意义噪音词。最后,分别采用两种不同的话题向量化方式进行跨语言的共现话题发现建模。实验结果表明,在本文设计的爬虫采集构建的真实数据集上,改进后的话题模型不仅能够在不需要先验话题对的情况下对可对比语料集进行跨语言共现话题进行发现,而且能够对语料不平衡的情况进行共现话题发现。  相似文献   

17.
本文提出一种建立在改进的倒排文件结构基础上的主题词处理方法,用于微型计算机情报检索系统中,它是以若干相关数据库及其互访指针形成的体系结构为核心,并辅以一系列词串预处理、查找、插入、删除法来实现主题词处理的,该方法能有效地节省存贮空间,动态生成主题词典,并有较快的主题检索速度,且提供用户的主题词操作界面友好方便,合符习惯。  相似文献   

18.
网上的基础语言信息资源   总被引:1,自引:0,他引:1  
论述了语言信息处理技术在信息化进程中的作用;介绍了北京大学计算语言学研究所在语言信息处理基础研究方面已经取得的成果以及语言资源情况;提出需要进一步研究的课题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号