首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 734 毫秒
1.
汉语词语语义相似度计算研究   总被引:12,自引:0,他引:12       下载免费PDF全文
夏天 《计算机工程》2007,33(6):191-194
汉语词语的语义相似度计算是中文信息处理中的一个关键问题。该文提出了一种基于知网、面向语义、可扩展的相似度计算新方法,该方法从信息论的角度出发,定义了知网义原间的相似度计算公式,通过对未登录词进行概念切分和语义自动生成,解决了未登录词无法参与语义计算的难题,实现了任意词语在语义层面上的相似度计算。针对同义词词林的实验结果表明,该方法的准确率比现有方法高出近15个百分点。  相似文献   

2.
基于框架语义分析的汉语句子相似度计算   总被引:4,自引:0,他引:4  
句子相似度计算在自然语言处理的许多领域中发挥着重要作用.已有的汉语句子相似度计算方法由于考虑句子的语义不全面,使得相似度计算结果不够准确,为此提出一种新的汉语句子相似度计算方法.该方法基于汉语框架网语义资源,通过多框架语义分析、框架的重要度度量、框架的相似匹配、框架间相似度计算等关键步骤来实现句子语义的相似度量.其中多框架语义分析是从框架角度对句子中的所有目标词进行识别、框架选择及框架元素标注,从而达到全面刻画句子语义的目的;在此基础上根据句子中框架的语义覆盖范围对不同框架的重要度进行区分,能够使得相似度结果更准确.在包含多目标词的句子集上的实验结果显示,基于多框架语义分析的句子相似度计算方法相对传统方法获得了更好的测试结果.  相似文献   

3.
汉语核心框架语义分析是从框架语义角度,通过抽取句子的核心框架,获取汉语句子的核心语义骨架。该文将核心框架语义分析分为核心目标词识别、框架选择和框架元素标注三个子任务,基于各个子任务的不同特点,采取最大熵模型分别对核心目标词识别与框架选择任务进行建模;采用序列标注模型条件随机场对框架元素标注任务进行建模。实验在汉语框架网资源的10 831条测试语料中显示,核心目标词识别和框架元素标注F值分别达到99.51%和59.01%,框架选择准确率达到84.73%。  相似文献   

4.
提出了一种基于《知网》的汉语未登录词语义相似度计算方法。该方法首先参照意合网络理论构造了语义关系匹配函数;接着在用概念图表示未登录词语义信息的基础上,根据节点在语义表示中的作用不同对其分类;然后应用匹配函数对弧、节点对及节点对集进行分类;最后设计了未登录词的整体相似度、不同类型节点对及节点对集相似度的计算方法。该方法能够合理分类未登录词的语义信息并能将其充分利用到计算过程中,实验结果证明此方法是有效的。  相似文献   

5.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

6.
汉语框架语义角色的自动标注   总被引:3,自引:0,他引:3  
基于山西大学自主开发的汉语框架语义知识库(CFN),将语义角色标注问题通过IOB策略转化为词序列标注问题,采用条件随机场模型,研究了汉语框架语义角色的自动标注.模型以词为基本标注单元,选择词、词性、词相对于目标词的位置、目标词及其组合为特征.针对每个特征设定若干可选的窗口,组合构成模型的各种特征模板,基于统计学中的正交表,给出一种较优模板选择方法.全部实验在选出的25个框架的6 692个例句的语料上进行.对每一个框架,分别按照其例句训练一个模型,同时进行语义角色的边界识别与分类,进行2-fold交叉验证.在给定句子中的目标词以及目标词所属的框架情况下,25个框架交叉验证的实验结果的准确率、召回率、F1-值分别达到74.16%,52.70%和61.62%.  相似文献   

7.
维汉机器翻译未登录词识别研究   总被引:1,自引:1,他引:0  
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。  相似文献   

8.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

9.
该文基于汉语框架网,利用框架核心依存图形式化地表示一个汉语句子,使得对句子能够进行深层语义理解。为了得到框架核心依存图,需要提取其中框架元素的语义核心词。该文较为系统地描述了框架元素的语义核心词的识别问题。我们利用条件随机场模型、最大熵模型和支持向量机模型来识别框架元素语义核心词,并分别对这三种不同的模型所选的特征集进行了分析,且通过构造不同的特征模板进行对比实验,选取其中较优的特征模板和模型。结果表明,条件随机场模型具有较好的识别性能,在对其特征模板做进一步改进的基础上,识别效率也得到一定的提高。其中对简单型和复合型短语类型框架元素语义核心词识别的平均正确率分别达到了97.34%和94.03%。  相似文献   

10.
该文研究了汉语框架自动识别中的歧义消解问题,即对给定句子中的目标词,基于其上下文环境,从现有的框架库中,为该目标词自动标注一个合适的框架。该文将此任务看作分类问题,使用最大熵建模,选用词、词性、基本块、依存句法树上的若干特征,并使用开窗口技术和BOW策略,以目前汉语框架语义知识库中的88个词元的2 077条例句为训练、测试语料,进行了3-fold交叉验证实验,最好结果取得69.28%的精确率(Accuracy)。  相似文献   

11.
语义知识库是自然语言处理的基础性工程,但现阶段语义知识库的构建,大部分工作基于人工.基于英语框架网络FrameNet,采用FrameNet的现有框架库作为汉语框架网络的框架库,通过FrameNet中现有标注英文例句训练一语义角色标注器,利用英汉双语平行语料,对英文语料进行语义角色标注并将其映射到中文句子上,从标注好的汉语句子中提取汉语词元和例句填充汉语框架,构建汉语词汇库和例句库,从而实现汉语语义框架网络的自动构造.  相似文献   

12.
荣光辉  黄震华 《计算机应用》2017,37(10):2861-2865
面向中文问答匹配任务,提出基于深度学习的问答匹配方法,以解决机器学习模型因人工构造特征而导致的特征不足和准确率偏低的问题。在该方法中,主要有三种不同的模型。首先应用组合式的循环神经网络(RNN)与卷积神经网络(CNN)模型去学习句子中的深层语义特征,并计算特征向量的相似度距离。在此模型的基础上,加入两种不同的注意力机制,根据问题构造答案的特征表示去学习问答对中细致的语义匹配关系。实验结果表明,基于组合式的深度神经网络模型的实验效果要明显优于基于特征构造的机器学习方法,而基于注意力机制的混合模型可以进一步提高匹配准确率,其结果最高在平均倒数排序(MRR)和Top-1 accuray评测指标上分别可以达到80.05%和68.73%。  相似文献   

13.
文本蕴含识别是处理自然语言中广泛存在的同义异形现象的一种有效途径。该文基于FrameNet中框架及框架之间的八种关系,结合WordNet中词汇间的语义关系,提出了一种文本蕴含识别方法。在给定文本T和假设H中词元激起的框架基础上,该方法利用深度优先搜索,在FrameNet框架关系图中,查询T和H中框架之间的上下位关系;再使用WordNet中语义关系比较二者的框架元素是否一致或相似。实验对RTE2007中50个文本对进行了测试,达到了76.6%的准确率,略高于RTE2007评测的最优结果。  相似文献   

14.
目的 行为识别在人体交互、行为分析和监控等实际场景中具有广泛的应用。大部分基于骨架的行为识别方法利用空间和时间两个维度的信息才能获得好的效果。GCN (graph convolutional network)能够将空间和时间信息有效地结合起来,然而基于GCN的方法具有较高的计算复杂度,结合注意力模块和多流融合策略使整个训练过程具有更低的效率。目前大多数研究都专注于算法的性能,如何在保证精度的基础上减少算法的计算量是行为识别需要解决的关键性问题。对此,本文在轻量级Shift-GCN (shift graph convolutional network)的基础上,提出了整数倍稀疏网络IntSparse-GCN (integer sparse graph convolutional network)。方法 首先提出奇数列向上移动,偶数列向下移动,并将移出部分用0替代新的稀疏移位操作,并在此基础上,提出将网络每层的输入输出设置成关节点的整数倍,即整数倍稀疏网络IntSparse-GCN。然后对Shift-GCN中的mask掩膜函数进行研究分析,通过自动化遍历方式得到精度最高的优化参数。结果 消融实验表明,每次算法改进都能提高算法整体性能。在NTU RGB+D数据集的子集X-sub和X-view上,4流IntSparse-GCN+M-Sparse的Top-1精度分别为90.72%和96.57%。在Northwestern-UCLA数据集上,4流IntSparse-GCN+M-Sparse的Top-1精度达到96.77%,较原模型提高2.17%。相比代表性的其他算法,在不同数据集及4个流上的准确率均有提升,尤其在Northwestern-UCLA数据集上提升非常明显。结论 本文针对shift稀疏特征提出整数倍IntSparse-GCN网络,对Shift-GCN中的mask掩膜函数进行研究分析,并设计自动化遍历方式得到精度最高的优化参数,不但提高了精度,也为进一步的剪枝及量化提供了依据。  相似文献   

15.
王康  董元菲 《计算机应用》2019,39(10):2937-2941
针对传统身份认证矢量(i-vector)与概率线性判别分析(PLDA)结合的声纹识别模型步骤繁琐、泛化能力较弱等问题,构建了一个基于角度间隔嵌入特征的端到端模型。该模型特别设计了一个深度卷积神经网络,从语音数据的声学特征中提取深度说话人嵌入;选择基于角度改进的A-Softmax作为损失函数,在角度空间中使模型学习到的不同类别特征始终存在角度间隔并且同类特征间聚集更紧密。在公开数据集VoxCeleb2上进行的测试表明,与i-vector结合PLDA的方法相比,该模型在说话人辨认中的Top-1和Top-5上准确率分别提高了58.9%和30%;而在说话人确认中的最小检测代价和等错误率上分别减小了47.9%和45.3%。实验结果验证了所设计的端到端模型更适合在多信道、大规模的语音数据集上学习到有类别区分性的特征。  相似文献   

16.
该文针对中文阅读理解问答中的时间、人物、地点、数值、实体、描述六类问题,制定了各类问题回答的启发式规则集。对规则集中每条规则赋予一个相应权值,利用正交表对各规则所对应的权值进行了调优选取,给出了各候选答案句基于相应规则的得分计算方法。该文方法在山西大学自主开发的中文阅读理解语料库CRCC v1.1 上进行了实验,在整个语料库上得到了83.09%的HumSent准确率。为了与文献[10]中的最大熵方法比较,该文在与文献[10]中完全相同的训练集上调优规则的权值,在相同的测试集上测试,最终得到HumSent准确率81.13%,比最大熵的方法高大约1%, 且在全部的六类问题上,该文方法的HumSent准确率都不低于最大熵方法。  相似文献   

17.
针对汉语篇章分析的三个任务: 篇章单元切割、篇章结构生成和篇章关系识别,该文提出引入框架语义进行分析研究。首先基于框架构建了汉语篇章连贯性描述体系以及相应语料库;然后抽取句首、依存句法、短语结构、目标词、框架等特征,分别训练基于最大熵的篇章单元间有无关系分类器和篇章关系分类器;最后采用贪婪算法自下向上生成篇章结构树。实验证明,框架语义可以有效切割篇章单元,并且框架特征可以有效提升篇章结构以及篇章关系的识别效果。  相似文献   

18.
基于深度学习的视频超分辨率重构方法常面临重构精度不高或重构时间过长的问题,难以实时获得高精度的重构结果.针对此问题,文中提出基于深度残差网络的视频超分辨率重构方法,可以快速地对视频进行高精度重构,并在较小分辨率视频的重构过程中达到实时重构的要求.自适应关键帧判别子网自适应地从视频帧中判别关键帧,关键帧经过高精度关键帧重构子网进行重构.对于非关键帧,将其特征与邻近关键帧间的运动估计特征和邻近关键帧的特征逐层融合,直接获得非关键帧的特征,从而快速获得非关键帧的重构结果.在公开数据集上的实验表明,文中方法能实现对视频的快速、高精度重构,鲁棒性较好.  相似文献   

19.
王志国  宗成庆 《软件学报》2012,23(10):2628-2642
在句法分析中,已有研究工作表明,词汇依存信息对短语结构句法分析是有帮助的,但是已有的研究工作都仅局限于使用一阶的词汇依存信息.提出了一种使用高阶词汇依存信息对短语结构树进行重排序的模型,该模型首先为输入句子生成有约束的搜索空间(例如,N-best句法分析树列表或者句法分析森林),然后在约束空间内获取高阶词汇依存特征,并利用这些特征对短语结构候选树进行重排序,最终选择出最优短语结构分析树.在宾州中文树库上的实验结果表明,该模型的最高F1值达到了85.74%,超过了目前在宾州中文树库上的最好结果.另外,在短语结构分析树的基础上生成的依存结构树的准确率也有了大幅提升.  相似文献   

20.
井下配电室监控视频持续时间较长且行为类型复杂,传统双流卷积神经网络(CNN)法对此类行为识别效果较差.针对该问题,对双流CNN法进行改进,提出了一种基于改进双流法的井下配电室巡检行为识别方法.通过场景分析,将巡检行为分为站立检测、下蹲检测、走动、站立记录、坐下记录5种类型,并制作了巡检行为数据集IBDS5.将每个巡检行为视频等分为3个部分,分别对应巡检开始、巡检中和巡检结束;对3个部分视频分别随机采样,获取代表空间特征的RGB图像和代表运动特征的连续光流图像,并分别输入空间流网络和时间流网络进行特征提取;对2个网络的预测特征进行加权融合,获取巡检行为识别结果.实验结果表明,以Res Net152网络结构为基础,且权重比例为1∶2的空间流和时间流双流融合网络具有较高的识别准确度,Top-1准确度达到98.92%;本文方法在IBDS5数据集和公共数据集UCF101上的识别准确率均优于3D-CNN、传统双流CNN等现有方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号