首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
双语词典抽取任务是自然语言处理一个重要课题.本文基于替换方法重新训练词向量,使得词向量具有跨语言特性.本文主要研究了训练词典的获取方法,以及词向量共训练模型,在中英维基百科语料上进行实验.实验结果表明,按照确信度的方法选取训练词典,基于替换的方法得到的词向量跨语言性质较好,最终抽取的词典具有较高的准确率.  相似文献   

2.
在小语种舆情监控领域,由于小语种的标注语料难以获取,导致深度学习的训练效果较差.对于民间及媒体发表的新闻内容很难准确抽取其核心观点句,从而影响了进一步的舆情分析效果.为了将研究问题具体化,以越南语为例,提出一种融入共享主题特征的汉越跨语言新闻观点句的抽取方法,可以借助充足的汉语标注语料解决小语种资源稀缺问题,并利用双语可比语料间可共享的主题信息来优化抽取效果,进而提升舆情监控效果.具体方法为,提取汉越可比新闻的隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题来构建共享主题特征,借助共享主题词典和情感词典训练双语词嵌入模型来共享汉越语义空间表征,将特征融入词向量,通过将语义信息与主题、情感、位置信息相结合来提升抽取效果.在汉越可比新闻数据集里进行的实验结果表明,融入共享主题特征能够提升小语种新闻观点句的抽取效果,F1值达到0.721,对小语种舆情监控起到支撑作用.  相似文献   

3.
查询翻译是影响跨语言信息检索(CLIR)性能的关键因素之一.查询中未登录词(OOV)译文的挖掘对改进CLIR性能具有重要意义.利用主题词译文查询扩展方法从搜索引擎自动获取有效双语摘要资源;采用频度变化信息和邻接信息从双语摘要资源中抽取多词候选单元,并与常见的基于统计的多词单元抽取方法进行了比较.实验中译文挖掘方法取得了TOP 1包含率62.02%,TOP 10包含率95.35%的效果.  相似文献   

4.
针对传统短语对齐方法依赖外部资源,且较少涉及平行句对内在特征的问题,提出了融入双语词向量的韩汉名词短语对齐方法.利用平行语料,分别训练单语词向量再进行跨语言映射得到双语词向量,并构建了基于短语构成规律的短语抽取和融入双语词向量、短语长度和词性相似度的短语对齐模型.实验结果证明,融入韩汉双语词向量,能更有效地提取短语特征从而实现短语对齐.  相似文献   

5.
由于信息的高速发展,多语言语料库资源日益增长,促进了双语术语抽取的研究和应用。双语词典被广泛应用于跨语言信息检索、机器翻译等广泛领域,而双语词表的抽取也成为了语言学领域的重要问题。文章在研究了可比语料库双语词表构建的基础上,提出了基于依存上下文来构建中-英词表的方法,并通过对比验证依存上下文方法双语词表构建的优越性。  相似文献   

6.
针对现有方法利用机器翻译在双语新闻中抽取差异性摘要存在的语义转换偏差问题,提出一种基于图卷积网络的双语多文档差异性摘要抽取方法。首先,对已抽取的双语多文档摘要构建句子关系图,并将GRU模型获得的句向量和句子关系图作为图卷积网络的输入,以获得图卷积相关性聚合之后的句子节点表征;然后,计算句子节点表征和GRU模型获得中英文文档向量之间的显著性得分;最后,按照显著性得分高低进行降序排序,分别抽取出中英文的差异性摘要。实验结果表明,所提出的方法能够有效抽取双语多文档差异性摘要。  相似文献   

7.
该文提出了基于Web的无指导译文消歧的词模型及N-gram模型方法,并在尽可能相同的条件下进行了比较。两种方法均利用搜索引擎统计不同搜索片段在Web上的Page Count作为主要消歧信息。词模型定义了汉语词汇与英语词汇之间的双语词汇Web相关度,根据汉语上下文词汇与英语译文之间的相关度进行消歧;N-gram模型首先假设不同语义下的多义词N-gram序列行为模式不同,从而可对多义词不同语义类下词汇在实例中的N-gram序列进行统计与分析以进行消歧。两个模型的性能均超过了在国际语义评测SemEval2007的task#5上可比较的最好无指导系统。对这两个模型进行试验对比可发现N-gram模型性能优于词模型,也表明组合两类模型的结果有进一步提升消歧性能的潜力。  相似文献   

8.
基于深度信念网络的事件识别   总被引:2,自引:0,他引:2       下载免费PDF全文
事件识别是信息抽取的重要基础.为了克服现有事件识别方法的缺陷,本文提出一种基于深度学习的事件识别模型.首先,我们通过分词系统获得候选词并将它们分为五种类型.然后选择六种识别特征并制定相应的特征表示规则用来将词转化为向量样例.最后我们通过深度信念网络抽取词的深层语义信息,并由Back-Propagation(BP)神经网络识别事件.实验显示模型最高F值达85.17%.同时,本文还提出了一种融合无监督和有监督两种学习方式的混合监督深度信念网络,该网络能够提高识别效果(F值达89.2%)并控制训练时间(增加27.50%).  相似文献   

9.
基于单分类支持向量机和主动学习的网络异常检测研究   总被引:1,自引:0,他引:1  
刘敬  谷利泽  钮心忻  杨义先 《通信学报》2015,36(11):136-146
对基于支持向量机和主动学习的异常检测方法进行了研究,首先利用原始数据采用无监督方式建立单分类支持向量机模型,然后结合主动学习找出对提高异常检测性能最有价值的样本进行人工标记,利用标记数据和无标记数据以半监督方式对基于单分类支持向量机的异常检测模型进行扩展。实验结果表明,所提方法能够利用少量标记数据获取性能提升,并能够通过主动学习减小人工标记代价,更适用于实际网络环境。  相似文献   

10.
 针对循环神经网络语言模型对长距离历史信息学习能力不足的问题,本文提出了结合全局词向量特征的循环神经网络语言模型。首先利用GloVe(Global Word Vectors)算法训练出全局词向量,然后将其作为特征向量输入到引入特征层的循环神经网络中进行训练。相对于局部词向量方法,全局词向量能够利用全局统计信息来训练出含有更加丰富的语义和句法信息词向量。为了验证新方法的性能,本文在Penn Treebank和Wall Street Journal语料库上分别进行困惑度和连续语音识别实验。实验结果表明结合全局词向量的循环神经网络语言模型的困惑度相比传统的循环神经网络语言模型降低了202%,同时语音识别系统的词错误率降低了183%。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号