首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
为解决汉韩双语平行语料库资源匮乏以及传统句对齐算法面向跨语系语言准确率较低的问题,提出了融合特征的汉韩双语句对齐方法。首先将Bi-LSTM融入孪生神经网络构建句对齐模型,用以分别提取汉语和韩语句子的特征并进行对齐。之后基于语料的特点提取句对齐特征融入输入层。通过与传统Bi-LSTM和不同特征组合的孪生Bi-LSTM的对比实验证明,融入特征的孪生Bi-LSTM方法在句对齐任务中具有更优越的性能。  相似文献   

2.
孙新  盖晨  申长虹  张颖捷 《电子学报》2021,49(9):1682-1690
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.  相似文献   

3.
句子级双文本语料库,已经成为机器翻译、双语词典编纂研究不可或缺的重要资源。目前,针对朝鲜语—汉语的相关研究比较少,文章面向朝汉平行语料库,采用基于字符长度的朝汉句子对齐算法,实现朝鲜语—汉语的句子的自动对齐,并提出一种句子对齐评价方法。实验表明,基于长度的句子对齐方法对朝汉句子自动对齐具有良好效果,句子对齐正确率达到88.7%,所提出的句子对齐判定方法简便有效,对构建朝汉双语语料库有重要的指导作用。  相似文献   

4.
在小语种舆情监控领域,由于小语种的标注语料难以获取,导致深度学习的训练效果较差.对于民间及媒体发表的新闻内容很难准确抽取其核心观点句,从而影响了进一步的舆情分析效果.为了将研究问题具体化,以越南语为例,提出一种融入共享主题特征的汉越跨语言新闻观点句的抽取方法,可以借助充足的汉语标注语料解决小语种资源稀缺问题,并利用双语可比语料间可共享的主题信息来优化抽取效果,进而提升舆情监控效果.具体方法为,提取汉越可比新闻的隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题来构建共享主题特征,借助共享主题词典和情感词典训练双语词嵌入模型来共享汉越语义空间表征,将特征融入词向量,通过将语义信息与主题、情感、位置信息相结合来提升抽取效果.在汉越可比新闻数据集里进行的实验结果表明,融入共享主题特征能够提升小语种新闻观点句的抽取效果,F1值达到0.721,对小语种舆情监控起到支撑作用.  相似文献   

5.
短语统计机器翻译的句法调序模型   总被引:2,自引:0,他引:2  
为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型.该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性.在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的调序顺序,依据各个节点上的调序概率计算子结构的调序概率,作为对数线性模型的特征函数.该模型的实验结果比经典的短语统计翻译模型的BLEU评分有明显提高.结果表明句法调序模型对于基于短语的统计机器翻译是有效的,能够较好地将句法知识和短语翻译过程结合起来.  相似文献   

6.
新闻推荐是根据用户的阅读习惯,为其推送更符合需求的内容,然而现有的方法仍存在特征学习不足的问题.针对此问题,提出了一种基于多通道CNN-BiGRU与多特征融合方法,主要由以下四部分组成:(1)词嵌入层.在词向量中融入实体嵌入向量,弥补单独仅使用词向量的不足,完成多通道词向量的构建;(2)多通道CNN-BiGRU模型.此...  相似文献   

7.
从互联网上挖掘大量双语平行句对,可以快速有效地构建大规模双语资源,服务于统计机器翻译。从挖掘对象的不同,将网络数据源分成对照网页和平行网页两类,提出一种抽取双语句对的方法。首先,从上述两类网页中分别抽取平行文本段,对照网页文本段抽取的主要方法为页面过滤和模板匹配,而平行网页依赖于网页结构的相似,采用对应节点匹配方法;其次,采用Gale-Church算法进行句对齐,得到平行句对;最后统一进行后处理。实验结果表明,从对照网页获取平行句对的准确率达到93.3%,平行网页为93.5%。  相似文献   

8.
跨语言实体对齐旨在找到不同语言知识图谱中指向现实世界同一事物的实体.传统的跨语言实体对齐方法通常仅依靠知识图谱内部的结构信息,但实际上一些知识图谱提供的实体描述信息也可以被利用.本文提出了一种结合知识图谱的内部结构和实体描述信息共同进行跨语言实体对齐的模型.该模型首先通过训练基于知识图谱结构信息的知识向量找到可能被对齐的实体对,再结合实体描述信息利用改进后的共享参数模型选出最终的对齐实体,最后通过迭代对齐的方法重复前两个步骤找到更多的对齐实体直到训练结束.实验结果表明,与基准算法相比,本文所提模型在跨语言实体对齐任务上可以取得相对不错的结果.  相似文献   

9.
电磁泄漏曲线的对齐与有效点的选取是信息安全的重要研究方向.针对曲线过偏移的问题, 提出了一种新的曲线对齐方法——双峰式相关对齐法.在有效抑制曲线过偏移的同时, 实现了曲线的精确对齐通过独立成分分析(Independent Component Analysis, ICA)方法实现了有效点的选取.通过对电磁泄露曲线求得未知的源信号, 由源信号作为特征点进行分类分析.分别采用ICA、主成分分析(Principal Components Analysis, PCA)、PCA-ICA、ICA-PCA四种方法对数据进行了降维处理.通过支持向量机(Support Vector Machine, SVM)对降维后的数据进行分类对比, 最终得出:在10~100维范围内, PCA-ICA的分类效果最佳, ICA其次, 而ICA-PCA的效果最差; 在100~900维的范围内, PCA与ICA-PCA分类效果随着维度的增加几乎呈直线趋势增加.  相似文献   

10.
基于双激活层深度卷积特征的人脸美丽预测研究   总被引:2,自引:0,他引:2       下载免费PDF全文
目前,人脸美丽预测存在数据规模小、分类难度大、深度特征研究不足等问题.为此,本文提出基于双激活层深度卷积特征的人脸美丽预测研究的解决方案.首先,采用数据增强和人脸对齐方法来增加训练集的样本数量和提高数据库的数据质量.其次,提出一种双激活层改进CNN模型,使其更适合人脸美丽预测应用.实验结果表明,本文所提方法在分类和回归预测方面均大幅度优于传统人脸美丽预测方法;同时,在主流的CNN模型中取得了较好的实时性和准确性,基于2000测试集的分类准确率达到61.1%,回归相关度达到0.8546.因此,双激活层在深层人脸美丽特征学习中发挥了重要作用,可广泛应用于人脸图像识别与处理.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号