首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于深层特征抽取的日文词义消歧系统   总被引:1,自引:0,他引:1  
词义消歧的特征来源于上下文.日文兼有中英文的语言特性,特征抽取更为复杂.针对日文特点,在词义消歧逻辑模型基础上,利用最大熵模型优良的信息融合性能,采用深层特征抽取方法,引入语义、句法类特征用于消解歧义.同时,为避免偏斜指派,采用BeamSearch算法进行词义序列标注.实验结果表明,与仅使用表层词法类特征方法相比,本文构造的日文词义消歧系统的消歧精度提高2%~3%,动词消歧精度获得5%的改善.  相似文献   

2.
基于话题信息、词的位置关系和互信息等特征, 提出一种无监督的跨语言词义消歧算法。该算法仅利用在线词典和web搜索引擎, 通过上下文信息选择评论句中多义评论词的词义。实验结果表明, 所提出的词义消歧算法具有较高准确率, 对于具有较多候选词义的评论词仍能表现出较好的性能。  相似文献   

3.
基于转换的无指导词义标注方法   总被引:5,自引:0,他引:5  
词义标注是自然语言处理的难题之一。该文提出用于文本词义标注的转换规则自动获取算法及相应的词义排歧算法。该算法用可能的句法关系对语境进行限制,减少了训练数据中的噪音; 为提高学习算法的速度,提出利用预排序方法减少规则搜索次数,以及只调整变化部分数据的计算方法; 并给了改善召回率的词义排歧算法。在近5 万词的语料库上对本算法进行了实验,开放测试的词义排歧正确率为743% 。  相似文献   

4.
传统的中文词义消歧方法是通过观察文本的上下文信息、词性等显性特征建立消歧模型,本文通过对歧义产生原因进行深入的分析,发现词语之间隐含的语法结构、语义信息等也会导致歧义的产生,可以考虑将这些信息加入消歧模型进行消歧。由于《知网》知识库中对词语之间的搭配信息进行了总结,本文借助《知网》提取训练语料库所获取的词语搭配信息的隐性语义特征,结合显性的上下文特征,采用条件随机场的方法进行词义消歧。最后,通过实验进行词义消歧和效果验证,结果表明:本文采用的方法与传统的条件随机场消歧相比,词义消歧的准确率得到了提高。  相似文献   

5.
本文在藏语短语句法分析的基础上,融入功能语义信息线索,采用在藏语短语句法树库的基础上加入语义角色标注的方法,并融合事件触发词信息,对藏文信息进行抽取,并通过实验进行了对比分析。本文事件特征融合与已标注信息对藏文信息抽取有帮助,本文模型可以很好地应用于藏文信息抽取工作。  相似文献   

6.
本文提出稀疏表达的图像标注算法.通过提取图像的SIFT特征及HSV特征,建立稀疏模型,采用距离函数对图像的特征向量进行相似度量求出稀疏系数,实现特征向量的匹配,考虑到图像内容的相似性会体现到标注词上,因此对待测图像进行自动化标注.实验表明,该方法充分运用了图像数据的稀疏化以及从已知信息到待标记图像的映射,完成图像的自动标注,提高了图像特征提取的质量,简化图像处理所用的实验数据,降低计算时间复杂度.  相似文献   

7.
利用多资源转化方法进行词性标注研究, 旨在将源端资源的标注进行转化, 以符合目标端标注规范, 进而将转化后的资源与目标资源合并, 增大训练数据规模。做了两方面创新: 在转化过程中, 额外利用指导特征的置信度信息; 在转化后的资源中, 用模糊标注表示方法减少错误标注。实验表明, 利用置信度信息能有效帮助转化, 而模糊标注表示方法的影响不大。  相似文献   

8.
针对目前商用CAD软件中MBD功能三维标注缺乏正确性校验问题,基于OpenCASCADE几何造型内核研究了三维尺寸标注与标注有效性检查的问题.通过提取被标注对象的几何特征,结合信息标注规则,判断用户标注内容与标注对象间的匹配性,进而判断标注的正确性,增加了系统三维尺寸标注的智能性.设计了分层数据结构存储标注信息,并将标注信息与形体要素相关联,避免了三维标注中重复标注的现象,也为后续的产品虚拟装配、加工制造以及产品服役中产品语义信息的自动化提取提供可能.将标注信息以XML格式储存,便于信息的传输和访问,为进一步研究产品的数字孪生技术打下良好的基础.  相似文献   

9.
针对情感分类这一项从文章或句子中得到观点态度的任务,常规情感分类模型大多需要耗费大量人力获取标注数据.为解决某些领域缺乏标注数据,且其他领域分类器无法在目标领域直接使用的现状,设计了一种新颖的基于构建公共特征空间方法,使分类模型可从有标注领域向无标注领域进行迁移适应,减少人工标注的成本开销,实现情感分类的领域自适应.该方法以大规模语料下预训练的词向量信息作为以词为元素的特征,在同种语言中表达情感所采用的句法结构相似这一假设前提下,通过对领域内特有的领域特征词进行替换的方式构建有标注数据集与无标注数据集基本共有的公共特征空间,使有标注数据集与无标注数据集实现信息共享.以此为基础借助深度学习中卷积神经网络采用不同尺寸卷积核对词语不同范围的上下文特征进行抽取学习,进而采用半监督学习与微调学习相结合的方式从有标注数据集向未标注数据集开展领域自适应.在来自京东与携程共5个领域的真实电商数据集上进行实验,分别研究了领域特征词选择方法及其词性约束对领域间适应能力的影响,结果表明:相较于不采用领域适应的模型,可提升平均2.7%的准确率;且在来自亚马逊电商的公开数据集实验中,通过与现有方法进行对比,验证了该方法的有效性.  相似文献   

10.
为了提高产品的全三维数字化设计与制造的效率和质量,对全三维模型表达产品信息的方式进行研究.提出基于模型定义技术的三维标注方法,建立三维标注特征库和三维精度特征符号库,用计算机容易访问的BNF(backus-naur form)范式进行三维标注,通过齐次坐标转换实现三维标注与3D零件模型的同步随动,基于Pro/E平台,实现3D模型产品设计信息的三维标注.  相似文献   

11.
为了解决设计重用过程中基于模型的产品数字化定义(MBD)模型的问题,采用特征识别技术,对MBD模型自动添加语义标注,从而提高关键字检索的准确性.首先,对MBD模型的构成原理与模型要素进行分析,并在融合关键信息的基础上建立零件模型的属性面邻接图(AAG),根据零件模型上加工特征,将特征划分为螺钉头部特征、螺钉功能特征和材料特征.其次,通过顶点属性结合邻接矩阵重构图的顶点序列,动态编码结合距离匹配,求出最大公共子图,得出MBD模型之间的相似度.最后,利用聚类法实现对MBD模型的自动语义标注.实验结果表明:文中方法可以实现MBD模型的自动语义标注,很大程度上提高语义标注的自动化程度.  相似文献   

12.
提出了一种基于Vague融合的自动图像标注方法,通过有效区域匹配方式,利用近邻语义信息来平衡正负样本数目,并且首次利用Vague集的真假隶属度融合图像的区域信息,从而获得更准确的标注结果.实验结果表明,该标注方法是可行的,同时,与传统的标注方法相比,标注结果得到了明显的提高.  相似文献   

13.
根据篇章分析的任务和实践, 结合传统研究, 提出汉语的基本篇章单位为子句, 并从结构、功能、形式等方面给出其定义。分析了逗号与子句的关系, 并在标注语料上进行了基于逗号的汉语子句识别研究。首先手工标注了CTB6.0中前100篇文档的逗号是否为子句边界的信息, 在标注结果中抽取句法、词汇、长度等特征进行实验, 子句识别准确率为90%。然后利用信息增益选出贡献最大的9个特征, 使用它们也可获得较高的子句识别准确率。最后仅使用词法信息, 子句识别准确率可达84.5%。实验证明子句的定义合理, 基于逗号的子句识别在理论上和实验上均可行。  相似文献   

14.
提出一种基于深度玻尔兹曼机与典型相关分析的自动图像标注算法(DBM-CCA)。该算法利用深度玻尔兹曼机实现图像与文本的低层次特征向稀疏高层次抽象概念的转变,并通过典型相关分析建立子空间映射关系以实现标注词汇的生成。首先在深度玻尔兹曼机提取图像与文本高层特征过程中,选用伯努利分布和高斯分布分别拟合标注词汇和图像特征,然后在图像与标注词汇高层特征形成的典型变量空间内计算待标注图像与训练集图像的马氏距离并据此加权计算得到高层标注词汇特征,最后由平均场估计生成图像标注词汇。实验结果表明,所提算法对图像的标注准确率改善较好,与经典的基于监督的多类标签方法和多重伯努利相关模型相比,在Corel5K实验中平均查准率和查全查准均率分别提高了10%和5%。  相似文献   

15.
尽管深度神经网络算法在标签自动标注领域已取得一定的成果,但对于包含大量噪声标签的真实音乐数据集仍存在自动标注效果差的问题.为此,文中通过对音乐标签进行表示学习,挖掘音乐标签与音频特征之间的潜在关系,提出了基于标签深度分析的音乐自动标注算法.该算法先通过多层级卷积网络提取音频特征,再通过音乐标签向量的表示学习来降低噪声数据对音乐自动标注网络的不良影响.在真实音乐标注数据集上的实验结果表明,该算法能取得更高的平均受试者特征曲线下面积,标注效果优于其他自动标注算法.  相似文献   

16.
基于领域知识和词向量的词义消歧方法   总被引:3,自引:0,他引:3  
利用无标注文本构建词向量模型,结合特定领域的关键词信息,提出一种词义消歧方法。以环境领域的待消歧文本作为评测语料,通过与Lesk等其他消歧方法进行比较,证明了所提方法的有效性。通过引入不同的领域知识,证明该方法亦可在其他领域的文本消歧任务中加以应用。  相似文献   

17.
针对计算机网络流量异常检测中缺乏标注信息的挑战,该文提出一种基于评分迭代的无监督异常检测方法。设计了基于自编码器的异常评分迭代过程来学习通用异常特征,获取其初始异常评分。设计了基于深度序数回归模型的异常评分迭代过程来学习判别异常特征,进一步提高异常评分准确性。另外,还通过深度模型、多视图特征、集成学习提高检测准确率。在多个数据集上的实验表明,在无标注信息的情况下,该方法的性能相比对照方法具有明显优势,可以有效地用于现实网络流量异常检测。  相似文献   

18.
本文从实用的角度出发,提出了建立基于特征的产品信息模型的方法,包括主形状特征信息模型、辅形状特征信息模型、精度特征信息模型、管理特征信息模型、尺寸标注模型,通过这五个信息模型,实现了CAD/CAPP的集成  相似文献   

19.
提出一种基于相似性迁移学习的图像标注算法.首先建立图像间的特征相似度量,引入相似性迁移学习算法,将图像的底层特征相似度量迁移到图像所对应标注词的相似度量,通过统计方法实现图像的自动标注.实验表明,本文方法能够有效提高图像的标注质量,减少噪声干扰.  相似文献   

20.
根据工程图尺寸标注、粗糙度标注、形位公差标注的拾取方式,获取其DXF (Drawing Exchange Format)组码信息并挖掘出尺寸标注的关键信息.以此建立尺寸标注与图形结构的关系,提出并实现了一种基于图形特征的尺寸识别算法.通过分析各类标注信息的特点,对其进行分类提取,然后以此为据,对尺寸链进行分层式跟踪识别.根据三等原则建立多视图间联系,以点扩线,实现对一题多解现象的综合识别与纠错.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号