排序方式: 共有56条查询结果,搜索用时 15 毫秒
31.
32.
SVM[1]is a new approach of pattern recognitionbased on Structural Risk Minimization which have thefollowing striking property:bode good for generalizationperformance,find a global optimal solution,complexityof the solution depends on the intricacy of the … 相似文献
33.
融合聚类触发对特征的最大熵词性标注模型 总被引:7,自引:0,他引:7
为解决传统HMM词性标注模型不能包含远距离词特征的问题,提出了形如“WA→WB/TB”的触发对来承载远距离词特征信息,并采用平均互信息量度对触发对特征进行选择.在最大熵框架下,将选择后的触发对特征加入到词性标注系统中.利用矢量空间模型提供的语义相似度计算功能进行词语聚类,聚类的结果和语义词典融合,建立聚类触发对特征用来解决触发词“%”的数据稀疏问题.实验结果表明,与HMM相比,融合了聚类触发对特征的最大熵模型标注错误率减少了34%. 相似文献
34.
35.
面向小型移动设备的中文语句输入 总被引:1,自引:0,他引:1
为了满足小型移动设备的普及特别是短信业务的增长对中文文本输入技术提出的新的需求.以音字转换模型为基础,以自适应学习算法为手段,研究了一种以整句为输入单位的中文输入技术,具有易学性好、输入速度快、智能水平高等特性.系统基于Symb ian S60和W indows Mob ile 5平台进行构建,通过结合全拼、双拼和英文数字3种输入方式,为用户提供了各种情况下的汉字、字母、数字、标点的录入.系统内存占用量不到150 K,已被广泛应用于手机、PDA、遥控器等设备上. 相似文献
36.
词表的质量直接影响汉语语言模型的性能, 而当前汉语词典编撰工作同语言建模工作相脱离, 一方面使得现有的汉语语言模型受词表规模所限, 性能不能发挥到最优, 另一方面因为缺乏专业领域的词表, 难以建立面向特定领域的语言模型. 本文旨在通过建立优化词表的方式来提高现有汉语语言模型的性能, 并使其自动适应训练语料的领域. 本文首先将词表自动生成工作同汉语语言建模工作相结合, 构建一体化迭代算法框架, 在自动生成优化词表的同时能够获得高性能的汉语语言模型. 在该框架下, 本文提出汉字构词强度的概念来描述汉语的词法信息, 并将其作为词法特征与统计特征相结合, 构造一种基于多特征的汉语词表自动生成算法. 最后, 本文提出两种启发式方法, 自动根据训练语料的特点调整系统中的各项参数, 使系统能够自动适应训练语料的领域. 实验表明, 本文的方法能够在生成高质量词表的同时获得高性能的语言模型, 并且能够有效自动适应训练语料的领域. 相似文献
37.
38.
为了准确识别网络文本中的价值观倾向,该文提出了一种融合标签语义知识实现价值观多标签文本分类的策略。首先基于价值观理论体系,构建了价值观知识图谱;然后构建了价值观多标签文本分类数据集;最后提出了融合标签语义知识的价值观多标签文本分类模型,通过两种方式融合价值观标签的语义知识。其一,利用标签语义信息进行文本表示学习,获得每个标签对于文本中不同词的重要程度;其二,利用标签的语义知识,计算标签与文本的语义相似度,并与分类模型结果融合。实验表明,该方法可以较好地解决价值观多标签分类问题,尤其可以缓解“尾标签”问题,最终在top@1结果上达到62.44%的精确率,在top@3上达到66.92%的召回率。 相似文献
39.
针对基于数字键盘的语句级拼音汉字输入技术,提出了键音转换问题,并给出了解决方案.首先,形式化地定义了键音转换问题,并根据Bayes原理推导出两种键音转换处理模型.然后将键音转换问题转化为有向无环图的路径搜索问题,根据两种处理模型,分别描述了搜索空间并定义了搜索算法.实验结果表明提出的算法能够有效地解决该问题. 相似文献
40.
针对大规模知识库问答的特点,构建了1个包含3个主要步骤的问答系统:问句中的命名实体识别、问句与属性的映射和答案选择.使用基于别名词典的排序方法进行命名实体识别,使用结合注意力机制的双向LSTM进行属性映射,最后综合前2步的结果从知识库中选择答案.该系统在NLPCC-ICCPOL 2016 KBQA任务提供的测试数据集上的平均F1值为0.8097,接近已发表的最好水平. 相似文献