首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
SVM与规则相结合的中文地名自动识别   总被引:4,自引:0,他引:4  
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。  相似文献   

2.
提出基于改进PSO优化支持向量机的文本分类方法,首先采用向量空间模型对文本特征进行提取,使用互信息对文本特征进行降维,然后提出改进PSO算法,该算法可实现对SVM参数的精确、稳定、快速优化选择,对支持向量机进行训练,使用训练后的分类器对新的文本进行分类,实验结果表明该方法具有良好的分类性能。  相似文献   

3.
针对数据挖掘中文本自动分类问题,提出了一种基于k-means聚类算法和支持向量机相结合的文本分类方法。该方法先将文本大致聚为k类,然后对每一类用支持向量机进行细分。构造了可用于多个模式类识别的多层SVM模型,该模型可完成对多个模式的分类识别。给出了该模型的构造及应用的方法,并验证了该方法的有效性。  相似文献   

4.
高琰  陈白帆  晁绪耀  毛芳 《计算机应用》2016,36(4):1045-1049
针对目前大部分情感分析技术需要人工标注建立情感词典提取情感特征的问题,提出一种基于对比散度-受限玻尔兹曼机(CD-RBM)深度学习的产品评论情感分析方法。该方法在对产品评论时进行数据预处理并利用词袋模型产生产品评论的向量表示,然后通过CD-RBM提取产品评论的情感特征,最后结合支持向量机(SVM)将提取出来的情感特征进行文本情感分类。CD-RBM无需人工标注情感词典,即可获得情感特征,且可以提高特征的情感语义关联性;同时,SVM可以保证产品评论情感分类的准确度。通过实验确定了RBM最优训练周期为10,在此训练周期下对RBM、SVM、PCA+SVM,以及RBM+SVM方法进行了比较。实验结果表明,RBM特征提取和SVM分类结合方法能够获得最好的准确率和F值,并获得较好的召回率。  相似文献   

5.
支持向量机在文本分类中的应用   总被引:1,自引:0,他引:1  
文中提出了基于朴素贝叶斯的支持向量机的分类方法,首先采用文本预处理,再根据文本的特征进行特征降维,然后用基于朴素贝叶斯的算法对支持向量机进行训练后,再对新的文本进行分类。实验表明,该方法比传统的SVM算法具有较高的准确率。  相似文献   

6.
基于混合模型的中国人名自动识别   总被引:3,自引:0,他引:3  
本文提出了一种支持向量机(SVM)和概率统计模型相结合的中国人名自动识别方法。该方法首先按字抽取特征向量的属性得到训练集,采用多项式核函数建立SVM人名识别模型,然后在特征空间中计算测试样本到SVM最优超平面的距离,当该距离大于给定的阈值时使用SVM对测试样本进行分类,否则使用概率统计方法。实验表明,采用混合模型,对样本在空间的不同分布使用不同的方法可以取得比单独使用SVM或概率统计更好的分类效果,系统开式综合指标F-值比单纯使用支持向量机方法提高了1.51%。  相似文献   

7.
支持向量机的汉语连续语音声调识别方法   总被引:2,自引:1,他引:1  
声调信息在汉语语音识别中具有非常重要的意义。采用支持向量机对连续汉语连续语音进行声调识别实验,首先采用基于Teager能量算子和过零率的两级判别策略对连续语音进行浊音段提取,然后建立了适合于支持向量机分类模型的等维声调特征向量。使用6个二类SVM模型对非特定人汉语普通话的4种声调进行分类识别,与BP神经网络相比,支持向量机具有更高的识别率。  相似文献   

8.
基于模糊支持向量机的语音识别方法   总被引:11,自引:0,他引:11  
通过计算输入样本的模糊隶属度,探讨了模糊支持向量机(FSVM)的原理,应用其对语音信号进行识别。并和RBF神经网络、支持向量机(SVM)的识别效果进行了比较。在仿真实验中,采用小波分析方法提取语音特征向量,识别结果表明,SVM和FSVM比RBF网络具有较好的泛化性能,训练时间也大大缩减。此外,FSVM比SVM有更强的抵抗噪声的能力。  相似文献   

9.
封二英  牛耘  魏欧 《计算机应用》2012,32(Z1):147-150
针对目前蛋白质交互(PPI)关系提取方法仅以单句中的信息为主要依据的问题,提出一种基于大规模文本的蛋白质交互关系自动提取的方法.首先通过对大规模生物医学文本的自动搜索建立目标蛋白质对的签名档,将蛋白质交互关系抽取转化为文本自动分类问题;然后提取签名档中的重要特征,建立蛋白质对的向量空间模型(VSM);最后采用支持向量机(SVM)对签名档进行分类.比较了四种对向量的特征进行加权和特征选择的方案.实验表明,基于大规模文本的蛋白质交互关系识别取得了最高达94.8%的精确度和65.1%的召回率;并且此方法充分利用已有的交互信息,免除了额外的人工标注的负担.  相似文献   

10.
为提高风机叶片裂纹损伤和边缘损伤识别的准确率,提出使用果蝇优化(FOA)算法和支持向量机(SVM)相结合的方法。使用硬件系统采集两类损伤故障的声发射信号,然后对信号进行小波处理,提取能量特征,根据能量特征信息,建立支持向量机模型,测试其准确率;采用果蝇优化算法优化支持向量机参数,使模型损伤识别更准确,并将优化后模型识别结果与粒子群优化(PSO)算法优化支持向量机后的识别结果相比较。仿真结果表明,使用果蝇优化算法优化后的支持向量机模型的识别精度更高,能够准确地实现对风机叶片损伤的识别。  相似文献   

11.
用支持向量机进行中文地名识别的研究   总被引:3,自引:0,他引:3  
用支持向量机(SVM)方法对中文地名的自动识别进行了探讨,对于舍特征词的地名和非地名用支持向量机进行分类:结合中文地名的特点,抽取地名构词可信度及其前后词的词性作为特征向量的属性,建立了一定规模的训练集,并通过对不同kernel函数的测试,得到了地名分类的机器学习模型.实验表明,对于切分正确的地名,本方法具有良好的效果.  相似文献   

12.
西方姓名译名的自动识别为汉语自动分词不可或缺的组成部分。该文以西方姓名译名用字信息为基础,充分利用标准词表来限制西方姓名译名的过度生长能力,并使用首尾逼近和局部频率等方法来进一步改善识别效果,并且针对西方姓名译名的特点进行了有针对性的处理。对真实语料进行测试,正确率达到96.87%,召回率达到97.20%。  相似文献   

13.
当前中文人名识别的研究主要针对中国人名,而对日本人名及音译人名的专门研究相对较少,识别效果也亟待提高。提出利用CRRM方法进行中、日及音译人名同步识别。该方法基于CRF(Conditional Random Fields)并结合了上下文规则及人名可信度模型。此外,利用局部统计算法对边界识别错误的人名进行修正,并利用扩散操作召回未被识别的人名。实验结果表明,中、日、音译人名识别的F值均高于90%,提出的方法可以取得较好的识别效果。  相似文献   

14.
边界模板和局部统计相结合的中国人名识别   总被引:3,自引:1,他引:3  
本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。  相似文献   

15.
王义  沈洋  戴月明 《计算机工程》2020,46(5):102-108
以词向量为输入的单通道卷积神经网络无法充分利用文本的特征信息,并且不能准确识别中文文本的多义词。针对上述问题,建立一种细粒度的多通道卷积神经网络模型。采用word2vec进行词向量的预训练,利用3个不同的通道做卷积运算,分别为原始词向量、词向量与词性表示相结合的词性对向量以及细粒度的字向量。通过词性标注进行词义消歧,利用细粒度的字向量发现深层次的语义信息。在此基础上,设置不同尺寸的卷积核以学习句子内部更高层次抽象的特征。仿真结果表明,该模型较传统卷积神经网络模型在情感分类的准确率和F1值上性能均有明显提升。  相似文献   

16.
Internet中文个人信息搜索   总被引:5,自引:0,他引:5  
本文构造了一个用于自动生成Internet个人信息索引的实验系统PersonIndexer。在CERNET两个网址上进行的初步实验表明, PersonIndexer对中文姓名、拼音人名、中文机构名的召回率和精确率平均分别为97.8%和61.9%、100%和64.5%、94.5%和92.1% ,对电子邮件地址和电话传真号码的召回率和精确率均为100%。鉴于Internet上的信息检索以及自然语言处理这两个领域都互向对方提出了要求,我们相信,面向大规模真实文本的汉语分析技术与Internet的结合,将是今后几年中文信息处理一个新的研究热点。  相似文献   

17.
传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系。提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息和关键单词信息,采用字符引导注意力网络捕获字符语义信息和字符间的位置信息,增强单词和字符间的关联性与互补性,从而实现中文旅游文本中命名实体的识别。实验结果表明,WCGAN方法在ResumeNER和TourismNER基准数据集上的F值分别为93.491%和92.860%,相比Bi-LSTM+CRF、Char-Dense等方法识别效果更好。  相似文献   

18.
基于词性探测的中文姓名识别算法   总被引:1,自引:0,他引:1  
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号