首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 223 毫秒
1.
小说中的对话人物识别任务是将小说中对话的说话者归属识别为小说中某个具体的人物,是有声小说自动合成的基础。为了能够充分表示对话类型的区别以及表示文本前后的语义特征,该文提出了一种基于Rule-BertAtten的中文小说对话人物识别方法。首先将对话主要分成四类,即有明确人物名作为主语的对话、人称代词性别唯一匹配候选人作为主语的对话、人称代词性别多匹配候选人作为主语的对话以及其他无任何特征作为主语的对话,根据对话的类别,采用规则判断和加入注意力机制的BERT词向量语义表示的方法,实验表明,该方法具有更高的准确率。  相似文献   

2.
针对短文本具有特征稀疏、不规范、主题不明确等特点,提出一种有效的基于支持向量机的短文本分类方法。由于汉语中依存语法分析准确率和时间效率不高的问题,针对客户文本咨询的特点,在对短文本分类时,本文并未对句子进行依存语法的分析,而是主要使用句法特征进行分析,找出文本的子串和子序列形成候选特征集,之后利用信息增益、互信息、卡方统计3种特征选择方法进行有效特征选择,最后采用支持向量机方法进行文本分类。将本文所提的模型应用于一组真实数据,实验结果表明,平均正确率可达到84.19%,从而验证该分类方法的鲁棒性和有效性。  相似文献   

3.
随着互联网的飞速发展,大量的文本信息被分享到网上,如何在海量的网络信息中提取出可靠性较高的人物关系已成为信息抽取领域中的一个重要研究课题。为深入进行人物关系识别任务在中文方面的研究,提出了基于多元特征的分块人物关系识别系统,设计了较为完备的特征池,包括词袋特征、相关频率特征、依存树(DT)特征、命名实体识别(NER)特征等,为不同的关系从特征池中选择效果最佳的特征集合,并实验了多种基于有监督的机器学习分类算法。本系统在2015年中国机器学习会议竞赛(CCML Competition)举办的两个任务(Task1是从单个新闻标题中判定给定人物的关系;Task2是从多个新闻标题中判定人物的关系)的数据集上分别取得了75.68%和76.58%的MacroF1值,均位列参赛成绩的第一名。  相似文献   

4.
为增加向量空间模型的文本语义信息,提出三元组依存关系特征构建方法,将此方法用于文本情感分类任务中。三元组依存关系特征构建方法在得到完整依存解析树的基础上,先依据中文语法特点,制定相应规则对原有完整树进行冗余结点的合并和删除;再将保留的依存树转化为三元组关系并一般化后作为向量空间模型特征项。为了验证此种特征表示方法的有效性,构造出在一元词基础上添加句法特征、简单依存关系特征和词典得分不同组合下的特征向量空间。将三元组依存关系特征向量与构造出的不同组合特征向量分别用于支持向量机和深度信念网络中。结果表明,三元组依存关系文本表示方法在分类精度上均高于其他特征组合表示方法,进一步说明三元组依存关系特征能更充分表达文本语义信息。  相似文献   

5.
针对问题文本细粒度分类中文本特征稀疏、文本整体特征相似、局部差异特征较难提取的特点,提出基于语义扩展与注意力网络相结合的分类方法。通过依存句法分析树提取语义单元,在向量空间模型中计算语义单元周围的相似语义区域并进行扩展。利用长短期记忆网络模型对扩展后的文本进行词编码,引入注意力机制生成问题文本的向量表示,根据Softmax分类器对问题文本进行分类。实验结果表明,与传统的基于深度学习网络的文本分类方法相比,该方法能够提取出更重要的分类特征,具有较好的分类效果。  相似文献   

6.
基于特征融合的脱机中文笔迹鉴别   总被引:1,自引:0,他引:1  
提出一种基于文本依存笔迹特征融合的文本独立特征构造方法。建立基于方向指数直方图法笔迹特征(文本依存特征)的两因子分解模型。笔迹特征可分解成字符因子和书写因子两部分。通过两因子方差分析与数据挖掘,分离出与字符无关的书写因子,得到基于文本依存方法的文本独立特征。该方法对检材与样本笔迹的字符数量较少,特别是相同字很少或是根本没有相同字的情况下,能取得较理想的笔迹鉴别准确率,为少量字笔迹鉴别提供解决问题的思路。  相似文献   

7.
为了更好地表示文本语义信息,提高文本分类准确率,改进了特征权重计算方法,并融合特征向量与语义向量进行文本表示.首先基于文本复杂网络实现文本特征提取,接着利用网络节点统计特征改进TF-IDF得到特征向量,再基于LSTM抽取语义向量,最后将特征向量与语义向量相融合,使新的文本表示向量信息区分度更高.以网络新闻数据为实验对象的实验结果表明,改进特征权重计算方法,在特征向量中引入了语义和结构信息,并融合特征向量和语义向量,能进一步丰富文本信息,改善文本分类效果.  相似文献   

8.
文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。  相似文献   

9.
已有图像描述生成模型虽可以检测与表示图像目标实体及其视觉关系,但没有从文本句法关系角度关注模型的可解释性.因而,提出基于依存句法三元组的可解释图像描述生成模型(interpretable image caption generation based on dependency syntax triplets modeling, IDSTM),以多任务学习的方式生成依存句法三元组序列和图像描述. IDSTM模型首先通过依存句法编码器从输入图像获得潜在的依存句法特征,并与依存句法三元组及文本词嵌入向量合并输入单层长短期记忆网络(long short-term memory, LSTM),生成依存句法三元组序列作为先验知识;接着,将依存句法特征输入到图像描述编码器中,提取视觉实体词特征;最后,采用硬限制和软限制2种机制,将依存句法和关系特征融合到双层LSTM,从而生成图像描述.通过依存句法三元组序列生成任务,IDSTM在未显著降低生成的图像描述精确度的前提下,提高了其可解释性.还提出了评测依存句法三元组序列生成质量的评价指标B1-DS (BLEU-1-DS), B4-DS (BLEU-4-D...  相似文献   

10.
针对基于机器学习的人物关系抽取需要人工选取特征的问题,提出一种基于卷积神经网络的中文人物关系抽取方法。采用搜狗实验室公开的中文全网新闻语料库来训练Word2vec模型,得到基于分布式表示的词向量表达,并完成了对百度百科数据集的词向量转化工作。设计一种基于经典CNN模型的中文人物关系抽取系统方案,用CNN模型自动提取特征并进行人物关系的分类,实现了5类常见人物关系的提取,准确率达到92.87%,平均召回率达到86.92%。实验结果表明,该方法无需人工构建复杂特征即可得到较好的人物关系抽取效果。  相似文献   

11.
命名实体识别(NER)作为自然语言处理的重要部分,在信息抽取和知识图谱等任务中得到广泛应用。然而目前中文预训练语言模型通常仅对上下文中的字符进行建模,忽略了中文字符的字形结构。提出2种结合五笔字形的上下文相关字向量表示方法,以增强字向量的语义表达能力。第一种方法分别对字符和字形抽取特征并联合建模得到字向量表示,第二种方法将五笔字形作为辅助信息拼接到字向量中,训练一个基于字符和五笔字形的混合语言模型。实验结果表明,所提两种方法可以有效提升中文NER系统的性能,且结合五笔字形的上下文相关字向量表示方法的系统性能优于基于单一字符的语言模型。  相似文献   

12.
提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。  相似文献   

13.
基于小波变换的图像中维吾尔文字定位   总被引:3,自引:0,他引:3       下载免费PDF全文
在对维吾尔文字结构特点分析的基础上,研究维吾尔文字在小波变换中的特征,依据这些特征提出基于小波变换的视频图像中维吾尔文字定位的方法。用具有良好的时频局部和变尺度特性的小波分析方法,提取出纹理清晰、具有不同空间分辨率、不同方向的边缘子图像,用数学形态学的方法对提取出的细节图像进行进一步的形态运算,消除噪声,得到最终的文本目标区域。实验表明该方法简单有效,适合于背景较复杂的维吾尔文字定位。  相似文献   

14.
Designing for older people requires the consideration of a range of design problems, which may be related to difficult and sometimes highly personal matters. Issues such as fear, loneliness, dependency, and physical decline may be hard to observe or discuss in interviews. Pastiche scenarios and pastiche personae are techniques that employ characters to create a space for the discussion of new technological developments and user experience. This paper argues that the use of fictional characters can help to overcome restrictive notions of older people by disrupting designers’ prior assumptions. In this paper, we reflect on our experiences using pastiche techniques in two separate technology design projects that sought to address the needs of older people. In the first pastiche scenarios were developed by the designers of the system and used as discussion documents with users. In the second pastiche personae were used by groups of users themselves to generate scenarios which were scribed for later use by the design team. We explore how the use of fictional characters and settings can generate new ideas and undercut the potential in scenarios, for weak characterisation of “the user” to permit scenario writers to fit characters to technology rather than vice versa. To assist in future development of pastiche techniques in designing for older people, we provide an array of fictional older characters drawn from literary and popular culture.  相似文献   

15.
To investigate the most efficient way to represent text in reading Chinese on computer displays, three typographic variables, character size (41′ arc/24 pixels and 60′ arc/32 pixels), character spacing (1/4 and 1/8 character width) and font type (Kai and Ming), were manipulated. Results showed that the reading speed for Chinese characters of Kai type in 24 pixels with 1/8 character spacing was the shortest. Character size significantly affected overall reading speed; in specific, text in 24-pixel characters was read faster than text in 32-pixel characters. Further eye-movement analyses revealed that text in smaller-sized characters had longer fixation duration, fewer fixations and fewer regressions than text in larger-sized characters. The interaction between character spacing and font type was observed on overall reading efficiency and on some eye-movement measures, which suggests that different character spacings should be considered in different font types for more efficient reading. Generally, characters in Kai font were easier to read with 1/8 character spacing than with 1/4 character spacing. The relationship between eye-movement measures and overall reading efficiency was further discussed.  相似文献   

16.
The present work is an attempt to develop a robust character recognizer for Telugu texts. We aim at designing a recognizer, which exploits the inherent characteristics of the Telugu Script. Our proposed method uses wavelet multi-resolution analysis for the purpose extracting features and associative memory model to accomplish the recognition tasks. Our system learns the style and font from the document itself and then it recognizes the remaining characters in the document. The major contribution of the present study can be outlined as follows. It is a robust OCR system for Telugu printed text. It avoids feature extraction process and it exploits the inherent characteristics of the Telugu character by a clever selection of Wavelet Basis function, which extracts the invariant features of the characters. It has a Hopfield-based Dynamic Neural Network for the purpose of learning and recognition. This is important because it overcomes the inherent difficulties of memory limitation and spurious states in the Hopfield Network. The DNN has been demonstrated to be efficient for associative memory recall. However, though it is normally not suitable for image processing application, the multi-resolution analysis reduces the sizes of the images to make the DNN applicable to the present domain. Our experimental results show extremely promising results.  相似文献   

17.
该文旨在探究深度学习中汉语字向量和词向量的有效结合方式。我们在以词作为基础语义单元和以字作为基础语义单元这两个方向进行探究,实验了字、词信息多种浅层结合方式和深层结合方式。为了验证该文提出的结合方式的有效性,我们改进了一种compare-aggregate模型,并在基于文档的问答系统上进行了实验。实验结果表明,有效的汉语字向量和词向量的结合方式超越了单独的字向量和词向量,提升了基于文档的问答系统的性能,使其结果与目前最好的结果可媲美。  相似文献   

18.
一种视频中字符的集成型切分与识别算法   总被引:3,自引:0,他引:3  
杨武夷  张树武 《自动化学报》2010,36(10):1468-1476
视频文本行图像识别的技术难点主要来源于两个方面: 1)粘连字符的切分与识别问题; 2)复杂背景中字符的切分与识别问题. 为了能够同时切分和识别这两种情况中的字符, 提出了一种集成型的字符切分与识别算法. 该集成型算法首先对文本行图像二值化, 基于二值化的文本行图像的水平投影估计文本行高度. 其次根据字符笔划粘连的程度, 基于图像分析或字符识别对二值图像中的宽连通域进行切分. 然后基于字符识别组合连通域得到候选识别结果, 最后根据候选识别结果构造词图, 基于语言模型从词图中选出字符识别结果. 实验表明该集成型算法大大降低了粘连字符及复杂背景中字符的识别错误率.  相似文献   

19.
Convolutional neural networks (CNNs) have had great success with regard to the object classification problem. For character classification, we found that training and testing using accurately segmented character regions with CNNs resulted in higher accuracy than when roughly segmented regions were used. Therefore, we expect to extract complete character regions from scene images. Text in natural scene images has an obvious contrast with its attachments. Many methods attempt to extract characters through different segmentation techniques. However, for blurred, occluded, and complex background cases, those methods may result in adjoined or over segmented characters. In this paper, we propose a scene word recognition model that integrates words from small pieces to entire after-cluster-based segmentation. The segmented connected components are classified as four types: background, individual character proposals, adjoined characters, and stroke proposals. Individual character proposals are directly inputted to a CNN that is trained using accurately segmented character images. The sliding window strategy is applied to adjoined character regions. Stroke proposals are considered as fragments of entire characters whose locations are estimated by a stroke spatial distribution system. Then, the estimated characters from adjoined characters and stroke proposals are classified by a CNN that is trained on roughly segmented character images. Finally, a lexicondriven integration method is performed to obtain the final word recognition results. Compared to other word recognition methods, our method achieves a comparable performance on Street View Text and the ICDAR 2003 and ICDAR 2013 benchmark databases. Moreover, our method can deal with recognizing text images of occlusion and improperly segmented text images.  相似文献   

20.
当前主流的中文分词方法是基于字标注的传统机器学习的方法。但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且仅利用CPU训练模型时间长的缺点。针对以上问题,进行了研究提出基于LSTM(Long Short-Term Memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比,结果表明:基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间;LSTM网络模型的方法也更容易推广并应用到其他自然语言处理(NLP)中序列标注的任务。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号