首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 765 毫秒
1.
多领域口语语言理解包括多意图识别和槽填充两个子任务,现有研究通过构建语句中的意图和槽之间的关联提升模型的表现。然而现有研究将多领域场景下的意图和槽看作相互独立的标签,忽视了标签之间领域内和领域间的结构关联。该文提出细粒度标签图和领域相关图的双图注意力联合模型。具体来说,细粒度标签图将意图和槽标签分成细粒度分片,建模分片之间的结构性关联和上下文表示的语义特征。领域相关图通过标签间的领域信息,建模预测意图和对应领域内槽的关联,减少图中的冗余关联。实验结果表明,在两个公开的数据集上,该文提出的模型均优于基准模型。  相似文献   

2.
针对供电营业厅客服机器人的智能对话系统,构建了一个较大规模的电力业务用户意图数据集。该数据集包括了9 577条用户问询语句及其标注类别。首先对从供电营业厅采集到的真实语音数据进行清洗、处理和过滤。为了使数据能够驱动意图分类相关的深度学习模型的研究,专业人员根据电力业务背景知识对数据进行高质量的标注和扩充。标注中根据电力业务定义了35种业务类别标签。为了测试该数据集的实用性和有效性,采用了多个意图分类经典模型进行实验,并将得到的意图分类模型嵌入到对话系统中。经典的文本分类模型循环卷积神经网络(Text-RCNN)在该数据集上可得到87.1%的准确率。实验结果表明该数据集可以有效驱动电力业务相关对话系统的研究,提升用户的满意度。  相似文献   

3.
为了准确识别网络文本中的价值观倾向,该文提出了一种融合标签语义知识实现价值观多标签文本分类的策略。首先基于价值观理论体系,构建了价值观知识图谱;然后构建了价值观多标签文本分类数据集;最后提出了融合标签语义知识的价值观多标签文本分类模型,通过两种方式融合价值观标签的语义知识。其一,利用标签语义信息进行文本表示学习,获得每个标签对于文本中不同词的重要程度;其二,利用标签的语义知识,计算标签与文本的语义相似度,并与分类模型结果融合。实验表明,该方法可以较好地解决价值观多标签分类问题,尤其可以缓解“尾标签”问题,最终在top@1结果上达到62.44%的精确率,在top@3上达到66.92%的召回率。  相似文献   

4.
针对标签信息不完整的多标签分类问题,一种新的多标签算法MCWD被提出。它通过有效地恢复训练数据中缺失的标签信息,能够产生更好的分类结果。在训练阶段,MCWD通过迭代更新每个训练实例的权重以及利用两两标签之间的相关性来恢复训练数据中缺失的标签信息;在标签恢复完毕后,利用新得到的训练集来训练分类模型;用此模型对测试集进行预测。实验结果表明,该算法在14个多标签数据集上具有一定的优势。  相似文献   

5.
基于深度学习的医学图像分析是智慧医疗的一个重要方向。但是通常情况下,医学图像数据集数据量很小,而且由于医学图像的标注困难,耗费大量人力物力,所以带标签的训练数据很难获取。如何使用极少的带标签数据和无标签的数据得到一个较好的网络模型是本文的主要研究内容。该文提出基于深度聚类的自监督网络模型作为特征提取器,并且使用标签传播算法对特征进行分类,解决了只有极少量标签(例如1张,5张或者10张)即小样本情况下的医学图像分类问题,在BreakHis数据集上取得了比传统机器学习算法更好的效果,并且接近于全监督学习方法。  相似文献   

6.
针对已有的多标签分类算法在设计过程中忽略标签之间关联性,导致分类精度降低的问题,提出基于双层结构的多标签优序选择分类(DLMC-OS)算法。通过二次信息交互实现标签间的关联性,解决链式分类模型随机性影响分类精度的问题。DLMC-OS构建一个双层结构的分类模型:第一层采用典型的二元独立分类模型实现对实例的第一次分类,与第二层进行标签信息的交互;第二层构建带有更新过程的链式分类模型,用链来传递和更新标签信息,实现分类信息的二次交互。提出构建具有最大权重的标签生成树(MWT-OS)算法,寻求标签优序,解决链式分类模型随机选择类标号序列训练二值分类器导致分类精度降低的问题。在9组基准数据集上与相关算法的比较验证了该算法的有效性。  相似文献   

7.
意图分类是一种特殊的短文本分类方法,其从传统的模板匹配方法发展到深度学习方法,基于BERT模型的提出,使得大规模的预训练语言模型成为自然语言处理领域的主流方法。然而预训练模型十分庞大,且需要大量的数据和设备资源才能完成训练过程。提出一种知识蒸馏意图分类方法,以预训练后的BERT作为教师模型,文本卷积神经网络Text-CNN等小规模模型作为学生模型,通过生成对抗网络得到的大量无标签数据将教师模型中的知识迁移到学生模型中。实验数据包括基于真实场景下的电力业务意图分类数据集,以及通过生成对抗网络模型生成的大量无标签文本作为扩充数据。在真实数据和生成数据上的实验结果表明,用教师模型来指导学生模型训练,该方法可以在原有数据资源和计算资源的条件下将学生模型的意图分类准确率最高提升3.8个百分点。  相似文献   

8.
口语理解是自然语言处理的一个重要内容,意图分类和槽填充是口语理解的两个基本子任务。最近的研究表明,共同学习这两项任务可以起到相互促进的作用。该文提出了一个基于BERT的意图分类联合模型,通过一个关联网络使得两个任务建立直接联系和共享信息,以此来提升任务效果。模型引入BERT来增强词向量的语义表示,有效解决了目前联合模型由于训练数据规模较小导致的泛化能力较差的问题。在ATIS和Snips数据集上的实验结果表明,该模型能有效提升意图分类和槽填充的性能。  相似文献   

9.
目的 在高光谱地物分类中,混合像元在两个方面给单标签分类带来了负面影响:单类地物在混入异类地物后,其光谱特征会发生改变,失去独特性,使类内差异变大;多类地物在混合比例加深的情况下,光谱曲线会互相趋近,使类间差异变小。为了解决这一问题,本文将多标签技术运用在高光谱分类中。方法 基于高光谱特性,本文将欧氏距离与光谱角有机结合运用到基于类属属性的多标签学习LIFT(multi-label learning with label specific features)算法的类属属性构建中,形成了适合高光谱多标签的方法。基于标签地位的不相等,本文为多标签数据标注丰度最大标签,并在K最近邻KNN(k-nearest neighbor)算法中为丰度最大的标签设置比其余标签更大的权重,完成对最大丰度标签的分类。结果 在多标签分类与单标签分类的比较中,多标签表现更优,且多标签在precision指标上表现良好,高于单标签0.5% 1.5%。在与其余4种多标签方法的比较中,本文多标签方法在2个数据集上表现最优,在剩余1个数据集上表现次优。在最大丰度标签的分类上,本文方法表现优于单标签分类,在数据集Jasper Ridge上的总体分类精度提高0.2%,混合像元分类精度提高0.5%。结论 多标签分类技术应用在高光谱地物分类上是可行的,可以提升分类效果。本文方法根据高光谱数据的特性对LIFT方法进行了改造,在高光谱多标签分类上表现优异。高光谱地物的多标签分类中,每个像元多个标签的地位不同,在分类中可以通过设置不同权重体现该性质,提升分类精度。  相似文献   

10.
姜逸凡  叶青 《计算机应用》2019,39(4):1041-1045
在时间序列分类等数据挖掘工作中,不同数据集基于类别的相似性表现有明显不同,因此一个合理有效的相似性度量对数据挖掘非常关键。传统的欧氏距离、余弦距离和动态时间弯曲等方法仅针对数据自身进行相似度公式计算,忽略了不同数据集所包含的知识标注对于相似性度量的影响。为了解决这一问题,提出基于孪生神经网络(SNN)的时间序列相似性度量学习方法。该方法从样例标签的监督信息中学习数据之间的邻域关系,建立时间序列之间的高效距离度量。在UCR提供的时间序列数据集上进行的相似性度量和验证性分类实验的结果表明,与ED/DTW-1NN相比SNN在分类质量总体上有明显的提升。虽然基于动态时间弯曲(DTW)的1近邻(1NN)分类方法在部分数据上表现优于基于SNN的1NN分类方法,但在分类过程的相似度计算复杂度和速度上SNN优于DTW。可见所提方法能明显提高分类数据集相似性的度量效率,在高维、复杂的时间序列的数据分类上有不错的表现。  相似文献   

11.
张启辰  王帅  李静梅 《软件学报》2024,35(4):1885-1898
口语理解(spoken language understanding, SLU)是面向任务的对话系统的核心组成部分,旨在提取用户查询的语义框架.在对话系统中,口语理解组件(SLU)负责识别用户的请求,并创建总结用户需求的语义框架, SLU通常包括两个子任务:意图检测(intent detection, ID)和槽位填充(slot filling, SF).意图检测是一个语义话语分类问题,在句子层面分析话语的语义;槽位填充是一个序列标注任务,在词级层面分析话语的语义.由于意图和槽之间的密切相关性,主流的工作采用联合模型来利用跨任务的共享知识.但是ID和SF是两个具有强相关性的不同任务,它们分别表征了话语的句级语义信息和词级信息,这意味着两个任务的信息是异构的,同时具有不同的粒度.提出一种用于联合意图检测和槽位填充的异构交互结构,采用自注意力和图注意力网络的联合形式充分地捕捉两个相关任务中异构信息的句级语义信息和词级信息之间的关系.不同于普通的同构结构,所提模型是一个包含不同类型节点和连接的异构图架构,因为异构图涉及更全面的信息和丰富的语义,同时可以更好地交互表征不同粒度节点之间的信息.此...  相似文献   

12.
基于MapReduce的决策树算法并行化   总被引:1,自引:0,他引:1  
陆秋  程小辉 《计算机应用》2012,32(9):2463-2465
针对传统决策树算法不能解决海量数据挖掘以及ID3算法的多值偏向问题,设计和实现了一种基于MapReduce架构的并行决策树分类算法。该算法采用属性相似度作为测试属性的选择标准来避免ID3算法的多值偏向问题,采用MapReduce模型来解决海量数据挖掘问题。在用普通PC搭建的Hadoop集群的实验结果表明:基于MapReduce的决策树算法可以处理大规模数据的分类问题,具有较好的可扩展性,在保证分类正确率的情况下能获得接近线性的加速比。  相似文献   

13.
基于朴素贝叶斯与ID3算法的决策树分类   总被引:2,自引:0,他引:2       下载免费PDF全文
v在朴素贝叶斯算法和ID3算法的基础上,提出一种改进的决策树分类算法。引入客观属性重要度参数,给出弱化的朴素贝叶斯条件独立性假设,并采用加权独立信息熵作为分类属性的选取标准。理论分析和实验结果表明,改进算法能在一定程度上克服ID3算法的多值偏向问题,并且具有较高的执行效率和分类准确度。  相似文献   

14.
在社交媒体中存在大量的对话文本,而在这些对话中,说话人的情感和意图通常是相关的。不仅如此,对话的整体结构也会影响对话的情感和意图,因此,需要对对话中的情感和意图进行联合学习。为此,该文提出了基于对话结构的情感、意图联合学习模型,考虑对话内潜在的情感与意图的关联性,并且利用对话的内在结构与说话人的情感和意图之间的关系,提升多轮对话文本的每一子句情感及其意图的分类性能。同时,通过使用注意力机制,利用对话的前后联系来综合考虑上下文对对话情感的影响。实验表明,联合学习模型能有效地提高对话子句情感及意图分类的性能。  相似文献   

15.
对ID3算法的基本原理及其主要不足以及现有几种改进算法的优缺点进行了简要分析,针对ID3算法的主要不足即倾向于多值属性的选取,利用粗糙集理论和数学相关知识点对其进行了一定程度的改进。理论分析和实验结果表明,改进后的算法在一定程度上不仅较好地解决了ID3算法的多值偏向问题而且大大简化了算法的计算过程,明显提高了算法分类准确度和执行效率。  相似文献   

16.
This paper is concerned with the estimation of a local measure of intrinsic dimensionality (ID) recently proposed by Houle. The local model can be regarded as an extension of Karger and Ruhl’s expansion dimension to a statistical setting in which the distribution of distances to a query point is modeled in terms of a continuous random variable. This form of intrinsic dimensionality can be particularly useful in search, classification, outlier detection, and other contexts in machine learning, databases, and data mining, as it has been shown to be equivalent to a measure of the discriminative power of similarity functions. Several estimators of local ID are proposed and analyzed based on extreme value theory, using maximum likelihood estimation, the method of moments, probability weighted moments, and regularly varying functions. An experimental evaluation is also provided, using both real and artificial data.  相似文献   

17.
对话情感分析旨在识别出一段对话中每个句子的情感倾向,其在电商客服数据分析中发挥着关键作用。不同于对单个句子的情感分析,对话中句子的情感倾向依赖于其在对话中的上下文。目前已有的方法主要采用循环神经网络和注意力机制建模句子之间的关系,但是忽略了对话作为一个整体所呈现的特点。建立在多任务学习的框架下,该文提出了一个新颖的方法,同时推测一段对话的主题分布和每个句子的情感倾向。对话的主题分布,作为一种全局信息,被嵌入到每个词以及句子的表示中。通过这种方法,每个词和句子被赋予了在特定对话主题下的含义。在电商客服对话数据上的实验结果表明,该文提出的模型能充分利用对话主题信息,与不考虑主题信息的基线模型相比,Macro-F1值均有明显提升。  相似文献   

18.
This paper presents a novel algorithm named ID6NB for extending decision tree induced by Quinlan’s non-incremental ID3 algorithm. The presented approach is aimed at suggesting the solutions for few unhandled exceptions of the Decision tree induction algorithms such as (i) the situation in which the majority voting makes incorrect decision (generating two different types of rules for same data), and (ii) in case of dimensionality reduction by decision tree induction algorithms, the determination of appropriate attribute at a node where two or more attributes have equal highest information gain. Exception due to majority voting is handled with the help of Naive Bayes algorithm and also novel solutions are given for dimensionality reduction. As a result, the classification accuracy has drastically improved. An extensive experimental evaluation on a number of real and synthetic databases shows that ID6NB is a state-of-the-art classification algorithm that outperforms well than other methods of decision tree learning.  相似文献   

19.
This paper considers the problem of metric classification of early Parkinsonism in the feature space of multi-channel signals of electroencephalography (EEG). The electroencephalography feature space includes both spectral characteristics and features of rhythmic disorganization. A model of logistic regression for the classification of early Parkinsonism is studied. The model was trained on the data obtained from the experimental EEG studies in a group of patients in the 1st stage of Parkinson’s disease and a control group of subjects. Analysis of the classification logistic model was carried out using the data from 38 subjects, including 22 subjects from the control group and 16 patients in the first stage of Parkinson’s disease. Dependencies of the recall on the functional value for the control group and the patients and classification accuracies are calculated.  相似文献   

20.
意图识别分类是自然语言处理领域的一个热点问题,在智能机器人、智能客服中如何根据上下文理解用户意图是一个重点问题,同时也是一个难点问题。传统的意图识别分类主要是采用基于规则、模板匹配的正则化方法或基于机器学习的方法,然而却存在计算成本高、泛化能力差的问题。针对上述问题,本文设计以Google公开的BERT预训练语言模型为基础,进行输入文本的上下文建模和句级别的语义表示,采用[cls]符号(token)对应的向量代表文本的上下文,再通过全连接神经网络(FNN)对语句进行特征提取,为了充分利用数据,本文利用拆解法的思想,将多分类问题转换成多个二分类问题处理,每次将一个类别作为正例,其余类别均作为负例,产生多个二分类任务,从而实现意图分类。实验结果表明,该方法性能优于传统模型,可以获得94%的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号