首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 31 毫秒
1.
由于电网公司95598工单分类不合理,影响客服对工单的处理效率及客户满意度。针对这种情况,结合分词工具、TF-IDF算法、K-means算法对投诉工单样本进行多维度整合分析,建立基于计算语言方法的95598工单分类优化模型。可以实现工单的文本分词、特征向量模型构建、主题分析、原投诉分类的相似度分析及可视化展示。结果表明,该模型可以确认原投诉工单分类标签是否合理,对工单进行相应优化措施,讨论工单分类合并的可行性,实现合理的业务分类,还原用户真实诉求。  相似文献   

2.
近年来,短文本分类技术获得了广泛的研究。但在实际应用中,随着文本数据的积累,人们经常会遇到分类体系问题及其引起的数据分类标注问题,原因在于分类标签体系通常具有动态性,以及体系中的分类标签具有不易区分性。为此,文中结合分类标签数量众多的某省电信投诉工单分析业务进行了具体分析,并提出了一种非完美多分类标签体系的概念模型。在此基础上,针对数据集中的分类标注冲突与遗漏,提出了一种基于高质量种子训练集的检测和半自动修复方法,用于修复分类体系动态性和人工标注错误导致的标注冲突和遗漏,经过6个月的线上运行,在过滤掉10%的分类置信度过低的投诉工单后,基于BERT的分类模型的F1值可达0.9。  相似文献   

3.
为了解决95598客服投诉工单的整理、归档等问题,其中包括:在人工进行归档的过程中出现的疏忽造成的归档随意问题,即归档准确性问题;人工对投诉工单进行差错点归纳的耗时问题,即效率问题;人工对客服投诉分析深度不足,无法精准快速定位用户诉求热点的问题,即深度问题。本文针对以上三个问题给出解决方案,采用word2vec和XGBoost相结合的方式达到对95598客服投诉工单精准归纳。在文本词向量化的过程中采用word2vec方法,得到单词的文本词向量;利用XGBoost算法对95598客服投诉工单进行分类归档,并且对历史投诉工单的责任部门、专业分类、诉求事件、差错点四个方面进行标注。该模型的分类准确率在83%-91%左右,有较好的的效果。基于工单分类的结果,并设计了相关的投诉类看板,更直观的对数据进行展示。  相似文献   

4.
电力投诉工单中往往存在长文本数据,这对工单分类模型的构建是一种挑战。以提升工单分类准确度为目的,提出了一种基于分级信息融合的电力投诉工单分类模型来提高模型分析长文本的能力。使用Word2vec方法对句中的单词进行处理,进而得到单词向量和句子矩阵。利用双向长短时记忆网络(BiLSTM)来学习单词间的依赖关系,同时运用TextCNN学习句子间的相互关联。将各级学习到的深度语义特征利用多层感知机(MLP)实现特征层融合。所提出模型在包含3万真实电力投诉工单样本的数据集上进行实验,5类投诉的平均分类正确率为0.921,平均宏-F1分数为0.901,正确率相较于TextCNN、BiLSTM以及深度置信网络(DBN)分别提升了1.9%、5.3%和13.5%,能够完成投诉工单分类任务。  相似文献   

5.
提出了基于深度玻尔兹曼机的电力投诉工单识别分类模型。首先对投诉工单数据进行数据清洗,对处理后的数据使用结巴分词算法进行分词并制作字典,再使用词袋模型对所分词向量化处理提取文本特征。进一步地,通过TF-IDF算法找出关键词以及余弦相似度计算训练、测试文档间的相似度;最后使用深度玻尔兹曼机对投诉工单进行分类。实验证明,分类的准确度达到80%,有效地缓解电力部门的工作压力,提高工作效率。  相似文献   

6.
为了提高95595工单智能分类的准确率,提出了基于LDA(Latent Dirichlet Allocation)的改进TFIDF算法。先对文本提取特征词,然后采用K-means算法进行聚类处理。构建LDA模型,获得概率分布函数θ和φ,求取语义影响力SI(semantic influence,SI)作为特征词的权重,该改进算法记作SI-TFIDF(semantic influence-term frequency inverse document frequency,SI-TFIDF)。将SI-TFIDF算法与传统的TFIDF算法在sougou的数据库进行特征词提取,并采用K-means算进行聚类,对比结果显示,采用SI-TFIDF算法提取的特征词聚类效果优于TFIDF,验证了所提出方法的可靠性。在95598投诉工单上进行仿真实验,SI-TFIDF算法的投诉工单聚类准确率高于传统的TFIDF算法,验证了SI-TFIDF更适用于处理工单投诉的分类研究。  相似文献   

7.
有监督的隐狄里克雷分配(s-LDA)模型在分类时不能处理多标签问题,且存在部分主题未正确分配从而导致分配主题精确度下降。为此,在给予响应变量的基础上加入类别标签,构建一种带标签的有监督的隐狄里克雷分配(sl-LDA)模型。分析s-LDA模型以及该模型主题分类存在的问题,通过验证sl-LDA模型的分类精度,对sl-LDA模型与s-LDA模型进行新闻主题分类实验。在中文和英文新闻语料库上的实验结果表明,英文语料库分类精度提高约3.80%,中文语料库提高约1.77%。  相似文献   

8.
卷积神经网络逐渐应用于胸部X射线(chset X-ray,CXR)图像分类领域,目前普遍使用迁移学习技术进行分类研究,快速构建网络的同时未能考虑CXR图像的特异性。针对上述问题,提出了一种新型的XDense-RC-net方法。该方法对DenseNet模型进行改进,在原密集连接层引入新提出的空间注意力机制,实现特征提取和特征融合,优化DenseNet的transition模块,同时使用两种不同的池化策略增强模型的抗扰动能力。实验使用chest X-ray14多标签14分类数据集和COVIDx单标签3分类数据集对XDense-RC-net进行验证。在多标签分类实验中,平均AUC值达到0.854,比基准方法提升了0.109。在单标签分类实验中,平均准确率达到96.75%,相较于基准方法提升了7.75%。结果显示,XDense-RC-net提升了CXR图像分类的精度,并能够泛化至多标签和单标签两种不同的分类任务中。  相似文献   

9.
随着文本分类技术的发展与成熟,越来越多的企业将其应用到客户投诉分类系统中,并获得了一定的效果.针对传统卡方统计方法偏向于选择出负相关低频噪音词,将改进的CHI统计方法运用到文本特征选择,通过降低负相关低频词在特征选择算法中的权重,减小其对模型的影响.最后,对某省通信公司的业务投诉文本进行实验,结果表明该模型和方法是有效的,能更准确地对业务投诉工单进行分类,从而为后续问题的分析提供数据支持.  相似文献   

10.
标点分析在句子和篇章分析中有重要作用,其中逗号的功能分类是标点分析的重点和难点。该文研究添加冒号和分号分类标签为特征的逗号自动分类。首先给出逗号、冒号和分号的分类方法;然后介绍基于此分类方法的逗号、冒号和分号标点分类语料库;最后分别考察添加冒号类别标签、分号类别标签以及同时添加冒号和分号类别标签为特征的逗号分类结果。实验结果表明,三种情况下的逗号分类正确率均有不同程度的提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号