首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
针对机器学习分类算法在不均衡数据分类问题中对少数类样本识别能力不足的问题,以电信客户流失场景为例,提出一种不均衡数据分类方法 L-CCSmote(Lasso Constructive Covering Smote)。首先,通过套索回归(Lasso)提取流失用户特征以优化模型输入;然后,通过构造性覆盖算法(CCA)建立神经网络生成符合样本整体分布的覆盖;最后,进一步提出单样本覆盖策略、样本多样性策略和样本密度峰值策略,通过以上策略混合采样以平衡数据。选用了KEEL数据库中的13个不均衡数据集和2个脱敏电信客户数据集,分别在逻辑回归(LR)和支持向量机(SVM)分类算法上对该方法进行验证。在LR分类算法上,与SMOTE-Enn(Synthetic Minority Oversampling TEchnique Edited nearest neighbor)相比,所提方法的平均几何平均值(G-MEAN)提升了2.32%;在SVM分类算法上,与Borderline-SMOTE(Borderline Synthetic Minority Oversampling Technique Edite...  相似文献   

2.
应用联机分析处理技术选择用户ARPU值作为客户细分的维度.依据用户平均收入ARPU值进行分类.按客户的消费额高低将客户分成高中低几档客户.然后采用数据挖掘聚类分析中的K—means聚类算法.参照国际通行的数据挖掘CRISP—DM标准提出一种电信企业客户细分模型和细分方法。对电信企业大量现实数据的实验结果表明.利用该客户细分模型和技术获得了较好的挖掘结果.为电信运营商的经营和决策提供了有力的支持。  相似文献   

3.
为了清理互联网与移动通信网络所带来的不良诈骗信息,使用文本分类技术来识别电信诈骗信息。采用中文分词技术(jieba)对数据样本的中文信息进行分词,用TF-IDF算法提取电信诈骗信息的特征,向量空间模型(VSM)构建文本内容的特征,选取朴素贝叶斯分类算法的伯努利模型和多项式模型,分别训练数据并对比测试得出各自对电信诈骗信息的识别效果评估。  相似文献   

4.
电力投诉工单中往往存在长文本数据,这对工单分类模型的构建是一种挑战。以提升工单分类准确度为目的,提出了一种基于分级信息融合的电力投诉工单分类模型来提高模型分析长文本的能力。使用Word2vec方法对句中的单词进行处理,进而得到单词向量和句子矩阵。利用双向长短时记忆网络(BiLSTM)来学习单词间的依赖关系,同时运用TextCNN学习句子间的相互关联。将各级学习到的深度语义特征利用多层感知机(MLP)实现特征层融合。所提出模型在包含3万真实电力投诉工单样本的数据集上进行实验,5类投诉的平均分类正确率为0.921,平均宏-F1分数为0.901,正确率相较于TextCNN、BiLSTM以及深度置信网络(DBN)分别提升了1.9%、5.3%和13.5%,能够完成投诉工单分类任务。  相似文献   

5.
针对解决数据缺少和单个卷积网络模型性能的限制造成细粒度分类准确率不高的问 题,提出了一种数据增强和多模型集成融合的分类算法。首先通过镜像、旋转、多尺度缩放、高 斯噪声、随机剪切和色彩增强6 种变换对CompCars 数据集进行增强处理,然后采用差异化采样 数据集的方法训练CaffeNet、VGG16 和GoogleNet 3 种差异化的网络。然后采用多重集成的方法 集成多种模型的输出结果。实验中测试网络结构在不同数据增强算法和不同模型集成下的分类结 果。模型集成的分类准确率达到94.9%,比最好的单GoogleNet 模型的分类精确率提高了9.2 个 百分点。实验结果表明该算法可以有效地提高分类的准确率。  相似文献   

6.
作为实时数据集成和事件捕捉软件的领先供应商。Attunity Ltd.近日宣布,其与微软公司签订了新的OEM补充协议,为微软下一版本的SQL服务器提供异构数据连接。这次整合Attunity加入了另一种类型的数据集成技术一Open Database Connectivity(ODBC)连接器,该技术集成到微软的业务平台后,将能够帮助客户对来自任何数据源的数据进行处理和交换。  相似文献   

7.
利用数据挖掘技术,对电信行业客户信息进行了分析,对用户进行关联、分类、聚类分析,给出了解决问题的模型和方法并在实践中得到评估和检验,本文提出了一种基于组合预测理论的预测算法,在实际客户流失预测分析的应用结果表明,该算法的流失预测的准确率高于传统的分类预测算法所得到的预测准确率.构建的预测模型对解决电信客户流失预测方面的问题具有应用价值.  相似文献   

8.
研究电信客户流失问题,电信客户流失数据具有模糊性和非线性,单一算法仅能对模糊性或非线性进行预测,为提高电信客户流失估计准确率,提出了一种电信客户流失组合估计模型.首先对客户属性进行清洗并进行离散化处理,接着使用粗糙集方法对离散属性进行约简,刻画电信客户流失数据的模糊性;然后遗传算法优化支持向量机对电信客流失非线性进行描述,建立电信客户流失估计模型.仿真结果表明,粗糙集与支持向量机相融合模型克服单一粗糙集算法或支持向量机存在的缺陷,提高电信客户流失估计模型的估计准确率,可为电信客户管理优化设计提供依据.  相似文献   

9.
针对传统单个分类器在不平衡数据上分类效果有限的问题,基于对抗生成网络(GAN)和集成学习方法,提出一种新的针对二类不平衡数据集的分类方法——对抗生成网络-自适应增强-决策树(GAN-AdaBoost-DT)算法。首先,利用GAN训练得到生成模型,生成模型生成少数类样本,降低数据的不平衡性;其次,将生成的少数类样本代入自适应增强(AdaBoost)模型框架,更改权重,改进AdaBoost模型,提升以决策树(DT)为基分类器的AdaBoost模型的分类性能。使用受测者工作特征曲线下面积(AUC)作为分类评价指标,在信用卡诈骗数据集上的实验分析表明,该算法与合成少数类样本集成学习相比,准确率提高了4.5%,受测者工作特征曲线下面积提高了6.5%;对比改进的合成少数类样本集成学习,准确率提高了4.9%,AUC值提高了5.9%;对比随机欠采样集成学习,准确率提高了4.5%,受测者工作特征曲线下面积提高了5.4%。在UCI和KEEL的其他数据集上的实验结果表明,该算法在不平衡二分类问题上能提高总体的准确率,优化分类器性能。  相似文献   

10.
电信流失客户数据精确预测是挽留客户的有效手段.电信业的管理中对收费、投诉、业务受理等问题,显然是一种典型的非平衡样本,传统用标准的支持向量机没有考虑样本分布不平衡问题,虽然在样本数据平衡前提下具有较好的预测精度,但对于不平衡电信客户数据,预测精度大大下降.为提高预测精度,针对支持向量机处理不平衡样本时的缺陷,提出了基于代价敏感学习的支持向量机模型.模型利用代价敏感学习对不平衡样本集分别采用不同惩罚系数,然后建立电信客户流失预测模型,最后对实际电信客户流失数据进行测试.通过与标准支持向量机、神经网络对比,结果表示模型提高了预测精度,有效地解决了数据集非平衡性问题,是一种有效的电信客户流失预测方法.  相似文献   

11.
随着电信行业市场竞争的不断加剧,用户对服务质量要求逐步提高,导致用户投诉率不断攀升。在此情况下,通过准确预测用户投诉行为来降低用户投诉率成为运营商关注的重点。目前传统的投诉预测模型仅从分类算法和人工调研特征来讨论,而没有充分利用运营商的大数据。因此,提出了在Hadoop/Spark大数据平台上使用并行随机森林来构建用户预测投诉模型,它不仅用到了业务支持系统数据,而且还用到了运营支持系统数据和客服工单数据,并在此基础上进一步增加了反映用户相互关系的图特征和二阶特征。基于上海市某运营商数据的实验结果表明,利用多来源、高维度的特征来训练用户投诉预测模型的精度会明显高于传统方法,在此基础上有针对性地对目标用户采取安抚措施,可以降低用户投诉率,获得较高的商业价值。  相似文献   

12.
随着文本分类技术的发展与成熟,越来越多的企业将其应用到客户投诉分类系统中,并获得了一定的效果.针对传统卡方统计方法偏向于选择出负相关低频噪音词,将改进的CHI统计方法运用到文本特征选择,通过降低负相关低频词在特征选择算法中的权重,减小其对模型的影响.最后,对某省通信公司的业务投诉文本进行实验,结果表明该模型和方法是有效的,能更准确地对业务投诉工单进行分类,从而为后续问题的分析提供数据支持.  相似文献   

13.
为了解决95598客服投诉工单的整理、归档等问题,其中包括:在人工进行归档的过程中出现的疏忽造成的归档随意问题,即归档准确性问题;人工对投诉工单进行差错点归纳的耗时问题,即效率问题;人工对客服投诉分析深度不足,无法精准快速定位用户诉求热点的问题,即深度问题。本文针对以上三个问题给出解决方案,采用word2vec和XGBoost相结合的方式达到对95598客服投诉工单精准归纳。在文本词向量化的过程中采用word2vec方法,得到单词的文本词向量;利用XGBoost算法对95598客服投诉工单进行分类归档,并且对历史投诉工单的责任部门、专业分类、诉求事件、差错点四个方面进行标注。该模型的分类准确率在83%-91%左右,有较好的的效果。基于工单分类的结果,并设计了相关的投诉类看板,更直观的对数据进行展示。  相似文献   

14.
模糊决策树在数据模糊化时,需要确定每个数量型属性的模糊语言项个数。另一方面,集成分类算法已成为提高模型准确率和稳定性的有效策略。提出了一种基于混沌布谷鸟(CCS)优化的FDT集成分类算法,首先用CCS算法确定数量型属性的模糊语言项个数,再通过bootstrap抽样生成FDT集成模型,最后采用OOB误差加权投票机制得到分类结果。通过4组UCI数据集验证,与其他分类算法对比,证明了该方法在分类精度上有明显的提升;同时,在处理缺失数据时,仍有较高的分类能力。  相似文献   

15.
为了充分提取脑电信号多频带的时频信息和保留导联空间分布的位置信息,提出了一种基于集成胶囊网络的情绪识别模型.对预处理过的脑电信号进行小波包特征提取,并将Theta、Alpha、Beta、Gamma四个频带的小波系数能量值填充于根据导联空间分布映射的稀疏矩阵中,拼接构成多频带特征矩阵,通过胶囊网络对特征数据进行训练,对不...  相似文献   

16.
为提高数据分类的性能,提出了一种基于信息熵[1]的多分类器动态组合方法(EMDA)。此方法在多个UCI标准数据集上进行了测试,并与由集成学习算法—AdaBoost,训练出的各个基分类器的分类效果进行比较,证明了该算法的有效性。  相似文献   

17.
本文主要结合浙江湖州电力业务需求,旨在打破客户对用电诉求存在的盲区,从而提高对用户用电需求的管理程度,实现热点投诉业务工单的原因挖掘。为了更好的深入挖掘投诉工单背后所蕴含的信息,研究基于自然语言处理技术出发,对电力客户投诉工单进行深入文本挖掘,利用隐马尔可夫模型等分词技术分析投诉工单中的受理内容,进行词频统计,通过TF-IDF算法计算关键词重要性权重值,提取权重值大的关键词频作为客户投诉文本挖掘的最终结果,并运用词云分析技术进行分析结果可视化展示;通过文本分类分析,构建文本分类器模型,实现对 “热点词频”在不同业务中的分布情况的研究,并根据结果开展相应改进措施。把控住当下电力客户投诉的主要问题,针对性的为不同类型的电力客户提供差异化的服务策略,从而提高客户满意度和忠诚度。专题的推广应用,能够很好的提升客服部门的工作效率,落在实处的为客户解决难题。  相似文献   

18.
19.
The analysis of social communities related logs has recently received considerable attention for its importance in shedding light on social concerns by identifying different groups, and hence helps in resolving issues like predicting terrorist groups. In the customer analysis domain, identifying calling communities can be used for determining a particular customer’s value according to the general pattern behavior of the community that the customer belongs to; this helps the effective targeted marketing design, which is significantly important for increasing profitability. In telecommunication industry, machine learning techniques have been applied to the Call Detail Record (CDR) for predicting customer behavior such as churn prediction. In this paper, we pursue identifying the calling communities and demonstrate how cluster analysis can be used to effectively identify communities using information derived from the CDR data. We use the information extracted from the cluster analysis to identify customer calling patterns. Customers calling patterns are then given to a classification algorithm to generate a classifier model for predicting the calling communities of a customer. We apply different machine learning techniques to build classifier models and compare them in terms of classification accuracy and computational performance. The reported test results demonstrate the applicability and effectiveness of the proposed approach.  相似文献   

20.
借助SASEM平台。对移动通信业务数据使用数据挖掘算法建立客户细分模型,能够刻画移动通信客户的行为特征,并以此建立客户流失预测模型。从而建立一个移动通信业客户流失预警系统。实践证明,该方法实用、可操作性强,对支持企业客户关系管理产生了积极的影响。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号