共查询到20条相似文献,搜索用时 531 毫秒
1.
考虑潜在高价值旅客特有的数据高度不平衡、旅客特征和价值类别弱相关等问题,提出一种基于三重混合采样和集成学习的潜在高价值旅客发现模型。采用RFM(Recency Frequency Monetary)方法标注旅客类别;使用三重混合采样对不平衡旅客数据集进行重采样;使用融合特征选择算法遴选旅客特征;使用梯度提升决策树作为分类器,构建旅客价值预测模型,识别潜在高价值旅客。在PNR数据集上的实验结果表明,与基准算法相比,该模型能取得更好的AUC值和F1值,可以较好地识别潜在高价值旅客。 相似文献
2.
《计算机应用与软件》2019,(9)
目前常用潜在客户发现方法多为基于统计特征的行为分析方法,这种方法对所提取的特征具有很强的依赖性并且容易受到人为主观性影响。针对这一问题,结合受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)与BP神经网络(Back Propagation Neural Network, BPNN),提出基于RBM-BPNN的民航潜在高价值旅客发现方法。设置民航旅客类别标签;利用RBM自动提取旅客行为特征;利用BPNN对旅客未来价值类型进行分类预测,从而发现民航潜在高价值旅客。实验结果表明,相对于基于统计特征的行为分析方法,该方法具有更高的分类预测准确率和民航潜在高价值旅客预测效果。 相似文献
3.
基于Bayes潜在语义模型的半监督Web挖掘 总被引:26,自引:0,他引:26
随着互联网信息的增长,Web挖掘已经成为数据挖掘研究的热点之一.网页分类是通过学习大量的带有类别标注的训练样本来预测网页的类别,人工标注这些训练样本是相当繁琐的.网页聚类通过一定的相似性度量,将相关网页归并到一类.然而传统的聚类算法对解空间的搜索带有盲目性和缺乏语义特征.提出了两阶段的半监督文本学习策略.第1阶段,利用贝叶斯潜在语义模型来标注含有潜在类别主题词变量的网页的类别;第2阶段,利用简单贝叶斯模型,在第1阶段类别标注的基础上,通过EM(expectation maximization)算法对不含有潜在类别主题词变量的文档作类别标注.实验结果表明,该算法具有很高的精度和召回率. 相似文献
4.
针对推荐系统中存在新项目及准确性难以把握等问题,提出一种基于广义内容概率潜在语义模型的推荐方法。该方法以概率潜在语义模型为基础,引入两组潜在变量及项目特征来建立广义内容概率潜在语义模型。该模型中两组潜在变量分别表示用户群体和项目群体,项目特征根据实际情况以特征词的形式进行表示,且通过不对称学习算法完成未知参数的训练及预测。利用三个不同的数据集对所提方法进行实验验证,结果表明该方法具有良好的项目推荐品质。 相似文献
5.
为挖掘民航旅客潜在同行关系,构建完善的旅客同行网络,提出从民航旅客订票记录进行民航旅客同行特征提取算法.通过计算信息熵等发现特征相关性,提取旅客同行表现出强相关性的特征,细化设计同行旅客对的特征集合.实验结果表明,各特征均反映了不同强度的旅客同行关系,利用特征向量对基础分类器模型进行训练预测,平均准确率高达0.91,验证了该方法具有极高的适用性. 相似文献
6.
7.
在电子商务应用中,为了更好地了解用户的内在特征,制定有效的营销策略,提出一种基于混合概率潜在语义分析(H PLSA)模型的Web聚类算法。利用概率潜在语义分析(PLSA)技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型, 通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的H PLSA模型和页面聚类的H PLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据,聚类算法采用基于距离的k medoids 算法。设计并构建了H PLSA模型,在该模型上对Web聚类算法进行验证,表明该算法是可行的。 相似文献
8.
根据用户的历史评分数据为用户提供推荐的商品列表,是目前推荐系统研究的主流.研究者发现,随着用户参与度的不断提高,将反映用户偏好的评论文本与评分数据结合,可以进一步提高推荐的质量.提出了基于潜在特征同步学习和偏好引导的商品推荐方法,将评论文本的主题与用户的"打分偏好"进行关联,同步学习用户评论文本的潜在主题、评分矩阵的用户潜在因子和商品潜在因子,并将潜在主题作为用户个人偏好引导来约束推荐方法对商品的预测打分.该方法对推荐质量的优化主要体现在两个方面:一是在评论文本的潜在主题和评分数据的两种潜在因子之间建立映射关系,同步求解主题模型和矩阵分解模型;二是将从评论文本中学习得到的潜在主题作为用户对商品的个性偏好引入到矩阵分解中,进一步优化推荐方法.在来自Amazon网站的28组真实数据集上进行实验,以均方误差为评价指标,与已有的模型进行了对比分析.实验结果表明,该方法有效减少了推荐误差,与已有的TopicMF方法相比,均方误差在数据子集上最大减少了3.32%,平均减少了0.92%. 相似文献
9.
本文在扩展LDA(latent dirichlet allocation)的基础上提出了一种新的生成模型——基于类主题空间的潜在狄里克雷分布(CTS-LDA)用来实现自然图像场景分类。该方法不同于以往方法,它在训练时通过将图像场景类别信息引入模型推导过程中,产生各场景类的独立语义主题空间,使得每个场景类都有各自不同的主题空间,图像的最终语义表示采用与其类别相关的类主题集,是一种符合人类认知习惯的方法。以前所用的场景分类方法通常在得到图像主题表示后还需要依赖于其他分类器来完成场景分类,而CTS-LDA模型可以在分别计算图像在各类模型中的主题分布时,用最大似然法得出图像的类别信息。此外本文通过分析不同主题数对本模型性能的影响,得出了适用于本模型的最佳主题数。本文分别通过13,15等多类场景任务来检验模型的性能,实验证明该模型能够在不需要太多训练的情况下取得较好的性能。 相似文献
10.
主题分割技术是快速并有效地对新闻故事节目进行检索和管理的基础。传统的基于隐马尔可夫模型(HiddenMarkov Model,HMM)的主题分割技术仅使用主题和主题之间的转移寻找主题边界进行新闻分割,并未考虑各主题中词与词之间存在的潜在语义关系。本文提出一种基于隐马尔科夫模型的改进算法。该算法使用潜在语义分析(Latent Se-mantic Analysis,LSA)对词频向量进行特征提取和降维,考虑了词与词之间的上下文关系,通过聚类得到文档类别信息,以LSA特征和主题类别作为HMM的观测和隐状态,这样同时考虑了主题之间的关系,最终实现对文本主题分割。数据实验表明,该算法具有较好的分割性能。 相似文献
11.
为便于航空公司和机场对旅客的监管和服务决策,需要对旅客潜在不文明水平进行有效分级预测。通过社会不文明行为与民航不文明行为的相似性分析,预测旅客在民航潜在的不文明行为等级,针对两类行为描述之间存在的非同源问题,通过改进SIF(smooth inverse frequency)算法设计实现基于行为特征和处罚特征联合相似度匹配的民航潜在不文明等级预测(IPBS-SIF)算法。该算法结合不文明旅客分布规律为处罚规则制定统一量化标准,实现不文明旅客的多粒度融合度量。实验结果表明,IPBS-SIF算法在预测准确度方面相比其它算法提高了12.2%-15.1%,为民航不文明旅客的行为分析和预测提供了有效的解决方案。 相似文献
12.
由于旅客-航班异构网络仅有高度稀疏的民航旅客同行记录,现有子图抽取方法难以从旅客-航班异构网络中获得旅客同行子图.对此提出基于旅客-航班异构网络的旅客同行子图抽取算法.将旅客-航班异构网络转换为旅客-旅客同构网络,通过随机游走方法得到旅客间的潜在同行关系,使用标签传播算法进行子图抽取.在国内某航空公司的旅客订票数据集上... 相似文献
13.
针对高铁旅客出行时的乘车选择行为问题,定量描述和分析了高速铁路旅客乘车选择的行为及特征.考虑旅客的主体偏好、出行偏好和承受偏好等,基于非集计离散模型构建个体偏好与列车特性因子的关联关系,并进一步构建一种考虑个体偏好的多变量旅客乘车选择效用模型,以旅客在京沪高铁北京-上海区间的乘车选择作为实例进行分析.运用SPSS结合2018年京沪高铁RP调查数据进行模型参数的标定,结果表明,年龄-票价、出行距离-票价、月收入-票价、费用来源-整点出发时刻是4组具有强关联性的个体偏好-列车特性组合,且旅客个体承受偏好中的月收入对乘车选择的影响最为明显,同时验证了上述模型可以更准确地评价旅客的个性化乘车选择行为,可为高速列车开行的优化设计提供理论基础. 相似文献
14.
近年来,变分自编码器(Variational auto-encoder,VAE)模型由于在概率数据描述和特征提取能力等方面的优越性,受到了学术界和工业界的广泛关注,并被引入到工业过程监测、诊断和软测量建模等应用中.然而,传统基于VAE的软测量方法使用高斯分布作为潜在变量的分布,限制了其对复杂工业过程数据,尤其是多模态数据的建模能力.为了解决这一问题,本论文提出了一种混合变分自编码器回归模型(Mixture variational autoencoder regression,MVAER),并将其应用于复杂多模态工业过程的软测量建模.具体来说,该方法采用高斯混合模型来描述VAE的潜在变量分布,通过非线性映射将复杂多模态数据映射到潜在空间,学习各模态下的潜在变量,获取原始数据的有效特征表示.同时,建立潜在特征表示与关键质量变量之间的回归模型,实现软测量应用.通过一个数值例子和一个实际工业案例,对所提模型的性能进行了评估,验证了该模型的有效性和优越性. 相似文献
15.
概率潜在语义检索模型使用统计的方法建立“文档—潜在语义一词”之间概率分布关系并利用这种关系进行检索。本文比较了在概率潜在语义检索模型中不同中文索引技术对检索效果的影响,考察了基于分词、二元和关键词抽取三种不同的索引技术,并和向量空间模型作了对比分析。实验结果表明:在概率潜在语义检索模型中,词的正确切分能提高检索的平均精度。 相似文献
16.
17.
在基于Web的电子商务数据挖掘过程中,如何从大量的商品交易记录中发掘出有用的信息是目前研究的主要课题,通过对目前网络交易的商品名称信息的特征进行分析,使用自定义的网页抓取工具获取在线商品交易的信息,分词处理后使用潜在语义分析方法对数据集的类别进行分析,实现了一个商品类别分类算法.从划分结果来看,该算法能较好地清除冗余信息,有效地区分不同类别的商品. 相似文献
18.
廖一星 《计算机工程与应用》2009,45(33):117-119
Sprinkling方法是一种集成了训练样本类别信息的监督潜在语义模型。但是该方法特征权重采用词频,降低了文本分类效果,同时该模型并没有考虑不同样本对分类的贡献能力,而是认为样本对分类的贡献相同,另外,该模型采用多个特征映射一个类别来加强类别知识对分类的贡献。为此,文章在Sprinkling方法的基础上提出了一种新的监督潜在语义模型。实验结果表明,该文方法的总体性能优于原始的Sprinkling方法,在特征数为1 100时,获得了最高分类精度,提高幅度达到1.71%。 相似文献
19.