首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
孙昭颖  刘功申 《计算机科学》2018,45(Z6):392-395
词汇个数少、描述信息弱的缺陷,导致短文本具有维度高、特征稀疏和噪声干扰等特点。现有的众多聚类算法在对大规模短文本进行聚类时,存在精度较低和效率低下的问题。针对该问题,提出一种基于深度学习卷积神经网络的短文本聚类算法。所提算法以大规模语料为基础,利用word2vec 模型学习短文本中词语之间潜在的语义关联,用多维向量表示单个词语,进而将短文本也表示成多维的原始向量形式;结合深度学习卷积神经网络,对稀疏高维的原始向量进行特征提取,以此得到特征更为集中、有效的低维文本向量;最后,利用传统的聚类算法对短文本进行聚类。实验结果表明,所提聚类方法对文本向量的降维是可行、有效的,并且取得了F值达到75%以上的文本聚类效果。  相似文献   

2.
针对旅游推荐系统中基于内容的推荐和基于协同过滤的推荐方法的数据稀疏性和冷启动问题,以及现有轨迹挖掘方法忽略旅游轨迹中高级语义的问题,提出基于门控循环单元轨迹挖掘模型的推荐方法.为了充分利用旅游轨迹的高级语义信息,基于循环神经网络设计轨迹挖掘表示模型,对游客的旅游轨迹进行建模,在利用游客历史轨迹建模后向游客提供个性化旅游景点推荐.在真实旅游轨迹数据集上的实验表明,相比广泛使用的基线方法,文中方法在景点推荐的准确性和质量上都有一定提高.  相似文献   

3.
针对大多数基于向量空间模型的中文文本聚类算法存在高维稀疏、忽略词语之间的语义联系、缺少聚簇描述等问题,提出基于语义列表的中文文本聚类算法CTCAUSL(Chinese text clustering algorithm using semantic list)。该算法采用语义列表表示文本,一个文本的语义列表中的词是该文本中出现的词,从而降低了数据维数,且不存在稀疏问题;同时利用词语间的相似度计算解决了同义词近义词的问题;最后用语义列表对聚簇进行描述,增加了聚类结果的可读性。实验结果表明,CTCAUSL算法在处理大量文本数据方面具有较好的性能,并能明显提高中文文本聚类的准确性。  相似文献   

4.
针对小数据集下单纯使用深度学习方法的草图特征提取可分辨性低下的问题,提出一种融合稀疏编码和深度学习的草图特征表示方法.该算法首先对草图进行语义分割;然后迁移深度学习方法,分别提取草图特征和草图部件特征,之后将部件特征降维聚类,获取聚类中心;最后利用部件聚类中心向量初始化稀疏编码中的字典,交替迭代求取获得最终的草图特征.不同于以往的草图特征表示方法,将迁移深度学习获得的草图部件特征引入到稀疏编码中,作为字典的初始基向量,将语义信息融入到稀疏编码,在提升草图特征表示性能的同时,使得稀疏表示具有更好的可解释性.实验结果显示,所提方法下的草图识别率高于采用传统非深度学习和深度学习方法提取的草图特征的草图识别率.  相似文献   

5.
为了更好地研究旅游车辆的运营行为,需要通过分析车辆轨迹规律发现车辆运动的典型轨迹,轨迹聚类是其中重要的环节。对于使用传统的密度聚类方法处理大规模旅游车辆轨迹数据存在准确度差和效率低的问题,提出了一种基于轨迹段和核密度的轨迹聚类方法。采用核距离作为轨迹段相似度度量,利用类似DBSCAN算法对轨迹段进行聚类,得出旅游车辆运动典型轨迹。以北京市旅游车辆为例,采用基于轨迹段和核密度的算法对车辆轨迹进行聚类,能从一定程度上提高聚类的效果和准确率,为进一步研究旅游车辆的运营行为打下基础。  相似文献   

6.
针对微博的短文本、口语化和大数据等特性,提出基于词向量的微博话题发现方法。爬取实验数据结合中文语料库训练得到词的向量表示,再通过定义的文本词向量模型得到文本的词向量表示,相较于传统的向量空间表示模型,词向量表示模型能够解决微博短文本特征稀疏、高维度问题,同时,能够解决文本语义信息丢失问题;采用改进的Canopy算法对文本进行模糊聚类;对相同Canopy内的数据用K-means算法做精确聚类。实验结果表明,该方法与经典Single-Pass聚类算法相比,话题发现综合指标提高4%,证明了所提方法的有效性和准确性。  相似文献   

7.
针对高速公路中车辆的实时检测问题,提出了一种基于轨迹稀疏谱聚类的高速公路车辆检测方法。使用ORB算法检测特征点并利用基于金字塔LK光流算法进行跟踪得出特征点轨迹,将轨迹逆投影至三维世界坐标系,利用轨迹三维信息构建轨迹间的相似矩阵并对其进行稀疏化处理,采用谱聚类方法对特征点轨迹进行初步聚类,对谱聚类结果进行类间合并得出车辆检测结果。实验结果表明,方法花费了更少的时间代价,有效地解决了车辆遮挡问题,车辆实时检测精度提高至93%,具有一定的有效性和价值。  相似文献   

8.
韩陈寿  夏士雄  张磊  朱长成 《计算机工程》2011,37(7):219-221,236
目前的轨迹数据聚类直接对整条轨迹数据聚类,或先分段再对轨迹段聚类。分段聚类法抛弃轨迹段内部点,丢失轨迹局部特征,没有考虑点的速度影响。针对该问题,提出一种基于速度约束的分段轨迹数据聚类方法。该方法将速度约束和two-pass corner detection应用于轨迹分段,在邻域计算中加入速度约束,采用Discrete Fréchet Distance比较轨迹段距离,保留了轨迹段内部特征。用类似DBSCAN的TraDBSCAN算法对轨迹段进行聚类。实验结果表明,该方法考虑速度因素,可以获得更有效的聚类结果。  相似文献   

9.
基于单词相似度的文本聚类   总被引:4,自引:1,他引:3  
研究了现有的基于向量空间模型的文本聚类算法,发现这些算法都存在数据维度过高和忽略了单词之间语义关系的缺点.针对这些问题,提出一种基于单词相似度的文本聚类算法,该算法首先利用单词相似度对单词进行分类获得单词间的语义关系,然后利用产生的单词类作为向量空间的项表示文本降低了向量空间的维度,最后采用基于划分聚类方法对文本聚类.实验结果表明,相对于传统基于向量空间模型的聚类算法,该算法具有较好的聚类效果.  相似文献   

10.
针对轨迹聚类算法在相似性度量中多以空间特征为度量标准,缺少对时间特征的度量,提出了一种基于时空模式的轨迹数据聚类算法。该算法以划分再聚类框架为基础,首先利用曲线边缘检测方法提取轨迹特征点;然后根据轨迹特征点对轨迹进行子轨迹段划分;最后根据子轨迹段间时空相似性,采用基于密度的聚类算法进行聚类。实验结果表明,使用所提算法提取的轨迹特征点在保证特征点具有较好简约性的前提下较为准确地描述了轨迹结构,同时基于时空特征的相似性度量因同时兼顾了轨迹的空间与时间特征,得到了更好的聚类结果。  相似文献   

11.
针对传统聚类分析不能有效处理矢量数据聚类的问题,提出矢量聚类算法。该算法以点到矢量的距离最小化为分类依据,所得类簇中心为一矢量。根据稀疏信号的分布特性,用矢量聚类方法估计系统的混合矩阵,再利用估计的混合矩阵分离混合信号,从而得到稀疏信源的估计,简化了传统的混合信号分离过程。实验结果表明该矢量聚类方法能比传统的标量聚类方法更有效地估计矢量数据的中心,能在稀疏的处理域中很好地分离出稀疏信源。  相似文献   

12.
为了加强对局部空域航路的掌握和管理,提出一种基于轨迹点聚类的航路发现方法.首先,针对根据真实数据的分布特点生成的仿真数据,采用预处理模块对轨迹数据的噪声进行削弱和剔除;其次,提出一种包括孤立点剔除、轨迹重采样、轨迹点聚类、聚类中心修正和连接聚类中心五个部分的航路发现方法,对航路进行提取;最后,对航路提取结果进行了可视化...  相似文献   

13.
短文本相比于长文本词汇的数量更少,提取其中的语义特征信息更加困难,利用传统的向量空间模型VSM(vector space model)向量化表示,容易得到高维稀疏的向量.词的稀疏表示缺少语义相关性,造成语义鸿沟,从而导致下游聚类任务中,准确率低下,容易受噪声干扰等问题.提出一种新的聚类模型BERT_AE_K-Means...  相似文献   

14.
王靖 《计算机应用研究》2020,37(10):2951-2955,2960
针对同类文本中提取的关键词形式多样,且在相似性与相关性上具有模糊关系,提出一种对词语进行分层聚类的文本特征提取方法。该方法在考虑文本间相同词贡献文本相似度的前提下,结合词语相似性与相关性作为语义距离,并根据该语义距离的不同,引入分层聚类并赋予不同聚类权值的方法,最终得到以词和簇共同作为特征单元的带有聚类权值的向量空间模型。引入了word2vec训练词向量得到文本相似度,并根据Skip-Gram+Huffman Softmax模型的算法特点,运用点互信息公式准确获取词语间的相关度。通过文本的分类实验表明,所提出的方法较目前常用的仅使用相似度单层聚类后再统计的方法,能更有效地提高文本特征提取的准确性。  相似文献   

15.
基于向量空间模型(VSM)的文本聚类会出现向量维度过高以及缺乏语义信息的问题,导致聚类效果出现偏差。为解决以上问题,引入《知网》作为语义词典,并改进词语相似度算法的不足。利用改进的词语语义相似度算法对文本特征进行语义压缩,使所有特征词都是主题相关的,利用调整后的TF-IDF算法对特征项进行加权,完成文本特征抽取,降低文本表示模型的维度。在聚类中,将同一类的文本划分为同一个簇,利用簇中所有文本的特征词完成簇的语义特征抽取,簇的表示模型和文本的表示模型有着相同的形式。通过计算簇之间的语义相似度,将相似度大于阈值的簇合并,更新簇的特征,直到算法结束。通过实验验证,与基于K-Means和VSM的聚类算法相比,文中算法大幅降低了向量维度,聚类效果也有明显提升。  相似文献   

16.
针对目前协同过滤推荐算法中数据稀疏和语义信息欠缺问题,提出一种融合知识图谱表示学习的栈式自编码器推荐算法(SAEKG-CF)。将评分矩阵作为栈式自编码器的输入,训练得到项目的隐性特征向量,并据此计算特征相似性矩阵;利用知识图谱表示学习算法将项目中的实体映射到低维向量空间,并计算出低维向量空间中实体间的语义相似性矩阵;将特征相似性矩阵与语义相似性矩阵相融合,得到融合相似性矩阵,进而依据最优融合相似性矩阵产生top-k推荐列表。实验结果表明,该算法能有效地同时解决数据稀疏与语义信息欠缺问题,提高推荐的准确率。  相似文献   

17.
李世昌  李军 《测控技术》2021,40(2):140-144
针对短期风电功率预测,提出一种基于稀疏表示特征提取的建模方法.为了构建预测模型,将历史风电功率数据构成具有时延的输入-输出数据对,将时延输入数据向量作为初始字典,由K-均值奇异值分解(K-SVD)算法将其进行稀疏分解与变换至稀疏域以得到学习后的字典,由正交匹配追踪(OMP)算法获取相应的稀疏编码向量,再将该向量作为极限学习机(ELM)或支持向量机(SVM)的输入来构建全局回归模型.为了验证所提出的方法的有效性,将所提出的方法用于短期风电功率预测中,在同等条件下与单一SVM、ELM方法和非字典学习的其他稀疏表示建模方法进行了比较.实验结果表明,不同的稀疏表示建模方法均能取得很好的预测效果,其中所提出的方法具有更好的预测效果,显示出其有效性.  相似文献   

18.
吴瑕  唐祖锴  祝园园  彭煜玮  彭智勇 《软件学报》2018,29(10):3184-3204
随着GPS定位技术的不断发展与智能移动设备的普及,轨迹数据的获取变得越来越容易,同时,轨迹数据相关应用的需求也逐渐增多.在轨迹数据上加入语义信息,可以得到体积较小、质量较高、能够更好地反映用户行为的语义轨迹,在其上实现旅游线路推荐、路线预测、用户生活模式挖掘、朋友推荐等应用,可以更好地满足用户需求.挖掘语义轨迹的频繁模式是实现这些应用的技术基础,而在很多情况下,用户对语义轨迹频繁模式常存在到达时间方面的需求,比如按特定时间游玩热门景点的同时需要按时到达车站候车.现有的语义轨迹模式挖掘方法大多没有考虑到达时间的约束,挖掘出的频繁模式缺少到达时间信息;少数方法考虑了精确的到达时间,但因为约束太强会导致无法挖掘到频繁的模式.因此,首次对近似到达时间约束下的语义轨迹频繁模式(approximate arrival-time constrained frequent pattern,简称AAFP)挖掘方法进行了研究,并给出了其形式化定义;通过时间轴划分提出了挖掘AAFP的基线算法,并通过建立索引AAP-tree提出了改进后的高效、灵活的AAFP挖掘算法;之后提出了信息熵增量公式,并给出了时间轴划分及AAP-tree的高效维护方法;最后在真实数据集上进行实验,验证了方法的有效性及高效性.  相似文献   

19.
文本表示需要解决文本词语的歧义性问题,并能够准确界定词语在特定上下文语境中的语义特征。针对词语的多义性及语境特征问题,提出了一种文本语义消歧的SCDVAB模型。其基于分区平均技术,将场景语料库转换为文档嵌入,并引入各向异性,改进了软聚类的稀疏复合文档向量(SCDV)算法,以提高BERT的语境化表示能力;将调整各向异性后的BERT词语嵌入,作为静态词语向量的文档嵌入,以提升文本语义消歧的能力。通过大量实验进一步证明,SCDVAB模型的效果明显优于传统的文本消歧算法,可有效提高文本语义消歧的综合性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号