首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 296 毫秒
1.
文档表示是排序学习的关键,目前的排序学习算法多采用词袋法表示文档与查询,该方法假设词袋中的词相互独立,忽略了词之间的关系.为了表示文档中词之间的依赖关系,本研究利用文档与查询的主题特征构建排序学习模型,我们将排序函数定义为文档与查询之间的主题关系,提出了基于有监督主题模型的排序学习算法自动学习排序函数.为了评价模型的排序精度,我们在三个标准数据集(OHSUMED,MQ2007,MQ2008)上进行了实验.实验表明基于主题的排序学习算法能够发现文档与查询之间内在的语义关联,并改善排序模型的排序精度.  相似文献   

2.
孙新  盖晨  申长虹  张颖捷 《电子学报》2021,49(9):1682-1690
现有关键词抽取算法缺乏对短语的有效表示,为抽取出更能反映文本主题的关键短语,本文提出一种基于短语向量的关键词抽取方法PhraseVecRank.首先设计基于LSTM(Long Short-Term Memory)和CNN(Convolutional Neural Network)自编码器的短语向量构建模型,解决复杂短语的语义表示问题.然后,利用短语向量对每个候选短语计算主题权重,通过主题加权排序提高关键词抽取的效果.在公共数据集和学术论文数据上的实验表明,本文提出的方法能够有效提取与文本主题信息相关的关键短语,同时利用自编码器构造的短语向量可以更好地表示短语的语义信息.  相似文献   

3.
吕品  计春雷  汪鑫  罗宜元 《电子学报》2018,46(5):1084-1088
从短文本集中挖掘不同粒度的主题、构建主题的层次结构在舆情分析、视觉检测、语义挖掘和图谱构建等方面具有重要应用.围绕如何从短文本集中分层次地挖掘主题,在修改传统短语定义的基础上,提出了融合锚词抽取的海量短文本主题层次挖掘框架.提出的主题层次挖掘框架首先基于词共现图实现主题推断和锚词抽取;然后,应用关联规则挖掘频繁锚词短语;最后,采用排序方法量化锚词短语以寻找最具代表性的主题短语.与已有的基于词共现图构建主题层次的方法相比,融合了锚词抽取的词共现图分析方法更有利于构建层次更高的主题.在2个实际的中文短文本数据集上执行实验,结果表明提出的方法挖掘的短语能较好地解释主题和用于分类预测.  相似文献   

4.
黄名选 《电子学报》2021,49(7):1305-1313
针对自然语言处理中查询主题漂移和词不匹配问题,提出基于CSC(Copulas-based Support and Confidence)框架的关联模式挖掘与规则扩展算法,并将基于统计学分析的关联模式与具有上下文语义信息的词向量融合,提出关联模式挖掘与词向量学习融合的伪相关反馈查询扩展模型.该模型对伪相关反馈文档集挖掘规则扩展词,对初检文档集进行词嵌入学习训练得到词向量,计算规则扩展词与原查询的向量相似度,提取向量相似度不低于阈值的规则扩展词作为最终扩展词.实验结果表明,所提扩展模型能有效地减少查询主题漂移和词不匹配问题,提高检索性能,与现有基于关联模式的和基于词向量的查询扩展方法比较,MAP(Mean Average Precision)平均增幅最大可达17.52%,对短查询更有效.所提挖掘方法可用于其他文本挖掘任务和推荐系统,以提高其性能.  相似文献   

5.
基于项权值排序挖掘的跨语言查询扩展   总被引:1,自引:0,他引:1       下载免费PDF全文
黄名选  蒋曹清 《电子学报》2020,48(3):568-576
为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件扩展模型,最后提出基于项权值排序挖掘的跨语言查询扩展算法.该算法采用新的支持度和剪枝策略挖掘加权关联规则,根据扩展模型从规则中提取高质量扩展词实现跨语言查询扩展.实验结果表明,与现有基于加权关联规则挖掘的跨语言扩展算法比较,本文扩展算法能有效遏制查询主题漂移和词不匹配问题,可用于各种语言的信息检索以改善检索性能,扩展模型中后件扩展获得最优检索性能,混合扩展的检索性能不如后件扩展和前件扩展,支持度对后件扩展更有效,置信度更有利于提升前件扩展和混合扩展的检索性能.本文挖掘方法可用于文本挖掘、商务数据挖掘和推荐系统以提高其挖掘性能.  相似文献   

6.
李先通  安实 《电子学报》2010,38(12):2937-2943
 交通网络可利用图数据进行描述与分析,常用的方法包括挖掘、查询、分类等.提高大规模图集上查询算法效率的问题是当前图数据分析领域中一个重要的研究方向.给定图集,图包含查询返回图集中所有查询图的子图.本文提出一种基于频繁闭图的包含查询算法.算法首先通过选择比消除频繁闭图之间的冗余,然后将具有强选择性的频繁闭图通过树的结构组织起来建立索引,并在此索引基础上实现图包含查询.在文章的最后,给出了理论与实验的分析结果.结果表明,该算法不但能高效的进行索引筛选,而且能显著的减小候选集尺寸,进而大大的降低了查询图与索引模式之间以及与候选集之间的子图同构测试次数,提高了查询效率.  相似文献   

7.
全文检索技术中包含两部分是索引建立过程和搜索过程,在搜索过程中系统根据用户提出的查询需求在索引库中快速查找需要的文档信息,并对文档与查询的进行相关度评价,然后排序将要输出的结果。在检索模型中加入文档打分算法和标准化因子的影响解决全文检索系统中文档排序的问题。  相似文献   

8.
研究了信息检索结果多样化的方法。首先实现了经典的检索结果重排序最大边缘相关(MMR)算法,进而设计了三种基于查询日志的子查询构造方法:单字向后扩展,双字向后扩展和双向子串扩展,并最终探讨了将这三种子查询构造方法分别与最大边缘相关算法相结合的使用策略。实验表明,采用上述方法实现的系统能明显提高信息检索结果的多样性。  相似文献   

9.
文中提出了基于给定的查询词以新闻文档和具有额外情感极性评论信息为排名特征的新闻事件排名算法框架。首先,通过语义相似度交互模块将查询关键词、新闻文档和带有情感色彩的新闻评论转换为语义向量表示,并计算查询词和新闻文档相似度以及查询词和评论语句相似度。然后,基于特征提取查询关键词重要性特征、查询关键词频率特征和新闻事件相关性特征。最后,通过特征聚合模块将提取的特征与一些辅助相关特征合并,产生全局相关性分数,并基于所得出的全局相关性分数对新闻事件进行排名聚类。大型新闻数据集上的实验证明了该算法框架与常见排名算法相比具有明显的性能优势。  相似文献   

10.
黄名选  蒋曹清 《电子学报》2018,46(12):3029-3036
主题漂移和词不匹配是自然语言处理中一个难题,文本挖掘与信息检索的结合有助于解决该问题.鉴于此,本文提出一种基于完全加权正负关联模式挖掘的越-英跨语言查询译后扩展算法.该算法采用新的完全加权正负项集支持度和关联度计算方法以及模式评价框架,对初检用户相关反馈文档集挖掘与原查询词相关的正负关联模式,从模式中提取扩展词实现跨语言查询译后扩展.与现有基于伪相关反馈、加权关联模式挖掘的跨语言扩展算法比较,本文算法能有效地减少查询主题漂移和词不匹配问题,提高跨语言信息检索性能;本文模式挖掘方法可用于推荐系统,提高其准确性.  相似文献   

11.
提出了一种弱指导的方法从搜索引擎查询日志中挖掘命名实体。该方法中采用人工选择的少量命名实体名称作为种子,使用随机游走模型从查询日志中获得大量的命名实体。其中采用了查询日志中的实体上下文模板,用户点击URL和候选命名实体构建三分图,根据在该图上的随机游走计算候选命名实体属于指定目标实体类别的概率,从而在查询日志中获取该类别的命名实体。在真实的查询日志上对7个实体类别进行的实验,实验结果显示本文方法在各个类别上均获得较好的命名实体挖掘效果。  相似文献   

12.
随着互联网的飞速发展,互联网和人们日常的生活、工作、学习等各方面的结合越来越紧密,为使互联网更好的服务于用户(通过Web个性化服务等方式),首先需要了解用户使用互联网的规律性特点,基于Web日志的Web用户行为模式挖掘能解决此问题.目前,Web用户行为模式挖掘仍然是一个新兴的研究领域,其中包含若干需要解决的问题.针对这些问题,在该领域已开展了大量的研究工作.从模式挖掘合理性、模式挖掘结构体系、模式挖掘过程三个方面对Web用户行为模式挖掘中关键问题的研究现状进行了介绍:Web日志中包含了用户访问互联网的一些规律性特征,这些特征可通过Web用户行为模式挖掘的方法得到;为改进模式挖掘、应用的效果,可以采用改进的挖掘结构比如结合内容、结构挖掘的整合结构;Web用户行为模式挖掘过程分为数据预处理、模式挖掘、模式应用三个阶段,这是一个正在发展的研究领域.  相似文献   

13.
随着智能移动设备的不断普及以及流媒体技术的不断发展,手机视频监控系统的应用日趋广泛。而Android手机又以其平台开放、种类繁多、用户体验良好等优点而被大多数人所选择。本文结合实际项目需求,提出一种基于Android系统的视频直播解决方案。首先基于RTP协议将H.264码流拆包,然后通过DatagramSocket(UDP协议的Socket)进行传输,最后在Windows环境下利用Cygwin将FFmpeg源解码库生成.so格式的目标库,并在Android系统中调用生成的动态代码库进行解码。重点分析了H.264码流的传输以及解码过程。实验证明该方案能很好的实现视频的实时播放,满足实际项目需求。  相似文献   

14.
对搜索引擎中评分方法的研究   总被引:1,自引:1,他引:0       下载免费PDF全文
韩立新 《电子学报》2005,33(11):2094-2096
针对搜索引擎评分较为困难的问题,文中提出了一种评分方法.该方法使用协同过滤技术,在同一兴趣组中各用户所提供的搜索结果集的基础上,采用文中提出的并行关联规则算法对各用户的局部有向图进行预处理,找出兴趣组中各成员都感兴趣的页面.然后对这些页面的内容和超链接附近出现的文本以及链接结构进行分析.计算权威页面和引导页面,以找到虽不包括在检索结果中,但相关的页面.此外,在对所获得的页面进行评价时,除考虑Web页自身的链接结构和兴趣组中查询用户对页面的评价,还考虑兴趣组中其它成员对页面的评价和所有成员对页面的使用情况等因素,从而使推荐给用户的页面排序更加合理.  相似文献   

15.
在分析现有群组最近邻查询中位置隐私保护的基础上,提出LBS中一种面向位置隐私保护的群组最近邻查询方法。该方法采用分布式系统结构,克服了集中式匿名系统结构所存在通信瓶颈和攻击重点的缺陷。在此基础上根据用户群组的运动状态信息,提出使用位置随机扰动和门限秘密共享的Paillier密码系统来安全地计算用户群组的质心位置。于是将用户群组的最近邻查询转换为此质心的最近邻查询。与现有的相关工作相比,理论分析表明所提有关方案能够在有效抵御现有的距离交叉攻击和共谋攻击下,实现灵活的群组最近邻查询,同时耗费较低的网络资源。  相似文献   

16.
He Li  Jaesoo Yoo 《ETRI Journal》2016,38(6):1197-1206
Performing continuous skyline queries of dynamic data sets is now more challenging as the sizes of data sets increase and as they become more volatile due to the increase in dynamic updates. Although previous work proposed support for such queries, their efficiency was restricted to small data sets or uniformly distributed data sets. In a production database with many concurrent queries, the execution of continuous skyline queries impacts query performance due to update requirements to acquire exclusive locks, possibly blocking other query threads. Thus, the computational costs increase. In order to minimize computational requirements, we propose a method based on a multi‐layer grid structure. First, relational data object, elements of an initial data set, are processed to obtain the corresponding multi‐layer grid structure and the skyline influence regions over the data. Then, the dynamic data are processed only when they are identified within the skyline influence regions. Therefore, a large amount of computation can be pruned by adopting the proposed multi‐layer grid structure. Using a variety of datasets, the performance evaluation confirms the efficiency of the proposed method.  相似文献   

17.
在网络数据膨胀的今天,将网络中有用数据摘录下来,并组织成脱机Web应用程序形式,不但便于移动设备浏览,而且能有效减少移动流量消耗,节省费用,提高安全性.为此,讨论了HTML5应用程序缓存机制、数据挖掘规则定义与数据提取、数据清洗入库、脱机Web应用程序的实现.在数据挖掘的过程中,一些动态网页需要进行登录认证才能访问,登录认证的方式有多种,如HTTPS、HTTP Digest、HTTP Basic和网页表单认证等,为减少复杂性,文中采用了FireFox浏览器安全认证方式.在数据清洗入库和脱机Web应用程序生成的过程中,利用PHP脚本和Html5语言,实现了相关功能.实验表明,文中方法可行,效果较好.  相似文献   

18.
Biological data integration: wrapping data and tools   总被引:2,自引:0,他引:2  
Scientific data is inevitably digital and stored in a wide variety of formats in heterogeneous systems. Scientists need to access an integrated view of remote or local heterogeneous data sources with advanced data access, analysis, and visualization tools. Building a digital library for scientific data requires accessing and manipulating data extracted from flat files or databases, documents retrieved from the Web as well as data generated by software. We present an approach to wrapping web data sources, databases, flat files, or data generated by tools through a database view mechanism. Generally, a wrapper has two tasks: it first sends a query to the source to retrieve data and, second builds the expected output with respect to the virtual structure. Our wrappers are composed of a retrieval component based on an intermediate object view mechanism called search views mapping the source capabilities to attributes, and an Extensible Markup Language (XML) engine, respectively, to perform these two tasks. The originality of the approach consists of: 1) a generic view mechanism to access seamlessly data sources with limited capabilities and 2) the ability to wrap data sources as well as the useful specific tools they may provide. Our approach has been developed and demonstrated as part of the multidatabase system supporting queries via uniform object protocol model (OPM) interfaces  相似文献   

19.
The cognitive radio technology was applied to non-orthogonal multiple access (NOMA) cooperative multicast system,the feasibility of using users as relays was studied,and a two-level cooperative transmission scheme with parameterized multicast candidate sets was proposed.Specifically,the scheme first selected the candidate set according to the cardinality q,and then selected the best forwarding node based on the channel gain between the primary users and the candidate secondary users.Simulation results show that,through the reasonable selection of the cardinality q,the proposed scheme can greatly reduce the diversity gain of the secondary users while simultaneously increasing the diversity gain of the primary users.In NOMA cooperative multicast scenario composed of N multicast users,the proposed scheme can increase the diversity gain of the primary users from 2 to min(N-q+2,q+1) to meet their reliability requirements.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号