首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
该文旨在研究中文微博用户的性别分类问题,即根据微博提供的中文文本信息对注册用户的性别进行识别。虽然基于微博的性别分类已经有一定研究,但是针对中文的性别分类工作还很缺乏。该文首先提出分别利用用户名和微博文本构建两个分类器对用户的性别类型进行判别,并对不同的特征(例如,字特征、词特征等)进行了研究分析;其次,在针对用户名和微博文本的两个分类器的基础上,使用贝叶斯融合方法进行分类器融合,从而达到采用这两种文本分类信息同时对用户性别进行性别判断。实验结果表明该文的方法可以达到较高的识别准确率,并且分类器融合的方法明显优于仅利用用户名或者微博文本的分类方法。  相似文献   

2.
消费意图是指用户在文本中明确表达出的购买产品或服务等一些商业消费的意愿,如“想买一部手机”。该文针对微博上的消息文本,提出一种基于用户自然标注的微博消费意图识别方法。该方法将微博消费意图识别看作为领域自适应学习问题,通过自动获取的训练语料基于源域和目标域共同特征设计分类器,抽取置信度高的伪标注消费意图微博,再利用微博特征训练新的分类器对微博进行消费意图识别。实验结果表明该文所采用的方法是有效的,F值达到69%和77%,其中使用的各种特征对于提高消费意图识别的效果皆有帮助。  相似文献   

3.
评论是一种反映事物价值的重要主观信息。该文从用户角度出发,提出一种基于全局用户意图的商品评论自动估价方法。该研究首先定义了一种简易的评论价值划分标准(“实用”和“垃圾”评论),借以实现前瞻性的方法尝试。在此基础上,该文采用SVM分类器作为划分评论价值类别(二元分类问题)的基本平台,并基于这一平台重点考察三种影响评论价值的特征 1)属性热度;2)内容可信度;3)用户情感和观点。该文在文本结构特征的基础上,加入上述三类反映用户意图的特征进行评论价值判定,并在大规模商品评论语料集中进行测试。实验表明通过引入用户意图特征,评论自动估价的性能有较大幅度提高。  相似文献   

4.
近年来,随着计算机移动技术和社会媒体的发展,微博已经成为一个热门的信息交流平台。由于微博平台数据量庞大,所以会导致提取带有用户观点的句子较为困难,如何提取出带有用户观点的句子也越来越受到关注。但是,目前的中文微博观点句提取方法都集中在使用句法分析与分类器,忽略了微博主观信息所具有的内容关联性。因此,该文将传统观点句识别方法与共现词相结合,提出了基于共现词的中文微博观点句识别算法。该文的研究内容包含以下几点:首先,利用主题模型对数据进行聚类分析,提取具有内容代表性的词语,组成共现词集合;然后,使用Stanford Parser句法分析工具对微博数据进行句法分析并且进行模板匹配,识别出较为明显的观点句;最后,使用共现词与2-POS[1]等特征,识别句法分析无法识别的观点句。  相似文献   

5.
微博情感倾向性分析旨在发现用户对热点事件的观点态度。由于微博噪声大、新词多、缩写频繁、有自己的固定搭配、上下文信息有限等原因,微博情感倾向性分析是一项有挑战性的工作。该文主要探讨利用卷积神经网络进行微博情感倾向性分析的可行性,分别将字级别词向量和词级别词向量作为原始特征,采用卷积神经网络来发现任务中的特征,在COAE2014任务4的语料上进行了实验。实验结果表明,利用字级别词向量及词级别词向量的卷积神经网络分别取得了95.42%的准确率和94.65%的准确率。由此可见对于中文微博语料而言,利用卷积神经网络进行微博情感倾向性分析是有效的,且使用字级别的词向量作为原始特征会好于使用词级别的词向量作为原始特征。  相似文献   

6.
微博客的出现改变了我们获取信息的方式。然而,大量垃圾消息却此起彼伏,危害着微博的健康发展。该文研究了中文微博客中的垃圾用户检测问题。我们首先对垃圾用户的行为进行了分析,提出了基于用户图、用户资料、微博内容的3大类7种检测特征。随后,讨论了基于SVM分类器的垃圾用户检测方法。最后,我们对采集的微博数据进行了标注,并评价了分类器的效果。实验表明: 分类器具有较高的准确率和召回率,该文提出的特征具有较好的区分度。  相似文献   

7.
考虑到同类型的情感句往往具有相同或者相似的句法和语义表达模式,该文提出了一种基于情感句模的文本情感自动分类方法。首先,将情感表达相关句模人工分为3大类105个二级分类;然后,设计了一种利用依存特征、句法特征和同义词特征的句模获取方法,从标注情感句中半自动地获取情感句模。最后,通过对输入句进行情感句模分类实现文本情感分类。在NLP&CC2013中文微博情绪分类评测语料及RenCECps博客语料的实验结果显示,该文提出的分类方法准确率显著高于基于词特征支持向量机分类器。  相似文献   

8.
微博情感分析是对微博内容进行细粒度的挖掘,有着重要的研究价值。微博评价对象的抽取是微博情感分析研究的关键问题之一。为了提高中文微博评价对象抽取的准确率,该文在中文微博特征分析和微博评论本体构建研究的基础上,尝试从词、词性、情感词以及本体四个方面进行特征选择,采用CRFs模型对评价对象进行抽取。该文将提出的方法运用到COAE2014测评的Task5评价对象抽取任务中,宏平均准确率达到61.20%,在所有测评队伍中居第一。实验结果表明,将本体特征引入到CRFs模型中,能够有效地提高评价对象抽取的准确率。  相似文献   

9.
网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车评论语料进行细粒化的处理并提取情感标签,再结合情感词本体和支持向量机模型对情感标签进行分类,从而实现情感倾向性的判别。实验表明,采用汉语组块分析的情感分类方法相比其他的分类算法平均准确率提高了4%。因此,基于汉语组块分析的情感分类可以降低分类器的输入特征维数,并有效提高分类器的分类性能。  相似文献   

10.
基于深层特征和集成分类器的微博谣言检测研究   总被引:1,自引:0,他引:1  
微博中存在着大量的虚假信息甚至谣言,微博谣言的广泛传播影响社会稳定,损害个人和国家利益。为有效检测微博谣言,提出了一种基于深层特征和集成分类器的微博谣言检测方法。首先,对微博情感倾向性、微博传播过程和微博用户历史信息进行特征提取得到深层分类特征;然后利用分类特征训练集成分类器;最后利用集成分类器对微博谣言进行检测。实验结果表明,提出的基于深层特征和集成分类器的方法能够有效提高微博谣言检测的性能。  相似文献   

11.
微博客作为一种新的用户信息传播载体,在网络舆情发起和传播中起着重要作用。由于用户有意(上传广告)、无意(转发)操作所带来的大量噪音微博和相似微博,对网络舆情分析和用户浏览造成极为不利的影响。检测这些噪音微博和相似微博,对微博数据进行提纯,成为一个亟待解决的问题。基于统计数据分析了噪音微博和相似微博的特点,提出一种面向微博文本流的噪音判别和内容相似性双重检测的过滤方法:通过URL链接、字符率、高频词等特征判别,过滤噪音微博;通过分段过滤和索引过滤的双重内容过滤,检测和剔除相似微博。实验表明该方法能有效地对微博数据进行提纯,高效准确地过滤掉相似微博和噪音微博。  相似文献   

12.
微博日益成为一个巨大而复杂的互联网舆论平台。分析微博中特定话题的情感趋势对于了解网络舆情、分析产品销量趋势显得尤为重要。该文使用微博进行真实事件公众情感趋势预测: 首先,考虑到微博特征稀疏、上下文缺失的特性,借助词语上下位语义关系对其进行语义扩充;其次,使用语义特征和情感常识知识构造双层分类方法进行情感分析;最后,对特定事件在连续时间段内的微博使用时序情感分析方法进行公众情感趋势预测。实验证明,该情感分析方法准确率相对于传统分类方法有明显的提高,在此基础上的情感趋势预测符合事件的真实发展状况。  相似文献   

13.
周诗龙  徐俊刚 《软件学报》2013,24(S2):150-161
目前,微博搜索大多应用向量空间模型计算查询词与文档间的相关程度,通常使用TF-IDF(termfrequency-inverse document frequency)统计方法来确定词的权重.然而仅使用词进行微博搜索并不能检测到某条微博的信息含量,而这些往往是查询用户所关注的问题.为此提出了一种基于分析特征与动态步长的微博排序学习算法.首先,定义了一些微博分析特征,经过统计分析获得的这些分析特征可以用来预测用户行为;其次,在此基础上,提出了以词性为单位计算微博相关度的方法,结合信息熵计算方法得到微博词性信息的含量,并用来预测该微博的信息含量;最后,在现有ListNet排序学习算法的基础上,引入了动态步长的概念,对步长进行了动态优化,最终形成了一种基于动态步长的微博排序学习算法——RDLS(ranking based on dynamic learning stepsize)算法.实验结果表明,无论是基于直接特征还是加入分析特征,在相同迭代轮数情况下,相比ListNet算法,RDLS 算法可以训练出更优的模型,在微博排序方面有更好的表现.  相似文献   

14.
This study addresses the problem of Chinese microblog opinion retrieval, which aims to retrieve opinionated Chinese microblog posts relevant to a target specified by a user query. Existing studies have shown that lexicon-based approaches employed online public sentiment resources to rank sentimentwords relying on the document features. However, this approach could not be effectively applied to microblogs that have typical user-generated content with valuable contextual information: “user–user” interpersonal interactions and “user–post/comment” intrapersonal interactions. This contextual information is very helpful in estimating the strength of sentiment words more accurately. In this study, we integrate the social contextual relationships among users, posts/comments, and sentiment words into a mutual reinforcement model and propose a unified three-layer heterogeneous graph, on which a random walk sentiment word weighting algorithm is presented to measure the strength of opinion of the sentiment words. Furthermore, the weights of sentiment words are incorporated into a lexicon-based model for Chinese microblog opinion retrieval. Comparative experiments are conducted on a Chinese microblog corpus, and the results show that our proposed mutual reinforcement model achieves significant improvement over previous methods.  相似文献   

15.
突发事件容易引起社会舆论,是监管的重要对象。传统事件检测忽略了博文间影响力的差异。考虑到不同微博对事件的影响力不同,针对时序微博数据流,提出一种结合微博影响力与突发词的突发事件检测框架。在综合考虑用户及博文影响力的基础上,挖掘时间窗口内的重点微博,根据重点微博及历史数据计算突发词,再通过突发词检索的方式构建出具有突发性的潜在事件数据集,通过聚类算法检测突发事件。对比两种常见的事件检测方法,实验表明所提方法在准确率与效率上均有明显提升。  相似文献   

16.
微博评价对象识别是涉案网络舆情分析的基础. 目前基于主题表征的评价对象识别方法需要预设固定的主题数目, 且最终评价对象识别依赖人工推断. 针对此问题, 提出一种弱监督涉案微博评价对象识别方法, 仅采用少量标签评论即可实现对评价对象的自动识别. 具体实现思路为: 首先基于变分双主题表征网络对评论进行两次编码和重构, 获得丰富的主题特征; 然后, 利用少量标签评论, 引导主题表征网络自动判别评价对象类别; 最后采用联合训练策略, 对双主题表征的重构损失与评价对象分类损失进行联合调优, 最终实现对评价对象的自动分类和评价对象词项的挖掘. 在涉案舆情的两个数据集上进行了实验, 结果表明, 所提出的模型在评价对象分类、评价对象词项的主题连贯性和多样性等方面均优于几个基线模型.  相似文献   

17.
In microblogs, authors use hashtags to mark keywords or topics. These manually labeled tags can be used to benefit various live social media applications (e.g., microblog retrieval, classification). However, because only a small portion of microblogs contain hashtags, recommending hashtags for use in microblogs are a worthwhile exercise. In addition, human inference often relies on the intrinsic grouping of words into phrases. However, existing work uses only unigrams to model corpora. In this work, we propose a novel phrase-based topical translation model to address this problem. We use the bag-of-phrases model to better capture the underlying topics of posted microblogs. We regard the phrases and hashtags in a microblog as two different languages that are talking about the same thing. Thus, the hashtag recommendation task can be viewed as a translation process from phrases to hashtags. To handle the topical information of microblogs, the proposed model regards translation probability as being topic specific. We test the methods on data collected from realworld microblogging services. The results demonstrate that the proposed method outperforms state-of-the-art methods that use the unigram model.  相似文献   

18.
传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配(LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常微博和广告型微博,并分别构建LDA主题模型预测短文本对应的主题分布,将主题中的词作为特征扩展的基础;其次,在特征扩展时结合文本类别信息提取背景领域特征,以降低其对文本分类的影响;最后,将扩展后的特征向量作为分类器的输入,根据支持向量机(SVM)的分类结果过滤广告。实验结果表明,与现有的仅基于短文本分类的过滤方法相比,其准确率平均提升4个百分点。因此,该方法能有效扩展文本特征,并降低背景领域特征的影响,更适用于数据量较大的微博广告过滤。  相似文献   

19.
通常的微博观点句识别主要根据微博评论本身是否带有观点来进行判断,而案件微博的观点句识别需要进一步考虑该评论是否讨论与特定案件相关的主题。针对这一任务,该文提出一种结合微博原文进行特征扩展的观点句识别模型。以卷积神经网络分类模型为基本框架,在嵌入层加入案件微博原文中的关键词向量,与对应评论词向量进行拼接;利用扩展的特征进行观点句识别。实验表明,该模型在根据案件微博爬取的两个数据集下准确率分别达到84.74%和82.09%,与现有的基准模型相比有较明显提升。  相似文献   

20.
As a new information sharing platform, microblog has got explosive growth in recent years and has become an important source for public opinion mining. A variety of information like the reviews of brands/products or the trends of events can be socially sensed from such kind of data. However, it is still a challenging task to search relevant microblogs as the user generated content tends to be mixed with noise. Besides short text, image is getting popular in microblogs due to its power in visual information conveying. In this paper, we leverage textual and visual cues integratedly and propose a general re-ranking approach for microblog retrieval via multi-graph semi-supervised learning. We argue that the different types of information in microblogs correspond to different relationships among microblogs and each type of the relationship can be represented as a similarity graph. We then integrate different graphs into a unified framework and solve them simultaneously for microblog re-ranking. Extensive experiments on a recently published Brand-Social-Net dataset showed the effectiveness of the proposed method and marginal improvements have been achieved in accuracy as compared to the single graph model based method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号