排序方式: 共有9条查询结果,搜索用时 0 毫秒
1
1.
2.
基于特征选择技术的情感词权重计算 总被引:2,自引:0,他引:2
在文本情感分析中,情感词典的构建至关重要,然而目前这方面的研究大多集中在简单的词语极性判别上,有关情感词的权重赋值研究较少,且已有的权重赋值方法基本上都需要人工辅助来选取基准词,这给实际应用带来很大的困难.针对此问题,提出了一种自动的基于特征选择技术的情感词权重计算方法.首先提出了词语情感权重与文本情感倾向的相关假设;然后针对情感分类,结合二元分类的特性改进了信息增益(information gain,IG)和卡方统计量(chi-square,CHI),将特征选择技术应用于情感词权重计算.实验结果表明:将计算所得的带情感权重的情感词库用于文本情感分类能够提升分类精度. 相似文献
3.
基于类别加权和方差统计的特征选择方法 总被引:1,自引:0,他引:1
为提高不均衡文本分类的准确率和稳定性, 提出了一种基于类别加权和方差统计的联合特征选择方法.首先, 基于类别文档数大小对特征选择的影响, 给出了一种类别加权策略以强化小类别的特征;其次, 在探究特征类别区分能力的基础上, 设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后, 将2种策略相融合, 实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效, 特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法. 相似文献
4.
5.
7.
9.
针对已标记数据与未标记数据分布不一致可能导致半监督分类器性能降低的不足,提出了一种基于特征映射的半监督文本分类算法.首先通过不同的特征选择方法,分别在训练集的已标记数据、未标记数据以及测试集数据中选取各自的特征集,并初始化特征的权值;在此基础之上,分别建立已标记数据与未标记数据、已标记数据与测试集数据、未标记数据与测试集数据之间的映射函数,并利用这3个特征映射函数重新计算特征的权重;最后利用期望最大比(expectation maximization,EM)算法进行半监督文本分类.在标准数据集上的实验结果表明:提出的算法是有效的. 相似文献
1