排序方式: 共有4条查询结果,搜索用时 0 毫秒
1
1.
大多数基于有指导机器学习方法的情感分类采用N元(n-gram)词袋(bag-of-words)模型,使用二值(binary)作为特征项的权重。本文系统地分析了信息检索中常用的特征权重计算方法,并从项频、倒文档率、归一化因子等角度加以借鉴和改进,研究其在商家评论上的应用。最主要的改进在于考虑了特征项在不同类别中分布情况的差异以及对倒文档率的平滑。在餐饮评论语料上的实验结果表明,经典的tf.idf若干变形,尤其是倒文档率类差异(delta idf)及平滑因子(smoothing factor)的引入,能有效提高分类准确率。在酒店、电脑、书籍等领域的在线评论公开数据集上也取得了较好的性能,证明了方法的普遍适用性。这一方法目前已经在中国电信号码百事通业务中用于餐饮商家及优惠券推荐,效果良好。 相似文献
2.
3.
描述了一个基于依存关系的语义角色标注系统,该系统把依存关系作为语义角色标注的基本单元。通过手工或自动标注出来的依存关系,构造出依存关系树,并从树上抽取特征。用最大熵模型对句中谓词的语义角色进行识别和分类。为了消除不必要的结构化信息,在预处理阶段,依存关系树经过了Xue的剪枝算法处理。通过特征工程,丰富的特征及其组合被应用于系统。最终使用 CoNLL 2008 shared task提供的数据作为训练、开发和测试集,使用手工标注的依存关系,F1值达到了86.25%;使用MSTParser自动产生的依存关系,F1值达到了81.66%。 相似文献
4.
1