基于全切分获取网络流行语方法研究* |
| |
作者姓名: | 吴保珍 何婷婷 李立 张勇 陈龙 |
| |
作者单位: | 华中师范大学计算机科学系,国家语言资源监测与研究中心网络媒体分中心,武汉,430079 |
| |
基金项目: | 国家自然科学基金资助项目(60673040);国家社会科学基金资助项目(06BYY029);国家教育部科学技术研究重点项目(105117);湖北省自然科学基金资助项目(2006ABC011); 国家“973”计划重点基础研究发展项目(2007CB310804) |
| |
摘 要: | 利用统计和规则相结合的算法从互联网的动态信息流中提取网络流行语。在利用全切分算法获取候选词集的基础上,依次对候选词集进行三次过滤:首先基于向量空间模型的权重过滤,运用语言模型进行过滤;然后利用垃圾串过滤规则获取网络流行词语候选词集;最后利用提出的流行词语评分模型进行筛选得到网络流行词语。实验表明,在不影响流行词语准确率的前提下,利用该方法自动获取网络流行词语的速度明显提高。
|
关 键 词: | 网络流行词语 中文信息处理 全切分 |
本文献已被 CNKI 维普 万方数据 等数据库收录! |
| 点击此处可从《计算机应用研究》浏览原始摘要信息 |
|
点击此处可从《计算机应用研究》下载全文 |
|