首页 | 官方网站   微博 | 高级检索  
     

基于分层选择策略的主动学习分词方法
引用本文:梁喜涛,顾磊.基于分层选择策略的主动学习分词方法[J].计算机应用研究,2015(5):1353-1356.
作者姓名:梁喜涛  顾磊
作者单位:南京邮电大学 计算机学院,南京,210003
基金项目:国家自然科学基金资助项目(61302157);国家教育部人文社会科学研究青年基金资助项目(12YJC870008);江苏省教育厅高校哲学社会科学基金资助项目(2013SJB870004);江苏省社科研究文化精品课题
摘    要:为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训练分词器。最后在 PKU、MSR 和山西大学数据集上进行测试,并与不确定选择策略进行比较。结果表明提出的分层选择策略在相同大小的训练语料下可以获得更高的分词准确率,同时还降低了人工标注的代价。

关 键 词:中文分词  主动学习  不确定性取样  分层取样策略

Active learning in Chinese word segmentation based on stratified sampling strategy
LIANG Xi-tao , GU Lei.Active learning in Chinese word segmentation based on stratified sampling strategy[J].Application Research of Computers,2015(5):1353-1356.
Authors:LIANG Xi-tao  GU Lei
Abstract:
Keywords:Chinese word segmentation  active learning  uncertainty sampling  stratified sampling strategy
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号