首页 | 官方网站   微博 | 高级检索  
     

中文科技文献切分的领域适应技术研究
引用本文:石崇德,乔晓东,王惠临,屈鹏.中文科技文献切分的领域适应技术研究[J].图书情报工作,2014,58(19):13-18.
作者姓名:石崇德  乔晓东  王惠临  屈鹏
作者单位:中国科学技术信息研究所
基金项目:本文系科技部国际科技合作专项“面向科技文献的日汉双向实用型机器翻译合作研究”(项目编号:2014DFA11350)和国家社会科学基金项目“基于事实型科技大数据的情报分析方法及集成分析平台研究”(项目编号:14BTQ038)研究成果之一。
摘    要:以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果。研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用。

关 键 词:中文切分  领域适应  科技文献信息处理  
收稿时间:2014-07-24

Research on Domain Adaptation Technology of Chinese Science and Technology Literatures Segmentation
Shi Chongde,Qiao Xiaodong,Wang Huilin,Qu Peng.Research on Domain Adaptation Technology of Chinese Science and Technology Literatures Segmentation[J].Library and Information Service,2014,58(19):13-18.
Authors:Shi Chongde  Qiao Xiaodong  Wang Huilin  Qu Peng
Affiliation:Institute of Scientific and Technical Information of China, Beijing 100038
Abstract:Segmentation of science and technology (S&T) literature is a basic step in S&T documents information processing. This paper takes biomedical literatures as the instances and studies domain adaptation technology in segmentation of S&T literatures. Then it takes some methods such as dictionary features, domain character features, sub-word tagging and low quality in-domain training corpus based on dictionary-based segmentation to adapt Chinese segmentation method based on sequence labeling in journalism filed to S&T filed and achieves the significant improvement. It finds that how to exploit domain specific features with domain knowledge plays an important role in improving the segmentation quality of S&T literatures.
Keywords:Chinese segmentation  domain adaptation  information processing of science and technology literature  
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号