论文元数据信息的自由抽取 |
| |
引用本文: | 李朝光,唐世渭,等.论文元数据信息的自由抽取[J].计算机工程与应用,2002,38(21):189-191,235. |
| |
作者姓名: | 李朝光 唐世渭 |
| |
作者单位: | [1]北京大学视觉与听觉处理国家重点实验室,北京100871 [2]北京大学计算机科学与技术系,北京100871 |
| |
摘 要: | 为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者,摘要和关键宇等元数据信息,在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。
|
关 键 词: | 论文 元数据信息 自由抽取 科技文献检索系统 信息抽取 正则表达式规则 Web |
本文献已被 维普 等数据库收录! |
|