首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
在利用条件随机场进行信息抽取时,单纯基于词或基于块的方法,不能充分利用上下文信息在恰当粒度上进行切分和抽取,因此提出了一种基于条件随机场的科研论文信息分层抽取方法,利用分隔符、换行符、行首字符等格式信息,结合条件随机场的特征函数,将文本切分成文本行、块或单个的词等恰当的层次,再采用L-BFGS算法学习模型参数并进行特定文本域的抽取。实验结果表明,该方法的抽取性能优于基于词或块的条件随机场模型的信息抽取方法。  相似文献   

2.
随着大量的科研论文出现在互联网上,从中精确地抽取论文头部信息和引文信息显得十分重要。该文提出了一种基于隐马尔可夫模型的中文科研论文头部信息和引文信息抽取算法,分析了模型结构的学习和参数估计方法。在进行信息抽取时,利用分隔符、特定标识符等格式信息对文本进行分块,利用隐马尔可夫模型进行指定域的抽取。实验结果表明,该算法具有良好的准确率和召回率。  相似文献   

3.
结合核密度估计和边缘信息的运动对象分割算法   总被引:1,自引:0,他引:1  
针对前景与背景具有相似颜色时的运动对象分割问题,提出一种结合核密度估计和边缘信息的分割算法.在前景和背景建模阶段使用颜色信息的基础上,引入边缘信息来构造前景和背景的概率模型;然后在马尔可夫随机场框架下引入与概率模型有关的似然能量项,以及反映空域连续性和时域一致性的能量项,并利用图切割方法来获得可靠的运动对象分割结果.实验结果证明,对于前景与背景具有相似颜色的视频序列,该算法降低了对象分割误差,显著地提高了整个序列中对象分割的鲁棒性.  相似文献   

4.
传统的实体关系抽取方法主要针对语义信息较为完整的文本,基于抽取模式抽取文本中的实体关系,并采用启发式算法或者概率模型来选择抽取出的候选关系.而对于半结构化的页面,由于没有成句的实体信息展示,导致这些方法不能很好适用.论文提出的实体关系抽取系统能较好地处理半结构化的页面.该系统主要包括数据抽取规则学习、数据抽取、实体间关系计算等核心功能模块,并为用户提供了关系库查询接口.用户输入关键词和选定匹配类型,系统将根据关键词及匹配类型查询实体信息库,然后用满足条件的实体再去查询实体关系库,将包含这些实体的关系返回给用户.  相似文献   

5.
基于条件随机域CRF模型的文本信息抽取   总被引:1,自引:0,他引:1  
为了抽取文本中的信息,在分析对比了4种统计建模原型后,选用条件随机域CRF建立抽取模型,提出了一种文本信息抽取的方法.该方法对文本分析后加标注,确定文本特征集,采用有限内存拟牛顿迭代方法L-BFGS算法估计CRF模型参数,根据训练学习得出的模型,实现科研论文数据集头部文本信息的抽取.实验结果表明,使用CRF模型的抽取准确率达到90%以上,远远高于使用HMM模型的抽取准确率.  相似文献   

6.
毛凌  解梅 《计算机应用研究》2013,30(11):3514-3517
图像语义分割方法大多基于点对条件随机场模型, 不能定位到单个目标, 并且难以利用全局形状特征, 造成误识。针对这些问题, 提出一种新的高阶条件随机场模型, 将基于全局形状特征的目标检测结果和点对条件随机场模型统一在一个概率模型框架中, 同时完成图像分割、目标检测与识别的任务。利用目标检测器和前背景分割算法获取图像中目标区域, 在目标区域上定义新的高阶能量项。新的高阶条件随机场模型就是高阶能量项和点对条件随机场模型的加权混合模型, 其最优解即为图像语义分割结果。在MSRC-21类数据库上进行的实验验证了该模型能够显著提升图像语义分割性能, 并定位到单个目标。  相似文献   

7.
提出一种基于三维时空小波变换和马尔可夫随机场(Markov Random Field)模型的多分辨率运动目标分割算法.该算法利用三维时空小波变换对图像序列进行分解得到多分辨率的图像序列,并在此基础上建立多分辨率的马尔可夫随机场模型,构造相应的能量函数.通过条件迭代模型优化算法(Iterated Conditional Modes)求解能量函数的最优解,得出标记场,提取出运动目标.实验结果证明,该算法能够很好地消除了单一分辨率的MRF运动检测结果中"空洞"现象,对运动目标分割具有很好的分割效果.  相似文献   

8.
基于条件随机场模型在字粒度上识别并切分藏文人名,其优势是可以较好地利用藏文人名在文本中出现的基本特征和上下文特征来确定藏文人名在文本序列中的边界。根据藏文人名自身的特点设定特征标签集,利用条件随机场模型作为标注建模工具来进行训练和测试。从实验结果来看,该方法有较高的识别正确率,具有进一步研究的价值。下一步的改进需要扩充训练语料,并针对人名与一般词语同形现象进行特征标签集的优化。  相似文献   

9.
针对自然场景中标志文本提出一种文本定位算法.在彩色图像边缘提取的基础上,利用形态学文本定位获得备选文本区域,再用神经网络对备选文本区域进行分类,最后提取文本区域文字.该算法既考虑文本的形状边缘信息,又考虑文本的颜色信息,充分利用基于边缘的方法和基于神经网络学习的方法的优点.实验结果表明,提出的文本定位算法具有较高的准确率.  相似文献   

10.
针对网购评论命名实体识别中重要词汇被忽略的问题,在评论短文本处理基础上,借鉴多头注意力机制、词汇贡献度和双向长短时记忆条件随机场提出一种基于MA-BiLSTM-CRF模型的网购评论命名实体识别方法。首先,用词向量和词性向量的组合来表示评论文本语义信息;其次,用BiLSTM提取文本特征;然后,引入多头注意力机制从多层面、多角度提升模型性能;最后,用条件随机场(CRF)识别命名实体。实验结果表明,该方法能提升网购评论实体识别效果。  相似文献   

11.
ReDE:一个基于正则表达式的生物数据抽取方法   总被引:4,自引:0,他引:4  
从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据.充分利用这种依赖关系可降低维护工作量.基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护.该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库.  相似文献   

12.
基于本体的文档引文元数据信息抽取   总被引:5,自引:6,他引:5  
郭志鑫 《微计算机信息》2006,22(18):304-306
结合本体技术,提出了一种新的从文档中抽取引文元数据信息的方法。该方法采用模式匹配方式,可以从文档中提取作者、标题、日期等信息,并使用OWL本体描述语言进行形式化,为进一步的语义搜索和语义存储奠定基础。实验数据证明了该方法的有效性。  相似文献   

13.
Authors use images to present a wide variety of important information in documents. For example, two-dimensional (2-D) plots display important data in scientific publications. Often, end-users seek to extract this data and convert it into a machine-processible form so that the data can be analyzed automatically or compared with other existing data. Existing document data extraction tools are semi-automatic and require users to provide metadata and interactively extract the data. In this paper, we describe a system that extracts data from documents fully automatically, completely eliminating the need for human intervention. The system uses a supervised learning-based algorithm to classify figures in digital documents into five classes: photographs, 2-D plots, 3-D plots, diagrams, and others. Then, an integrated algorithm is used to extract numerical data from data points and lines in the 2-D plot images along with the axes and their labels, the data symbols in the figure’s legend and their associated labels. We demonstrate that the proposed system and its component algorithms are effective via an empirical evaluation. Our data extraction system has the potential to be a vital component in high volume digital libraries.  相似文献   

14.
基于元数据的数据整合平台   总被引:2,自引:0,他引:2  
针对数据资源整合的共性问题,提出了一种基于元数据、结合Web服务与本体技术的数据资源共享与整合平台的实现框架(MDDI).重点讨论了基于JavaCC设计与实现的元数据自动抽取与转换工具,该工具把与各平台相关的元数据自动提取并转换为与平台无关的元数据,实现了基于元模型的元数据集成,为最终实现数据的共享和整合奠定了基础.  相似文献   

15.
提出一种从科技文献等文档中自动抽取元数据的方法,将自动归纳法和相似特征度算法结合起来,基于特征相似的归纳学习算法自动生成抽取规则,并对文档进行元数据的自动抽取。这种方法利用文档自身某些特有属性,对文档的内容进行分块,利用归纳法自动生成抽取规则,并结合特征相似度对生成规则进行匹配,然后对文档元数据信息进行自动抽取,提高了自动生成规则的效率和抽取元数据信息的准确率。  相似文献   

16.
针对P2P网络中由于查询条件的弱语义和粗粒度、检索效率低下以及网络带宽消耗的问题提出了一个基于元数据的高效查询算法,通过在任意P2P数据管理层的基础上建立一个统一的元数据层,各个节点自动抽取共享数据的详细的元数据信息,每个节点不仅保存本地共享数据的元数据信息,而且存储访问过的最感兴趣的数据的元数据信息,并使用数据库对元数据信息进行高效管理,从而使所有节点都具有自我学习的能力,充分利用元数据信息提高检索效率。  相似文献   

17.
重点研究事件检测模型中层次聚类算法的改进,提出利用在关键词抽取基础上利用新闻的各种要素信息计算新闻之间相似度的方式,搭建了一个在线新闻检索系统,在其上利用新华社的新闻语料进行实验。实验结果表明改进方法的效果明显,性能较之未使用前有显著的提升。  相似文献   

18.
首先从元数据的属性和元数据的粒度两个角度对科技文献元数据进行了分析,在此基础上,从科技文献元数据自动抽取的理论研究和应用实践研究两个方面对国内外科技文献元数据自动抽取研究成果进行分析和综合,最后指出了现有研究的特点和存在的不足.  相似文献   

19.
海量存储系统中,高效的元数据索引是减少查找元数据所需时间与空间开销的重要手段。针对现有元数据管理方法存在查找元数据所需时间与空间开销大和性能波动大等问题,设计了元数据分级索引算法。依据元数据的生命周期,将元数据分为活跃和非活跃两级;使用Bloom Fliter对均衡的活跃元数据分区生成摘要串,并使用B-树建立活跃元数据分区的索引;使用类似的方法对非活跃元数据分区,并为每个分区选择各自的哈希函数。从查找元数据所需时间与空间开销、适应能力两方面对元数据分级索引算法进行了分析,并与现有元数据管理算法进行了比较。最后实现了元数据分级索引算法的原型系统,使用真实数据集进行了测试与分析,结果表明,元数据分级索引算法能减少查找元数据所需的时间与空间开销,并具有很强的适应能力。  相似文献   

20.
针对网页正文提取算法缺乏通用性,以及对新闻网页的提取缺乏标题、时间、来源信息的问题,提出一种新闻关键信息的提取算法newsExtractor。该算法首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文,根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源;最后构造了数据集与国外开源软件newsPaper进行提取准确率的对比实验。实验结果表明,newsExtractor在正文、标题、时间、来源的平均提取准确率上均优于newsPaper,具有通用性和鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号