首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法. 首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容. 该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理. 从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.  相似文献   

2.
提出基于弱监督学习的属性抽取方法, 利用知识库中已有结构化的属性信息自动获取训练语料, 有效解决了训练语料不足问题. 针对训练语料存在的噪声问题, 提出基于关键词过滤的训练语料优化方法. 提出n元模式特征提取方法, 该特征能够缓解传统n-gram特征稀疏性问题. 实验数据源来自互动百科, 从互动百科信息盒中抽取结构化属性信息构建知识库, 从百科条目文本中自动获取训练数据和测试数据. 实验结果表明, 关键词过滤能有效提高训练语料的质量, 与传统n-gram特征相比, n元模式特征能够提高属性抽取的性能.  相似文献   

3.
为了给北京市知识产权预警能力研究提供基础数据,通过检索美国专利商标局(USPTO)网络专利数据库可以得到动态网页形式的专利信息.基于XML相关技术,提出了将这些网页形式的专利数据抽取到关系数据库的技术和方法.使用正则表达式匹配的方法进行页面过滤,将网页解析为文档对象模型(DOM)进行清洗,通过可扩散样式表转换语言(XSLT)模板抽取专利信息,并通过对象映射的方法将专利信息存入关系数据库,实现了专利信息抽取原型系统.实验结果表明,该原型系统具有较高的召回率和准确率.  相似文献   

4.
近年来,垃圾邮件制造者为了逃避基于文本的垃圾邮件过滤系统的检测,将垃圾信息嵌入到图像中,并将其附着在邮件正文中进行传播。传统的基于文本的过滤方式无法处理此类包含垃圾信息的邮件图像。为了应对这种同时包含文本和图像的垃圾邮件,本文提出了一种基于多模态特征的融合文本、图像等多媒体信息的过滤方法。首先通过抽取邮件的文本特征和图像特征构建多个分类器,然后采用多分类器融合技术对各分类器的输出结果进行综合。通过对TREC垃圾邮件语料集的测试实验表明,本文提出多模态特征融合的方法获得了比单个分类器更好的效果,准确率达到90%以上。  相似文献   

5.
在基于图卷积网络的推荐模型中,图卷积对仅包含编号信息的输入节点进行信息聚合会引发严重的瓶颈问题,影响推荐精度.为缓解此问题,考虑通过辅助信息丰富节点特征,提出了一种融合文本信息的轻量级图卷积网络推荐模型.模型把卷积神经网络提取出文本评论特征添加到图的节点嵌入中.为了简化图卷积网络结构,采用轻量级图卷积框架将融合的特征信息在用户-电影项目图上线性传播来学习用户和电影项目的嵌入,并将所有图卷积子层上特征嵌入的加权总和作为最终特征输出,用于预测评分.3个实际数据集上的实验结果表明,该方法可以缓解信息聚合瓶颈问题,提高推荐的准确度,并且模型可以缓解推荐中的冷启动问题.  相似文献   

6.
针对传统的信息过滤系统已不能满足快速信息过滤的需要的问题,以经典字符串模式匹配算法为基础,融入压缩编码和散列的思想,利用网络处理器高效并行处理的特点,提出了一种基于网络处理器快速过滤文本信息的方法,该方法能够显著提高文本信息过滤的速度。  相似文献   

7.
从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键.针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法.首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,...  相似文献   

8.
提出了将社交类服务中的两类极为重要的数据--社交网络结构数据和用户所发布的文本内容数据相结合的动态兴趣识别方法.首先通过定义时间窗口,对社交网络用户的实时文本信息进行主题建模,识别用户实时兴趣概率特征;然后将微观网络结构信息与用户好友的兴趣信息相结合,构建预测特征;最后,建立逻辑回归、支持向量机等分类器,采用所构建的预测特征对用户兴趣进行动态预测.在新浪微博中的应用表明,该方法具备一定的有效性.  相似文献   

9.
随着物联网环境应用范围的扩大,用户隐私保护正成为一个重大的挑战,其中用户敏感信息的安全性是目前研究的难点。根据物联网环境下的主流网络制式,本文定义了敏感信息全局生命期的若干特征属性,在系统感知层对敏感信息进行特征识别,并设计相关规则标记敏感信息动态安全级别,度量特征属性与实时泄露场景的关联性,进而采用基于身份的加密方法(IBE)对敏感信息部署加密方案,最后在中间层及应用层部署补丁分发机制预防感知层的防护失效,从而实现敏感信息在全局生命期中面向泄露场景的安全防护模型。实验针对三种异构网络环境下敏感信息的泄露场景进行测试,证实了系统的安全性及有效性。  相似文献   

10.
通过分析当前Web文档抽取的主流方法以及存在的不足,提出了一种基于文本块的改进算法-BWTE(Block-base Web Text Extraction)。该算法首先采用过滤的方法去除广告、超链接等比较明显的噪音信息,然后通过自底向上的文本块分块算法抽取出Web文档的正文。  相似文献   

11.
为解决待识别目标的特征抽取问题,提出了一种脉冲耦合神经网络结合形状信息的图像混合特征抽取方法。该方法利用脉冲耦合神经网络将图像空域信号转化为时域信号的特性,结合物体形状信息,对图像的灰度和形状进行了统一描述。实验结果证明,该方法在一定程度上对物体的形变、平移、缩放不敏感,对目标识别系统是一种很好的特征抽取方法。  相似文献   

12.
地铁牵引供电系统的发散型振荡电流容易造成直流牵引网继电保护误动,因此欲提高直流牵引网保护系统的可靠性必须寻求更为有效的特征提取方法。分形理论中关联维数的特征提取方法可灵敏地反映出牵引网非线性动态特征信息的变化,并准确识别出牵引网中振荡电流和短路故障电流。在确定的时间序列内,牵引网电流信号经相空间重构和关联维数计算后,定义关联维数为其故障模式识别的特征矢量。实测数据证明,该保护方法不仅具有灵敏性高和概念清晰的优点,而且适合复杂的直流牵引网运行状态信息的诊断。  相似文献   

13.
基于深度学习的图像修复方案在篡改后图像中遗留很少的痕迹信息给取证带来了极大的困难。目前针对深度图像修复的取证工作研究较少,并且存在篡改区域定位不准确的问题。为此,本文提出了一种动态特征融合取证网络(dynamic feature fusion forensics network,DF3Net)用于定位经过深度图像修复操作的篡改区域。首先,该网络采用不同的篡改痕迹增强方式包括SRM滤波、空间域高通滤波和频率域高通滤波将单输入图像扩展到多输入,并提出动态特征融合模块对多种输入提取有效的修复痕迹特征后进行动态的特征融合;其次,网络采用编码器-解码器架构作为基础框架,并在编码器末端增加多尺度特征提取模块以获取不同尺度的上下文信息;最后,本文还设计了空间加权的通道注意力模块用于编、解码器之间的跳跃连接,以期实现有侧重地补充损失的边界细节。实验结果表明,面对不同的深度修复方案以及不同的图像数据库,DF3Net相较于现有的图像修复取证方法均可以更准确地定位篡改区域,并且对于JPEG压缩和高斯噪声具有较强的鲁棒性。  相似文献   

14.
图像过渡区提取的传统算法基于梯度算子,为克服梯度算法对噪声敏感的缺点,通过对图像过渡区特征的深入分析,提出基于信息测度的过渡区直接提取方法,依据过渡区的直方图确定一个最佳分割阈值。根据过渡区像素灰度变化频繁的特点,构造提取图像过渡区的特征参数———局部熵信息测度。实验结果表明,算法抗噪性能好,稳健性强,摆脱了传统算法对剪切点Llow和Lhigh的依赖,优于传统的过渡区间接提取算法和基于局部复杂度的过渡区直接提取方法。  相似文献   

15.
为了提高动态分簇传感网络的节点转发能力,提出了一种基于混合蒙特卡罗算法的网络隐式节点监测方法.首先,采用分布式均衡控制方法进行网络节点优化设计,构建动态分簇传感网络的输出信道模型.其次,利用自适应链路转发协议进行网络的路由探测设计,构建动态分簇传感网络的隐式节点路由均衡控制模型,提取隐式节点输出信息的关联特征量.最后,利用混合蒙特卡罗算法进行特征检测和信息提取,根据网络隐式节点的特征规律性分布对网络隐式节点信息进行监测.仿真结果表明,本文方法对网络隐式节点具有较好的监测效果,对网络隐式节点监测的最高丢包率仅为0.05,显著低于蚁群算法(0.29)与PEAS算法(0.48).  相似文献   

16.
基于深度信息的动态手势识别算法   总被引:1,自引:1,他引:0  
针对目前手势识别方法计算复杂、特征量提取不可靠等问题,提出基于Kinect传感器深度信息快速动态手势识别算法。通过Kinect的深度摄像头获取深度图像,利用阈值分割法对深度图像进行预处理;结合深度信息,利用OpenCV函数库来提取前景;选用动态时间规整(dynamic time warping)算法计算测试行为模板与参考行为模板之间的相似度以实现样本的分类;最终结合OpenNI和OpenCV,在VS2010环境下实现了该算法。与其他算法相比,该算法改进动态手势特征的提取方法和分类过程,能够快速跟踪手部,有效分割手势。实验结果表明,本方法对具有时空特性的动态手势有很高的识别率,在不同光照和复杂背景下具有较好的鲁棒性。  相似文献   

17.
针对视觉跟踪算法光照自适应能力差的问题,提出了一种对光照变化鲁棒的多特征动态提取跟踪算法。该算法采用高效克服光照影响的特征提取方法,颜色子模型采用模糊直方图方法获取,在同态滤波基础上建立边缘子模型,运动子模型采用改进的三帧差分法提取。该算法还定义了一个新的特征融合模型,把多种互补的观测子模型动态融合,增强了观测模型的准确性,合理量化特征的可靠性使跟踪更稳定。同时采用改进的粒子重采样方法提高了跟踪准确度。实验结果表明,该算法能有效地避免光照变化对跟踪的影响,具有较好的鲁棒性。  相似文献   

18.
针对传统胶囊神经网络特征提取结构单一,模型参数量大以及动态路由算法中相似度衡量粗糙等问题,该文提出一种改进的胶囊神经网络.应用Fire Module模块,将网络中特征图通道数先进行压缩,再通过多尺度的卷积核提取特征信息,进而提升网络的特征提取能力和减少网络模型的参数.将Dropout思想引入胶囊神经网络来增加模型的多样...  相似文献   

19.
多源信息融合与天基信息网   总被引:2,自引:0,他引:2       下载免费PDF全文
天基信息系统的集中应用已成为现代高技术战争的基本特征。天基综合信息网将各种信息按照资源的最大有效综合利用原则,互通互联,构成了一个有机的智能化体系。多源信息融合作为天基信息网中数据处理和应用的重要组成部分,发挥着信息筛选和提取的重要作用。本文探讨了天基信息网在信息战中的重要作用,并结合天基信息网的特点,讨论了多源信息融合在不同层次上的关键技术,最后对未来天基网多源信息融合的发展进行了展望。  相似文献   

20.
网络信息具有方便、高效和快捷等优势,但也易产生干扰、欺骗和误导等不良信息。针对网络信息的特性,探讨了网络信息资源可靠度的判断方法,并从现有国家法律体系的角度,分析了对网络不良信息规制的冲突与不完善,提出了规制网络不良信息的建议措施。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号