首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
研究了Lucene搜索引擎框架在烟草行业的信息获取和搜索方面的系统应用。如何在异构的海量数据中获取与烟草行业相关的数据是实现烟草行业信息化管理技术的一个重要分支。通过对不同文件格式的数据处理、烟草行业相关站点的数据抓取、搜索引擎创建和数据检索四个模块框架来实现系统。Web页面基于Heritrix烟草信息数据抓取,其中的非结构化数据或者半结构化数据和不同的文件格式通过Tika工具统一转为为文本,通过Lucene对结构化和非结构化数据创建索引以实现数据检索,由此实现烟草信息搜索引擎系统的实现。  相似文献   

2.
为了获取评论信息中的客户隐藏情感倾向信息,基于网络爬虫技术对商品评论信息进行抓取,通过基于语义分解利用数学向量空间模型对信息进行情感倾向性分析,构建一款针对电商平台中商品和服务评论信息的客户意见挖掘以及情感倾向性分析的系统模型。  相似文献   

3.
为了提高机械臂抓取的精度,提出一种基于Mask R-CNN的机械臂抓取最佳位置检测框架。基于RGB-D图像,所提框架通过精确的实例分割确定抓取对象的类别、位置和掩码信息,由反距离加权法在去噪后的深度图上获取中心点的加权深度坐标,构成目标对象的三维目标位置,经坐标系转换得到最终的最优抓取位置。建议的框架考虑到目标对象的姿态与边缘信息,可以有效地提高抓取性能。最后,基于UR3机械臂上的抓取实验结果验证了该框架的有效性。  相似文献   

4.
周中华  张惠然  谢江 《计算机应用》2014,34(11):3131-3134
目前很多的社交网络研究都是采用国外的平台数据,而国内的新浪微博没有很好的接口方便研究人员采集数据进行分析。为了快速地获取到微博中的数据,开发了一款支持并行的微博数据抓取工具。该工具可以实时抓取微博中指定用户的粉丝信息、微博正文等内容;该工具利用关键字匹配技术,匹配符合规定条件的微博,并抓取相关内容;该工具支持并行抓取,可以同时抓取多个用户的信息。最后将串行微博爬虫工具和其并行版本进行对比,并使用该工具对部分微博数据作了一个关于流感问题的分析。实验结果显示:并行爬虫拥有较好的加速比,可以快速地获取数据,并且这些数据具有实时性和准确性。  相似文献   

5.
网络爬虫的主要作用是获取互联网上的信息。我们在浏览网页时候所希望获取的信息都可以使用网络爬虫来抓取实现;网络爬虫从互联网上源源不断的抓取海量信息,搜索引擎结果中的信息都是来源于此。本文对基于C#开发的网络爬虫搜索引擎进行了详细的阐述。  相似文献   

6.
网络中的数据蕴藏着大量有价值信息,在实际的项目需求中,为了实现能够自动的在网页上对大量数据的数据信息的收集、解析、格式化存储的过程,提出了基于分布式的网络爬虫技术。采用Nutch爬虫框架和Zookeeper分布式协调服务,配合高性能的Key-Value数据库Redis对数据进行存储,采用Solr引擎将抓取信息进行清晰地索引、展示。运用提取页面信息算法优化提取页面信息流程,通过关键词匹配优化算法根据指标从抓取的数据中获取指标相关数据。通过分布式集群的搭建,Nutch项目的实现,及大量数据的采集,验证了基于Nutch的分布式网络爬虫的可行性。通过页面解析流程实验分析,基于Nutch的分布式爬虫与其他爬虫多组实验数据对比结果表明,基于Nutch的分布式爬虫项目在性能和准确度方面都优于传统其他爬虫。  相似文献   

7.
随着我国人口红利逐渐减弱,以及计算机、工业自动化水平的提高,迫切要求通过自动化设备代替传统人工进行工作。本作品研究基于视觉识别技术的智能移动垃圾分拣机器人,能够进行路径规划遍历清扫区域,扫描识别垃圾并抓取垃圾。作品由导航单元、目标识别单元以及分拣控制单元三部分组成。导航单元基于ROS分布式框架,利用激光雷达采集清扫区域环境信息,实现基于扫描匹配算法的SLAM功能,并通过最优路径算法进行路径规划遍历清扫区域。机器人遍历过程中,由目标识别单元通过SSD_MobileNet_V2深度学习算法对摄像头获取的图像进行目标检测以及目标分类,获取目标的坐标及其角度信息作为分拣控制单元的输入信息,控制分拣控制单元执行垃圾抓取任务。  相似文献   

8.
自适应是个性化信息服务未来的发展趋势。自适应网络高质量信息的获取是个性化信息服务实现的基础,能使自适应信息服务成为可能。基于此,提出自适应网络高质量信息可获取性研究,识别并提取网络资源底层的HTML信息,构建点要素三角网抓取信息特征,完成高质量信息的处理与深度获取。实验证明,笔者提出的自适应网络高质量信息获取方法的信息获取误差远低于传统方法,有利于大面积获取高质量信息数据,信息获准率较高。  相似文献   

9.
探索和发展新的传感技术和方法在更加微观的尺度(比如说亚微米、纳米尺度)上原位、活体、实时地获取相关生物、医学信息,对人类疾病的机理研究、诊断和治疗等具有非常重要的意义。该文基于纳米技术和分子工程发展了一系列适合生物医学分析与研究的传感技术,包括基于生物功能化纳米颗粒、原子力显微镜(AFM)以及新型核酸分子探针的生物医学传感技术。  相似文献   

10.
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。  相似文献   

11.
伴随着科技的发展,人工智能技术得到了飞速发展。协作机器人和机械臂在各大领域的应用变得越来越重要。传统的机械臂只能按照已规划好的路径进行物体的抓取,当物体不在或挪动位置时,抓取便无法正常完成,还需要重新规划路径,严重影响了工作效率。为了能够使机械臂自主获取外界信息,拥有自我感知周围环境的能力,基于视觉的协作机器人得到了快速发展。文中首先对基于视觉的协作机器人技术进行了简要介绍,随后对智能视觉系统进行了相关设计,接着介绍了智能视觉目标检测和识别模块,最后在周围环境以及外界信息未知的情况下,利用智能视觉系统实现了协作机器人对具体目标的识别定位和抓取。实验结果表明,该系统可以投用到实际的工程应用中,具有良好的使用价值。  相似文献   

12.
在研究了现存的主题爬虫的基础上,提出了一种基于统计模型的主题爬虫,它对抓取过程中可获得的信息进行分析,并运用统计模型计算的结果过滤URL,有效地解决了偏好特定主题的用户检索和Web信息的索引等相关问题.实验结果表明,与基于链接和网页内容分析的主题爬虫相比,该主题爬虫能够在检索较少的网页时,抓取到较多的与主题相关的网页,提高了抓取精度.  相似文献   

13.
采用工业相机、工业投影机、普通摄像头、计算机和机械臂开发了一套具有三维立体视觉的机械臂智能抓取分类系统。该系统采用自编软件实现了对工业相机、工业投影机的自动控制和同步,通过前期研究提出的双波长条纹投影三维形貌测量法获取了物体的高度信息,结合opencv技术和普通摄像头获取的物体二维平行面信息,实现了物体的自动识别和分类;利用串口通信协议,将上述处理后的数据传送至机械臂,系统进行几何姿态解算,实现了智能抓取,并能根据抓手上压力反馈自动调节抓手张合程度,实现自适应抓取。经实验证明该系统能通过自带的快速三维形貌获取装置实现准确、快速的抓取工作范围内的任意形状的物体并实现智能分类。  相似文献   

14.
现代的软件开发集成开发环境(IDE)为开发者提供了错误提示、代码补全、代码分析、版本管理等多方面的辅助开发支持,大大提高了开发效率。同时,开发者在日常开发过程中还常常依赖于互联网获取代码样例、配置说明、错误处理等Web开发资源。由于需要频繁地在IDE和浏览器之间进行切换并通过各种方式进行信息检索,开发者往往需要在Web开发资源的获取上花费大量的时间和精力。为此,提出一种基于开发者开发行为分析和挖掘的Web信息资源推荐方法。该方法通过自动记录和抓取开发者在IDE中的代码浏览和修改等动作以及在浏览器中的页面浏览信息获取基础信息。在此基础上,该方法从所抓取的浏览器页面中抽取结构化的信息资源,并通过聚类和基于时间的关联分析确定IDE开发行为与Web信息资源之间的相关性,从而在开发者在IDE中执行开发任务时自动推荐相关的Web信息资源。最后通过一个实验分析初步验证了所提方法的有效性。  相似文献   

15.
随着互联网的发展,网络数据覆盖了各个领域,但随着网络数据量的增加和数据格式的多样化,用户从海量数据中获取有价值的数据变得越来越困难。目前国内外对数据采集技术进行了研究,发现通过网络爬虫技术可以自动获取网络资源。本文以南京市二手房信息为例,设计了一个基于Scrapy框架的爬虫程序,对中西部部分地区的二手房信息进行抓取和存储,最后运用Excel数据分析,对南京市二手房资源按区域、住房类型进行分析。结果表明,该程序能够自动采集安居客户的住房信息,提高了用户获取信息的速度和质量,为用户数据分析提供了数据源。  相似文献   

16.
真实人手抓取数据在人类抓取行为分析和机器人类人抓取等研究中起到至关重要的作用。抓取数据集中应包含复杂形状的三维物体信息、抓取点的信息以及手的姿态和形状,然而目前普遍方法是采集视频图像并从中估计人的抓取行为,导致不能准确记录手部各个关节的自由度信息。利用虚拟现实技术建立虚拟环境,利用数据手套直接捕捉在虚拟环境中三维物体和手部姿态信息作为抓取数据。提出的数据集包含生活中常见的49类物体中的91个不同形状的物体(每个有108个姿态)以及共52 173人次的抓取记录,规模和丰富性都远远超过了已有的用于研究人类的抓取行为和研究以人为核心的抓取技术的数据集。此外,使用采集的数据集进行抓取显著性分析和类人抓取计算,实验结果验证了数据集的应用价值。  相似文献   

17.
网页信息指网页的正文、标题、发布时间、媒体等,每个信息都存在于HTML文档特定的标签中,自动获取这些标签可以实现在相同模板下的网页信息自动提取,对于大规模抓取网页内容有很大帮助。由于在相同模板下不同网页之间结构一致,网页信息有一定统计特征,提出了一种基于结构对比和特征学习的网页信息标签自动提取算法。该算法包含三个步骤:网页对比、内容识别和标签提取。在51个模块下对1?620个网页进行测试,实验结果表明,通过提取标签获取网页信息不仅速度快,而且抓取的内容更加准确。  相似文献   

18.
使用传统的修缮方法进行古建筑修缮,需要花费大量的时间采集古建筑的相关信息,该文利用三维激光扫描技术获取古建筑的三维点云并生成三维模型,基于三维模型进行古建筑的修复,证明此方法具有一定的可行性。  相似文献   

19.
该文提出了一种获取足部运动参数的装置.该装置基于柔性阵列压力/触觉传感器、嵌入式低功耗技术和双极无线网络通信技术.通过检测足底压力信号和时间序列,计算出足部各项运动参数,建立长距离运动的信息监控系统.测试结果表明,本装置具有较高的采样速率、良好的无线数据传输性能、能较精确地获取足部压力及相关运动参数.  相似文献   

20.
研究矿产资源勘查的特点和对GIS的需求,重点研究GIS中相关的三维空间对象的表示、存贮和操作技术,矢—栅一体化技术,以及综合分析和解释模型。研究基于神经网络和模糊理论的空间分析方法在矿产资源勘查GIS中的应用。研制适合于矿产资源勘查的专用GIS。本项研究对运用GIS技术提高我国矿产资源勘查水平有重大意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号