首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
李慧  张舒  顾天竺  陈晓红  吴颜 《计算机应用》2006,26(10):2509-2512
准确挖掘商务网站中的用户评论对于商家进行有效的推荐具有重要意义。提出了一种新颖的用户评论抽取(CRE)算法进行评论信息的抽取。该算法采用了页面分块与信息熵的迭代计算技术实现了评论块的自动发现与抽取。实验结果证明了该算法具有较高的查全率与查准率。  相似文献   

2.
Internet发展至今,除了静态的网页文本,目前出现较多的是基于动态文本的BBS评论、电子商务评论等.如何自动挖掘这些评论信息,变得日益重要.提出了一种新颖的评论算法进行评论信息的发现与抽取.采用了DOM技术对页面进行分块,同时结合信息熵的迭代计算技术实现了评论块的自动发现与抽取.  相似文献   

3.
网页分块方法使得Web信息抽取的单位由页面缩小为块.文中研究了网页分块的主要方法与基于学习的分块重要性模型,对Xpath的Web抽取方法进行分析.结合两者的优势提出一种基于分块重要性模型与Xpath结合的Web信息抽取方法,探讨了其设计过程,并给出形式化描述与实验结果,结果表明该方法适合于抽取多记录型的网页.  相似文献   

4.
基于Web标准的页面分块算法研究   总被引:1,自引:0,他引:1  
页面分块在文档分类,信息抽取,主题信息采集,以及搜索引擎优化等方面具有重要的作用.首先提出了一种基于Web标准的页面分块算法,通过对网页进行解析和布局分析,利用Web标准对网页进行分块.实验证明该算法在对遵循Web标准的网页进行分块时,在分块准确性和复杂页面适应性方面得到了提高.  相似文献   

5.
为有效解决Web信息抽取中的主题漂移问题,提出了一种能更准确地反映Web页面信息熵的计算方法--混合熵.该方法把需要计算信息熵的信息块放在多页面网站环境中进行讨论,通过考虑页面内信息对信息熵计算的影响,并同时考虑由模版生成的页面间相同的信息分布的影响,从而保证了信息熵的计算的准确度.用该方法解决信息抽取中信息块的信息熵计算问题,并将仿真结果与其它算法进行比较,结果表明了该方法计算的信息熵的准确度及主题相关信息块与主题无关信息块之间的区分度优于其它方法.  相似文献   

6.
研究基于CURE聚类的Web页面分块方法及正文块的提取规则。对页面DOM树增加节点属性,使其转换成为带有信息节点偏移量的扩展DOM树。利用CURE算法进行信息节点聚类,各个结果簇即代表页面的不同块。最后提取了正文块的三个主要特征,构造信息块权值公式,利用该公式识别正文块。  相似文献   

7.
现有的半结构化网页信息抽取方法主要假设有效数据间具有较强结构相似性,将网页分割为具有类似特征的数据记录与数据区域然后进行抽取。但是存有大学科研人员信息的网页大多是人工编写填入内容,结构特征并不严谨。针对这类网页的弱结构性,提出了一种基于最近公共祖先(lowest common ancestor,LCA)分块算法的人员信息抽取方法,将LCA和语义相关度强弱的联系引入网页分块中,并提出了基本语义块与有效语义块的概念。在将网页转换成文档对象模型(document object model,DOM)树并进行预处理后,首先通过向上寻找LCA节点的方法将页面划分为基本语义块,接着结合人员信息的特征将基本语义块合并为存有完整人员信息的有效语义块,最后根据有效语义块的对齐获取当前页面所有关系映射的人员信息。实验结果表明,该方法在大量真实的大学人员网页的分块与抽取中,与MDR(mining data records)算法相比仍能保持较高的准确率与召回率。  相似文献   

8.
有很多不同的分块算法都可以对web网页进行分块.研究分块的1/1的是为了相关领域进一步研究的需要。例如通过页面块内容的重要程度研究基于块的搜索、定位网页的重要主题或内容,研究网页主要内容或主题的抽取,以及基于Web页面分块的Web存档等。首先给出Web页面分块问题定义和分类,并对几种典型的分块算法进行原理剖析,为进一步研究web页面分块问题提供一些有益的参考。  相似文献   

9.
随着移动上网业务的日益发展,人们迫切希望能够通过手持终端设备访问丰富的Web内容。同时,由于手持终端设备存在着多方面的局限性,使得必须对所要访问的Web页面进行转换处理。本文提出了一种新的内容分块算法,能够智能化地通过分析内容关系对Web页面信息进行分块和抽取,使得手持终端设备用户能够快速、高效地访问Web内容。  相似文献   

10.
针对Web信息抽取主要依据内容进行抽取的思想,通过对基于本体的Web信息抽取技术的分析,在对网页进行预处理的过程中引入网页分块思想。通过网页分块技术准确提取出所需信息的抽取区域,再根据本体抽取规则对得到的抽取区域进行处理,最终得到需要的信息。实验验证了改进的基于本体的Web信息抽取算法具有更高的准确率和召回率,具有良好的应用前景。  相似文献   

11.
企业应用集成(EAI)不可避免的要整合各种异构的数据资源,同时还需要集成业务过程,而JCA则是一种较好的基于J2EE的解决方案。针对现有JCA规范还不成熟、难于使用的问题,主要从企业应用集成的角度对该架构作了一定的扩展,以满足EAI过程中的高可用性和松耦合要求。  相似文献   

12.
为提高高等院校的管理水平和决策水平,充分利用校园网资 源,开发了高等院校行政财政分析与决策系统。解决了诸如数据的动态查询、自动生成报表 、网络环境下数据共享等技术问题,具有网上数据共享、图形界面友好和安全的保密措施等 特点。  相似文献   

13.
The deep connection between the Burrows–Wheeler transform (BWT) and the so-called rank and select data structures for symbol sequences is the basis of most successful approaches to compressed text indexing. Rank of a symbol at a given position equals the number of times the symbol appears in the corresponding prefix of the sequence. Select is the inverse, retrieving the positions of the symbol occurrences. It has been shown that improvements to rank/select algorithms, in combination with the BWT, turn into improved compressed text indexes.  相似文献   

14.
Geometer Marcus the Marinite explores how the geometric and harmonic means can be employed compositionally within a frame; how means function in the development of organizational field grids; how means work to develop linear perspective and proportional grids.  相似文献   

15.
为发现我国国家标准与国外发达国家标准法规的差距,从根本上提高我国国家标准的总体质量,提升我国产品的质量安全水平,以关键指标(因子)为核心,研究国内外标准法规比对的工作流程,利用面向对象的方法设计,实现了国内外标准法规比对分析系统。该系统适用于所有产品国内外标准法规的比对工作。  相似文献   

16.
This article, first of all, supports the idea that the undeniable process of ICT-based technological convergence implies the social, cultural and business unification of the world of media and culture. The poor performance of the megamerger is a clear indicator of the unstable ground of the convergence hypothesis. Secondly, it argues in favour of cooperation between different expertise, skills and cultures to make multimedia products or to supply multimedia services, instead of creating from scratch a brand new class of hybrid skills and professions. Thirdly, a variety of new possible and realistically achievable professional profiles in cultural industries and institutions are illustrated. Eventually a set of public policies, in the light of a new role for cities and regions, is developed. Correspondence and offprint requests to: Francesco Garibaldo, Fondazione ‘Istituto Per il Lavoro (IPL)’, via Marconi 8, 40122 Bologna, Italy. Email: f.garibaldo@ipielle.emr.it  相似文献   

17.
PDM产品实施过程中一项重要工作是系统集成与客户化定制。对Teamcenter Engineering(简称Teamcenter)与NX系统集成客户化定制中业务建模、属性映射等相关技术进行了研究,提出了Teamcenter与NX集成客户化定制的技术思路,并以客户化定制NX工程图纸标题栏为例,介绍了Teamcenter与NX集成定制实现的关键步骤及方法。  相似文献   

18.
19.
软件项目开发中,其设计思想有以前的面向过程到面向对象,程序的规模和需要处理的逻辑越来越复杂,面向对象技术有时也显苍白无力。组件化的编程思想很好地解决了以上矛盾,以常用黑白打印机为例。  相似文献   

20.
分析了珠江三角洲农业地质与生态地球化学调查评价信息系统的建设目标,遵循软件工程理论和面向对象方法,设计了该系统的体系结构和功能,并基于MAPGIS7.0和Microsoft.NET平台实现了该系统,最后研究了系统建设中的数据组织与存储、GIS数据加载与显示以及评价模型的实现三个关键问题。为其他类似GIS系统的建设提供参考或借鉴。
Abstract:
Based on an analysis of objectives of developing Pearl River Delta agro-geological and eco-geochemical survey and evaluation information system (PAESEIS) and following the theories of software engineering and object-oriented methods, this paper generally  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号