排序方式: 共有76条查询结果,搜索用时 15 毫秒
61.
基于HTML模式代数的Web信息提取方法 总被引:3,自引:0,他引:3
高效地生成提取Web信息的包装器有着广阔的应用前景,同时也是至今没有得到有效解决的难题.为此,提出了基于HTML文档的模式代数,该代数包括一致模式集等重要概念以及模式的加法运算.在此基础上,提出了一种提取Web信息的新方法,该方法采用在整个训练例子中学习表示各属性提取规则的一致模式集,再由多个模式组成的一致模式集提取数据,适用于提取具有缺省属性、多值属性、属性具有多种不同顺序的袁结构网页和层次结构网页,其有效性在原型系统中通过实验得到验证. 相似文献
62.
63.
64.
本文通过分析视频流中运动对象及轨迹,提出了描述轨迹的数据结构和进行轨迹匹配的算法。 相似文献
65.
为提高网页内容与特定主题之间相关度计算的准确度,提出一种基于领域本体的网页主题相关度计算模型OBWTCCM(ontology based webpage-topic correlation calculation model)。使用领域本体刻画主题,通过计算本体概念间的语义关系提取主题概念并构造主题语义矩阵,将特征词的统计信息与该矩阵相结合计算网页与主题之间的相关度。该模型改进了向量空间模型在相关度计算时对特征词语义层次分析的不足。实际项目应用结果表明,使用该方法计算得到的网页主题相关度与领域专家的判断总体相符,具有较理想的准确度。 相似文献
66.
为解决传统税收风险评估系统紧耦合、灵活性差的问题,提出一种基于四层结构的风险评估模型。该模型包括因子、指标、模型和风险自动发现引擎四层,因子是风险评估模型的最小单位,因子组成指标,指标组成模型,通过计算模型实现风险自动发现。根据风险评估模型的特点,用巴克斯-诺尔范式形式化定义因子表达式、指标取数规则和预警区间的语法规则,应用该规则提出一种高效的风险自动发现算法。采用实际项目验证了该算法的有效性和该模型的可行性。 相似文献
67.
随着在线社交媒体的快速发展和可定位设备的大量普及,地理位置作为社交媒体大数据中一种质量极高的信息资源,开始在疾病控制、人口流动性分析和广告精准投放等方面得到广泛应用.但是,由于大量用户没有指定或者不能准确指定位置,社交媒体上的地理位置数据十分稀疏.针对此数据稀疏性问题,提出一种基于用户生成内容的位置推断方法UGC-LI(user generate content driven location inference method),实现对社交媒体用户和生成文本位置的推断,为基于位置的个性化信息服务提供数据支撑.通过抽取用户生成文本中的本地词语,构建一个基于词汇地理分布差异和用户社交图谱的概率模型,在多层次的地理范围内推断用户位置.同时,提出一个基于位置的参数化语言模型,计算用户生成文本发出的城市.在真实数据集上进行的评估实验表明:UGC-LI方法能够在15km偏移距离准确定位64.2%的用户,对用户所在城市的推断准确率达到81.3%;同时,可正确定位32.7%的用户生成文本发出的城市,与现有方法相比有明显的提高. 相似文献
68.
当今,已是企业战略及其市场地位与信息技术息息相关的时代,很难想象一个现代企业没有完善的信息技术系统的支持,将会如何运转。但是,随着信息技术的发展,企业产生的数据大量地堆积和膨胀,其中很多十分有价值的信息隐藏在其中却不被人们所发现。如何对这些海量的数据进行管理,并从中提取潜在的有价值的信息,成为企业在激烈的市场中占据优势地位的关键点。因此数据挖掘技术应运而生,并且在各个行业领域中应用,取得了广泛和重大的进展。本文即对数据挖掘在金融业的应用情况进行了探讨。 相似文献
69.
使用联合链接相似度评估爬取Web资源 总被引:1,自引:0,他引:1
如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率. 相似文献
70.