首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
在非结构化数据挖掘结构模型——发现特征子空间模型(DFSSM)——的运行机制下,提出了一种新的Web文本聚类算法——基于DFSSM的Web文本聚类(WTCDFSSM)算法.该算法具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪声能力强.结合现代远程教育网应用背景实现了WTCDFSSM聚类算法.结果表明:该算法可以对各类远程教育站点上收集的文本资料信息自动进行聚类挖掘;采用网格结构模型,帮助人们进行文本信息导航;从海量文本信息源中快速有效地获取重要的知识.  相似文献   

2.
谣言检测是对社交网络上传播的信息内容进行真实性鉴别的任务.一些研究表明融合多模态信息有助于谣言检测,而现有多模谣言检测方法具有以下问题:(1)只是将处于不同表示空间的单模态特征简单拼接形成多模态表示,没有考虑多模态之间的关系,难以提高模型的预测性能和泛化能力.(2)缺乏对社交网络数据组成结构的细致考虑,只能处理由文本-图像对的社交网络数据,无法处理由多幅图像组成的数据,且当其中一种模态(图像或文本)缺失时模型无法进行预测.针对上述问题,本文提出了一种多任务多模态谣言检测框架(MMRDF),该框架由3个子网络组成:文本子网络、视觉子网络和融合子网络,通过从单模态数据中提取浅层至深层的单模特征表示,在不同的子空间中产生特征图,丰富模态内特征,并通过复合卷积结构融合生成联合多模态表示,以获得更好的预测性能.同时该框架可以灵活地处理所有类型的推文(纯文本、纯图像、文本-图像对和多图像文本),并且没有引入造成额外时间延迟的传播结构、响应内容等数据作为输入,可以在推文发布后立即应用于谣言检测,减少辟谣的时间延迟.在两个真实数据集上的实验结果表明,所提框架明显优于目前最先进的方法,准确率上的提升分别...  相似文献   

3.
从Web上异质的、非结构化的数据中发现有用的知识或者模式是目前数据挖掘研究中的一个重要内容。Web挖掘就是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息。介绍了Web挖掘基本情况,在此基础上对基于Web的文本挖掘进行了分析研究,给出了一个基于Web的文本挖掘的结构模型图。重点介绍了网页聚类算法,实现了远程教学的按需学习和因材施教的要求。提出了一个基于Web挖掘的智能化、个性化的现代远程教育系统结构模型。  相似文献   

4.
1:Web上有大量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点,本文构建了基于Agent的Web文本挖掘模型,并详细阐述了该模型的结构和工作机理。  相似文献   

5.
随着"智能油田"的建设加快,构建基于海量石油数据的智能分析系统意义重大。然而,由于石油生产过程中产生的文本数据往往无结构且类型多样,从中抽取关键信息进行分析成为一个研究热点,而信息抽取又需要高质量的语义实体做支撑。根据这一特定问题,提出基于命名实体识别(Named Entity Recognition,NER)技术针对石油非结构化文本进行信息抽取,构建双向长短时记忆(Bidirectional Long Short-Term Memory,Bi LSTM)网络模型提取语料特征,并结合条件随机场(Conditional Random Field,CRF)做分类器,构建了基于Bi LSTM+CRF的高精度NER模型,针对石油工业领域的非结构化文本进行命名实体抽取。通过在修井作业文本数据集上进行对比实验表明,本方法具有较高的精确率和召回率。  相似文献   

6.
针对复杂背景下手势分割提取效果不佳、图像识别率不高、识别困难等问题,研究多特征融合的快速手势识别方法.利用YCbCr颜色空间模型,构建肤色分布模型,从复杂背景中去除大部分非肤色的干扰,从而实现手势分割;接着采用5层栈式稀疏自编码网络框架,分别提取手势感兴趣区域(region of interest,ROI)的纹理图像、形状图像和显著视觉图像作为自编码网络输入,将提取到的不同类型的特征进行线性融合;最后使用基于径向基核函数(radial basis function,RBF)的支持向量机(support vector machine,SVM)分类器进行融合特征数据分类,从而实现不同类型的手势识别.实验结果表明,相比其他手势识别方法,本文方法识别率较高,提取特征更具有代表性,平均识别率可达95.05%.   相似文献   

7.
制造业在设计、生产、销售和服务环节中产生了文本、图像、音视频等海量多源异构数据,高效地管理与利用这些数据资源为制造业再生产创造价值是当前制造企业面临的重大难题.传统的数据存储与检索系统将多模态数据按不同形式或模态进行分类并单独处理,导致不同模态的数据之间缺乏语义关联(文本、图像、音视频数据之间无法互检),无法支持制造企业的设计、服务等业务流程的智能化.设计并实现了一种面向文本、图片等多源异构数据的跨模态存储与检索系统,实现智能制造多源异构数据的高效管理与检索.具体地,该系统将制造企业生产运营过程中产生的多源异构数据投影到统一的高维语义空间进行表示产生语义向量,并按不同的查询需求将数据存储到不同的模式中;其次,该系统设计了三级结构+分层联通朴素构图算法的高效检索方法,将多源异构数据按照语义向量进行索引,以满足制造业用户的语义查询需求.在flickr30k数据集上进行了实验,实验结果表明:(1)该系统可支持百万级别的跨模态数据存储与检索;(2)百万级别数据下系统检索速率为毫秒级;(3)检索的正确率比现有的向量检索方法更高.  相似文献   

8.
Web数据挖掘技术探讨   总被引:4,自引:0,他引:4  
李睿  李明 《甘肃科技》2001,17(3):42-43
1 引言 WWW(world wide web)技术的日渐成熟,使基于这一技术的应用以惊人的速度向社会生活的方方面面渗透:从教育、科研机构间的信息与服务的交流与共享,公司、企业内部分布协同工作的管理到传统商务模式向电子商务的转型,从而使人类交互信息不可避免地电子化和海量化。以Web服务器日志为例,某些Web热点的日志数据正以每天数十兆的速度增长。从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等),是数据挖掘与知识发现的又一重要研究和应用领域。2 Web挖掘概念 Web挖掘是一项综合技术,涉及Web技术、数据挖…  相似文献   

9.
为了实现协同产品开发中的知识共享,在开放式标准的基础上,提出了一种基于特征模型和网络(Web)服务的工程知识库共享机制.以各类工程数据库、专家知识等作为底层资源而建立工程知识库,并将知识库中的知识对外包装成标准的Web服务;同时,提出了基于异构计算机辅助(CAX)系统特征的产品模型数据转换方法,并将其转换为可扩展标记语言(XML)表述而作为平台无关的信息集成方式;将产品模型的XML表述作为输入,利用Web服务的发布、发现与共享机制来选用合适的Web服务而获取相关的领域知识,以对产品模型进行评估与优化.结果表明,所得数据可以在产品模型和Web服务之间进行交互与转换,可实现高效的知识共享.  相似文献   

10.
基于典型相关性分析的跨媒体检索是一种将不同媒体特征通过相关性分析映射到同构的最大相关子空间,并在子空间中完成跨媒体数据间的相似性比较和检索的方法.典型相关性分析(canonical correlation analysis,CCA)是一种线性模型,并不能很好地挖掘跨媒体数据中的复杂相关关系.为此针对深度典型相关性分析(deep CCA,DCCA)的结构进行改进,使用隐含狄利克雷分布(latent Dirichlet allocation,LDA)发现文本语义信息并学习语义映射,提出了跨媒体深度相关性学习模型(cross-media correlation learning with deep canonical correlation analysis,CMC-DCCA)以及跨媒体语义相关性检索方法(cross-media semantic correlation retrieval,CMSCR).在维基百科文本图像数据集上的实验证明,CMC-DCCA模型能够较好地挖掘跨媒体数据中的复杂相关关系,CMSCR在跨媒体检索中具有较好的性能.  相似文献   

11.
基于空间句法的城市空间形态量化分析是一种通过建立数字模型进行空间分析的方法,这种方法可以客观描述各类型城市空间的发展状态和存在的问题,结合相关数据可进一步分析影响城市空间形态变化的深层次原因。运用空间句法理论中的轴线法构建张家口市线段网络模型,并通过GIS对张家口市14 394个POI兴趣点进行点密度分析,用于检验线段网络模型的合理性,在此基础上借助Depthmap软件平台对张家口市区空间的整合度、协同度和选择度进行量化分析。结果表明张家口城市空间形态具有以下特征:(1)部分片区周边空间过于复杂,步行体验有待提高;(2)主城区核心突出,有逐步形成南北双核心的趋势;(3)道路交通南松北紧,部分道路交通可达性较差;(4)城市边界形态逐渐向南北扩张,且南部新城扩张速度快于北部老城。  相似文献   

12.
针对医生主观因素会影响COVID-19(新型冠状病毒感染)和CAP(社区获得性肺炎)类型计算机断层(Computed Tomography,CT)图像诊断准确性的问题,提出一种基于MobileNetV2网络改进的MobileNetV2-SELN结构.首先,对MobileNetV2结构中的Block模块进行改进,添加SE块和尺度注意力机制,并引入全连接层和全局池化以便于获取多尺度特征;然后,针对COVID-19图像和CAP图像相似度大的特点,用GroupNorm替代BatchNorm2d,使模型能更好地获取肺炎特征;最后,使用SGD优化器对模型进行优化.实验结果表明,提出的模型的分类准确率更高.  相似文献   

13.
通过对传统方法进行分析,引入语义网络的知识表示方法,将面向对象技术与超媒体方法相结合,提出了一个基于知识的多媒体创作模型(KAM),给出了KAM模型的形式化定义,并对该模型的结构进行了讨论。KAM模型具有以下特点:(1)支持结构与内容的分离:(2)支持复合机制;(3)基于语义的导航,有效地避免了在交互性系统中的迷路问题;(4)独立的链服务功能和管理功能,保持系统的开放性、可扩充性。  相似文献   

14.
知识抽取任务是从非结构化的文本数据抽取三元组关系(头实体-关系-尾实体)。现有知识抽取方法分为流水式方法和联合抽取方法。流水式方法将命名实体识别和实体知识抽取分别用各自的模块抽取,这种方式虽然有较好的灵活性,但训练速度较慢。联合抽取的学习模型是一种通过神经网络实现的端到端的模型,同时实现实体识别和知识抽取,能够很好地保留实体和关系之间的关联,将实体和关系的联合抽取转化为一个序列标注问题。基于此,本文提出了一种基于字词混合和门控制单元(Gated Recurrent Unit,GRU)的科技文本知识抽取(MBGAB)方法,结合注意力机制提取中文科技资源文本的关系;采用字词混合的向量映射方式,既在最大程度上避免边界切分出错,又有效融入语义信息;采用端到端的联合抽取模型,利用双向GRU网络,结合自注意力机制来有效捕获句子中的长距离语义信息,并且通过引入偏置权重来提高模型抽取效果。  相似文献   

15.
Web文本分类是Web文本挖掘的一项重要技术,它是一种基于主题分类的指导,能够使用户在快速地找到想要的资源和知识。文本分类过程中,首先采用向量空间模型对Web文本进行特征提取,然后将得到的数据集分成样本数据集和测试数据集,将样本数据集输入BP神经元网络进行分类,网络经过训练后,输入测试数据集进行验证。实验结果证明BP神经元网络在文本分类领域有着较好的实用价值。  相似文献   

16.
基于命名实体的Web新闻文本分类方法   总被引:1,自引:0,他引:1  
文章对Web新闻领域的文本自动分类问题进行了研究,提出一种基于新闻实体要素的分类方法;在应用空间向量模型的基础上,充分考虑命名实体对Web新闻文本分类的特殊作用,并进行了实验.实验结果表明,以新闻实体要素为特征的文本分类系统可得到较高的分类精度,该方法具有一定的实用价值.  相似文献   

17.
首先研究了基于向量空间模型的网站文本特征建模技术,同时根据实际网络的复杂程度和分类特点,采用支持向量机(support vector machine,SVM)来构造分类器。网站分类实验结果表明这种基于SVM的分类器具有模型简单、分类准确性较高等优点,具有较好的网站分类适用性。  相似文献   

18.
基于现代集成制造的理念、方法、技术、工具,结合实践,提出并研究了一种能改善复杂产品研发时间(T)、质量(Q)、成本(C)、服务(S)的系统工程——称为“复杂系统(产品)集成制造工程”(简称COSIME)。阐述了它的内涵、系统框架和技术体系,并给出了其中具有特点的6类关键技术的阶段研究成果,包括基于人制管理及有关先进制造模式的复杂产品集成制造系统的经营管理模式;基于项目管理理念的异地企业间并行工程方法与技术;复杂产品虚拟样机工程方法与技术;基于分布仿真技术的复杂产品概念设计与性能评估系统;复杂产品质量控制与  相似文献   

19.
基于Web的新闻文本分类技术的研究   总被引:1,自引:0,他引:1  
从Web新闻网页中挖掘出有用的知识是当前研究的热点问题,将Web新闻网页进行解析,在此基础上进行Web新闻文本分类处理,可在一定程度上解决此问题.针对Web新闻网页的结构特点,提出了基于Web的新闻文本分类系统的实现框架.实验结果表明,基于KNN算法的分类系统具有较好的分类效果.  相似文献   

20.
迄今为止,基于日志的异常检测研究已经取得了很多进展,然而,在现实条件下仍旧存在两个挑战:(1) 是日志数据通常以“数据孤岛”形式储存在不同的服务器上,单一公司或组织的日志数据中异常样本量不足,且异常模式较为固定,很难通过这些数据训练出一个准确率高的检测模型. 为了解决这个问题,将不同来源的日志数据整合成更大的数据集可以提高模型训练的效果但可能会在数据传输过程中产生日志数据泄露问题;(2) 是不同应用系统类型的日志数据通常在结构和语法上存在差异,简单地整合并用于训练模型效果不佳. 基于以上原因,本文提出一种基于联邦迁移学习的日志异常检测模型训练框架LogFTL,该框架利用基于匹配平均的联邦学习算法,在保证客户端数据隐私安全的前提下于服务器聚合客户端的模型参数形成全局模型,再将全局模型分发给客户端并基于客户端的本地数据进行迁移学习,优化客户端本地模型针对自身常见异常行为的检测能力. 经过实验表明,本文提出的LogFTL框架在联邦学习场景下效果超过了传统的日志异常检测方法,同时也证明了该框架中迁移学习的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号