首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
主题爬虫的目的在于尽可能准确地获取与特定主题相关的内容。针对主题爬虫主题覆盖率不足和主题相似度计算准确度偏低,提出一种动态主题的主题爬虫框架,对主题关键词进行两重扩展:用同主题的词扩展和词的语义扩展。利用主题爬虫自身主题相关资源收集的功能,不断对语料进行扩充,通过LDA训练得到主题文档来进行主题词库扩展更新。在此基础上,提出一种基于word2vec词向量表示的改进相似度计算模型,用于页面相似度计算和URL优先级排序。通过在真实新闻数据集上的实验表明,提出的爬虫在主题相关度的判断准确度和主题内容收获率上均有较好表现。  相似文献   

2.
主题网络爬虫是垂直搜索引擎的重要组成部分,传统主题爬虫的网页内容相似度算法只考虑词频,忽略了关键词的位置信息。本文在分析基于网页内容相似度的主题爬虫的基础之上,提出利用网页HTML标签的特点改进相似度的计算方法。实验结果表明,改进算法抓取的平均准确率为64.99%,相比原始方法提高了15.37%。  相似文献   

3.
针对聚焦爬虫主题描述精确度和主题相似度计算准确度偏低造成的主题覆盖率不足和爬取准确度偏低的问题,提出一种主题自适应聚焦爬虫方法。对每次迭代爬取的主题相关文档集建立LDA模型,提取模型热点词,更新主题关键词集及其权重。引入基于Word2vec的主题相似度计算模型,结合文档内容以及锚文本内容词项的语义相似度和TF-IDF值计算链接优先级,引导爬虫抓取主题相关的网页。与基于语义检索的聚焦爬虫和基于向量空间的聚焦爬虫相比,主题自适应聚焦爬虫在主题覆盖率和爬取准确度方面性能更优。  相似文献   

4.
基于LDA主题模型的文本相似度计算   总被引:1,自引:0,他引:1  
王振振  何明  杜永萍 《计算机科学》2013,40(12):229-232
LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。  相似文献   

5.
在搜索引擎、问答系统中利用深度学习的方法计算问题相似度是NLP领域研究的热点。结合卷积神经网络(CNN)和长短记忆网络(LSTM),提出了递归卷积神经网络(RCNN)问句相似度的计算方法,首先利用双向递归神经网络提取上下文信息,然后采用1D卷积神经网络将词嵌入信息与上下文信息进行融合;再利用全局最大池化提取关键信息来完成问句的语义表示;最后通过匹配层判断问句对的相似度。在Quora Question Pairs数据集上的实验结果表明,该相似度计算方法准确率为83.57%,优于其他方法。  相似文献   

6.
王景中  邱铜相 《计算机应用》2015,35(10):2901-2904
针对传统的TF-IDF算法、K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。  相似文献   

7.
近年来,LDA(Latent Dirichlet()al.location)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。  相似文献   

8.
针对传统主题爬虫方法容易陷入局部最优和主题描述不足的问题,提出一种融合本体和改进禁忌搜索策略(On-ITS)的主题爬虫方法。首先利用本体语义相似度计算主题语义向量,基于超级文本标记语言(HTML)网页文本特征位置加权构建网页文本特征向量,然后采用向量空间模型计算网页的主题相关度。在此基础上,计算锚文本主题相关度以及链接指向网页的PR值,综合分析链接优先度。另外,为了避免爬虫陷入局部最优,设计了基于ITS的主题爬虫,优化爬行队列。以暴雨灾害和台风灾害为主题,在相同的实验环境下,基于On-ITS的主题爬虫方法比对比算法的爬准率最多高58%,最少高8%,其他评价指标也很好。基于On-ITS的主题爬虫方法能有效提高获取领域信息的准确性,抓取更多与主题相关的网页。  相似文献   

9.
邱先标  陈笑蓉 《计算机科学》2018,45(Z6):106-109, 139
计算文本的相似度是许多文本信息处理技术的基础。然而,常用的基于向量空间模型(VSM)的相似度计算方法存在着高维稀疏和语义敏感度较差等问题,因此相似度计算的效果 并不理想。在传统的LDA(Latent Dirichlet Allocation)模型的基础上,针对其需要人工确定主题数目的问题,提出了一种能通过模型自身迭代确定主题个数的自适应LDA(SA_LDA)模型。然后,将其引入文本的相似度计算中,在一定程度上解决了高维稀疏等问题。通过实验表明,该方法能自动确定模型主题的个数,并且利用该模型计算文本相似度时取得了比VSM模型更高的准确度。  相似文献   

10.
主题网络爬虫研究中一个重要问题是文本特征的提取,其好坏会直接影响主题特征的提取及网页的相关性计算。在研究了文本分类特征提取方法的基础上,分析优势率特征提取方法的优缺点,把频度、分散度作为判断要素加以考虑,提出一种改进的二元分类特征选择方法EOR,并使用得到的EOR值结合词频TF即TF—EOR来计算文档特征词的权重,应用于主题网络爬虫。仿真实验证明,EOR在中低维数下能提升文档分类准确率达5%,而TF—EOR权重计算方法好于TF-IDF方法,实验中提高了网络爬虫的抓取准确率和查全率达4%。  相似文献   

11.
针对于传统方法中存在的文本特征表示能力差、模型主题识别准确率低等问题,提出一种融合SENet与卷积神经网络的文本主题识别方法。将每个词对应的Word2vec词向量与LDA主题向量进行融合,并依据词语对主题的贡献度完成文档加权向量化处理;构建SECNN主题识别模型,使用SENet对卷积层输出的特征图进行权值的重标定,依靠其提升重要特征并抑制无用特征的性能,高效地进行主题识别;使用FDA评估样本的类别表征能力,提出FDA-SGD算法对模型参数进行调优,完成文本主题识别任务。使用新闻文本数据集验证改进算法的有效性,通过与传统模型对比表明,改进算法可以有效提高模型的收敛速度,具有较好的主题识别能力。  相似文献   

12.
腹部动脉血管分割对于胃癌淋巴结的转移和肝动脉变异类型的判断至关重要。针对腹部动脉血管分割精度低、易断裂等问题,提出一种改进卷积网络架构的腹部动脉分割方法。卷积网络的编码部分使用带有卷积注意的预训练模块(resnet34),避免了梯度消失且可更好地获取图像的特征信息。为了扩大感受野和聚集多尺度特征信息,提出了一种新的多尺度特征融合模块。此外,动脉血管的边缘结构信息的学习至关重要,引入注意力导向滤波作为信息扩展路径,使输出特征更加结构化,提升血管分割的精度。所提方法在腹部动脉血管分割的实验结果表明,与基础网络U-Net相比,所提方法在灵敏度和交并比上分别提升了2.84%和1.19%。与CE-Net网络相比,在灵敏度和交并比上分别提升了1.34%和161%。  相似文献   

13.
为解决采用卷积神经网络对商家招牌进行分类时存在特征判别性较差的问题,通过在注意力机制中引入神经网络,提出一种端到端的深度学习卷积神经网络方法。使用卷积注意力模块分别学习通道注意力与空间注意力信息以增强特征的判别性,利用余弦间隔损失函数增强所提取特征的泛化能力,且可在特征空间中减小类内方差与增大类间间隔。实验结果表明,与基于传统交叉损失函数方法相比,该方法通过将注意力机制模块与余弦间隔损失函数相结合,使得准确率与F1值分别提高2.2和2.0个百分点,达到99.3%和98.6%。  相似文献   

14.
现有深度残差网络作为一种卷积神经网络的变种,由于其良好的表现,被应用于各个领域,深度残差网络虽然通过增加神经网络深度获得了较高的准确率,但是在相同深度情况下,仍然有其他方式提升其准确率.本文针对深度残差网络使用了三种优化方法:(1)通过卷积网络进行映射实现维度填充;(2)构建基于SELU激活函数的残差模块(3)学习率随迭代次数进行衰减.在数据集Fashion-MNIST上测试改进后的网络,实验结果表明:所提出的网络模型在准确率上优于传统的深度残差网络.  相似文献   

15.
由于施工环境的复杂性,基于机器视觉的安全帽识别方法常常出现误检与漏检的情况。为提高复杂环境下安全帽识别的准确率,同时满足实时性要求,提出一种基于视觉感受野特性的轻量化高精度卷积神经网络。该卷积神经网络以RFBnet网络为基础,增加特征金字塔网络模块,使神经网络同时兼顾浅层语义信息和深层语义信息的表示能力,以实现复杂施工环境下不同形态与大小安全帽的识别。采用SE-Ghost模块在保持网络特征提取能力不变的情况下,对主干网络结构进行轻量化。为验证方法的性能,将基于感受野特性的轻量化卷积神经网络和当前主要卷积神经网络进行实验对比,结果表明,所提网络模型的检测准确率较YOLO-v3、RFBnet-300和RFBnet-512网络分别提高了1.60个百分点、3.62个百分点和0.98个百分点,检测速度达到20?frame/s。  相似文献   

16.
传统的基于协同过滤的推荐方法可以挖掘出评分中隐含的特征, 但推荐过程时间长, 且评分矩阵具有稀疏性, 导致样本真实值与预测值间误差较大. 神经网络通过批量训练可以较快计算出对象特征, 卷积神经网络的局部感知与参数共享性使参数个数明显缩减, 利用普通神经网络及卷积神经网络共同实现推荐可使计算时间缩短; 通过调整神经网络的参数, 为卷积神经网络设计合理的特征向量和卷积核大小, 可以提升推荐速度和推荐准确性. 实验表明, 使用神经网络结合卷积神经网络进行推荐的方法能使推荐的绝对误差均值下降至0.67以下, 大幅提升推荐的准确性及有效性.  相似文献   

17.
传统的池化方式会造成特征信息丢失,导致卷积神经网络中提取的特征信息不足。为了提高卷积神经网络在图像分类过程中的准确率,优化其学习性能,本文在传统池化方式的基础上提出一种双池化特征加权结构的池化算法,利用最大池化和平均池化2种方式保留更多的有价值的特征信息,并通过遗传算法对模型进行优化。通过训练不同池化方式的卷积神经网络,研究卷积神经网络在不同数据集上的分类准确率和收敛速度。实验在遥感图像数据集NWPU-RESISC45和彩色图像数据集Cifar-10上对采用几种池化方式的卷积神经网络分类结果进行对比验证,结果分析表明:双池化特征加权结构使得卷积神经网络的分类准确率有很大程度的提高,同时模型的收敛速度得到进一步提高。  相似文献   

18.
针对微博用户兴趣随时间变化的特征,提出一种基于模糊关联规则的潜在兴趣发现方法(PIDFAR),利用LDA主题模型表达微博主题分布,通过时间加权的方式计算出用户现在兴趣的主题分布,进行模糊关联规则挖掘,得出关联规则集合以表示和发现用户兴趣随时间发生变化的一般规律,最后根据关联规则集合中关联规则和用户现在兴趣的主题分布来计算相似度,取相似度较高的关联规则的后项的集合组成用户的潜在兴趣.实验表明, PIDFAR方法能够使得用户潜在兴趣的发现过程脱离用户的好友群体限制,相比基于协同过滤技术的潜在兴趣发现方法明显提高了发现微博用户潜在兴趣的准确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号