首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 234 毫秒
1.
综合考虑关键词、词向量及句法结构对句子相似度计算的影响,将平滑逆频率(smooth inverse frequency,SIF)与依存句法相结合以提高句子相似度计算的精准性。SIF的核心思想为利用加权和去除非信息噪音得到的句向量来计算句子相似度。借助哈尔滨工业大学的语言技术平台,将句子的结构信息添加到句子相似度计算中,通过句子中"词语依存关系"三元组的相似性来度量句子间的相似度。实验结果表明,基于SIF和依存句法的句子相似度计算方法所得的反映准确率和召回率平衡度的指标为84. 4%,与同类的句子相似度计算方法相比,能更为有效衡量句子间的相似程度。  相似文献   

2.
目的针对常用的向量空间模型忽视了文本中的词序和结构信息,影响文本相似度计算的准确度的缺点,提出新的文本案例相似度计算方法。方法将文本表示粒度由词提高到句子,加入词序信息。结果提出了句子向量空间模型及基于该模型的文本案例相似度计算方法。结论这种方法更符合人类理解的模式,提高了文本案例相似度计算的准确度。  相似文献   

3.
文本相似度的计算是文本挖掘的基础。传统的基于向量空间模型(VSM)的文本相似度计算方法把文本映射成词向量,再利用余弦距离公式来计算相似度,这样存在文本向量维数过高以及语义敏感度差的问题。针对以上问题,通过对词性以及权值大小的过滤可以缩减特征词规模,在一定程度上可以减少高维稀疏的情况发生,并且引入LDA模型的文本隐含主题特征,增加文本表示的语义背景,通过线性加权的方式结合VSM模型的特征词特征和LDA模型的主题特征,计算文本相似度。实验表明,与单独使用VSM模型和LDA模型比较,利用加权特征计算文本相似度有着更好的效果。  相似文献   

4.
相似词分析是自然语言处理领域的研究热点之一,在文本分类、机器翻译和信息推荐等领域中具有重要的研究价值和应用意义。针对新浪微博短文本的特点,给出一种带词性的连续词袋模型(POS-CBOW)。该模型在连续词袋模型的基础上加入过滤层和词性标注层,对空间词向量进行优化和词性标注,通过空间词向量的余弦相似度和词性相似度来判别词向量的相似性,并利用统计分析模型筛选出最优相似词集合。实验表明,基于POS-CBOW语言模型的相似词分析算法优于传统CBOW语言模型。  相似文献   

5.
特征提取是进行文本情感分析的关键步骤之一,是影响其结果好坏的主要因素。针对网络评论语句中表达形式多变的特点,结合语义相似度计算得到近义词TF-IDF(term frequency—inverse document frequency)权重向量;根据评论语句长短不一的特点,基于OPSM(order-preserving submatrix)双聚类算法挖掘出权重向量中的局部模式;使用改进的Prefix Span算法挖掘分类频繁短语特征,这类特征能有效利用词语的顺序信息,同时也通过词语间隔等限制来提升频繁短语区分情感倾向的能力。最后将该方法用于处理商品评论语料,并进行情感分析任务实验,结果表明所提取的文本特征效果有较大的提升。  相似文献   

6.
语句相似度计算在自然语言处理领域是一项非常重要的实用技术,基于马尔科夫模型的汉语语句相似度计算方法通过对语句进行分词处理、构建特征词向量以及权重值向量的方式实现了语句相似度计算.该方法以关系向量模型为基础,通过深入研究汉语语句的特征,利用前后相邻词的共现对权重值向量进行加权处理,以调整不同特征词的权重.方法重点考虑了关键词词形的相似度,结合了句长、词序等表面信息的相似度,并考虑了同义词的情况.最后采用两种不同的方案与关系向量模型进行了对比实验,结果表明方法可以更好的处理长度差很大的两个语句的相似度计算问题,尤其在检索相关新闻标题时准确率较高.  相似文献   

7.
主观题自动阅卷可以通过计算文本相似度实现.本文从分析文本结构特征的角度出发,在Trie树搜索匹配理论的基础上提出基于相对距离的词序相似度算法,并通过统计回归方法将关键词相似度与词序相似度进行融合得到文本的综合相似度,从而实现主观题自动阅卷.最后,进行了实验,证明通过该方法可以实现在规定场景下基于文本结构特征的主观题自动阅卷.  相似文献   

8.
现有的句子相似度计算方法仅考虑句子的依存关系或者组成句子的词性、词序、词义等信息,没有考虑到整个句子的语义信息,文章提出了一种基于语义扩展的句子相似度计算方法,解决了句子相似度计算时忽略句子语义的问题。利用搜索引擎对句子语义扩展,从而将简短的句子转化为长文本,然后使用主题模型对长文本进行特征提取,即将句子的相似度计算转化为求两个句子的语义间的差别运算。实验结果表明,基于语义扩展的句子相似度计算准确率能达到87%,而且计算结果符合常识判断。  相似文献   

9.
提出了改进的文本相似度计算方法,在计算文本的相似度时,赋予不同文本块中的句子不同的权值,同时直接去掉短句子和合并高相似度的句子以精简句子包中句子数量以提高运算速度.改进后的文本相似度计算方法为:先根据句子相似度的计算方法计算句子的相似度,再计算文本块的相似度,最后按照文本块的权值计算整个文本的相似度.经试验证明,改进后的算法在文本召回率、准确率和F1值上都有明显的提高.  相似文献   

10.
为提高信息检索中检索结果的查准率,提出了基于句法分析以及带权路径长度的句子相似度计算方法。该方法首先对用户问句进行了分词、词性标注以及句法分析处理,并根据处理后的结果对该句进行了关键词提取、加权和同义词近义词扩展处理。然后提出了基于带权路径长度计算的方法,并用该方法计算用户问句与检索信息标题句之间的相似度,即问句的带权路径长度与标题句的带权路径长度的相对比值,以此对检索结果进行二次排序,提高检索结果查准率。实验表明,该句子相似度方法能有效地提高信息检索中检索结果的查准率。  相似文献   

11.
为解决中文网页主题特征项抽取不精确的问题, 对中文网页的主题特征项抽取算法进行了研究。网页的主题特征项抽取是主题网络爬虫进行网页相关度计算的基础, 结合主题网页的二分类情况对目前常用的文本特征项加权方法TF-IDF(Term Frequency-Inverse Document Frequency)进行了改进, 在此基础上结合网页的半结构化特征, 综合考虑特征项的位置信息及其包含的信息量, 提出了一种线性特征项加权计算方法。经实验验证, 该方法可有效提高主题网页的召回率和准确率。  相似文献   

12.
首先, 在句子组织信息之间的结合度及基于规则、 词性和词序对句法分析系统影响的基础上, 提出一种基于规则的语句分析识别算法, 能在大量文本中快速识别出正确句式; 其次,在基于语句分析识别算法的基础上, 提出一种基于规则与句法合成的层次化语句分析识别算法, 以提高层次化句式识别检错的精度. 实验结果表明, 该算法平均精确率和平均召回率分别为84.65%和77.15%, 相比于只基于规则的语句识别算法分别提高了11.79%和14.48%, 证明了规则与句法合成的层次化语句分析识别的可行性.  相似文献   

13.
首先, 在句子组织信息之间的结合度及基于规则、 词性和词序对句法分析系统影响的基础上, 提出一种基于规则的语句分析识别算法, 能在大量文本中快速识别出正确句式; 其次,在基于语句分析识别算法的基础上, 提出一种基于规则与句法合成的层次化语句分析识别算法, 以提高层次化句式识别检错的精度. 实验结果表明, 该算法平均精确率和平均召回率分别为84.65%和77.15%, 相比于只基于规则的语句识别算法分别提高了11.79%和14.48%, 证明了规则与句法合成的层次化语句分析识别的可行性.  相似文献   

14.
首先简单介绍了基于《知网》的词语相似度的计算,指出不足,并对其进行改进,在其计算过程中增加词语褒贬倾向因素.接着给出句子相似度计算步骤:①先分词;②采用匈牙利算法求解最优匹配词语;③用改进的方法计算词语相似度,进而求解句子相似度.最后给出实验结果.结果表明:在词语相似度的计算上考虑其褒贬倾向,将会使计算结果更加合理.  相似文献   

15.
针对现有的中文文本情感分析方法不能从句法结构、上下文信息和局部语义特征等方面综合考量文本语义信息的问题,提出一种基于特征融合的中文文本情感分析方法.首先,采用Jieba分词工具对评论文本进行分词和词性标注,并采用词向量训练工具GloVe获取融入词性的预训练词向量;然后,将词向量分别作为引入Self-Attention的BiGRU和TextCNN的输入,使用引入Self-Attention的BiGRU从文本的句法结构和文本的上下文信息两个方面综合提取全局特征,使用TextCNN提取文本的局部语义特征;最后,将全局特征和局部语义特征进行融合,并使用Softmax进行文本情感分类.实验结果表明,本文方法可以有效提高文本情感分析的准确率.  相似文献   

16.
通过分析中文短文本的特征,提出了一种基于语法语义的短文本相似度算法.该算法结合中文语句语义的相似性以及语句语法的相似性,即计算具有相同句法结构的短文本的相似度以及考虑语句词组顺序对相似度的贡献,对中文短文本相似度进行计算.实验表明,本文提出的算法在中文短文本相似度计算结果上更加接近人们的主观判断并且拥有比较好的精确率与召回率.  相似文献   

17.
基于主题词权重和句子特征的自动文摘   总被引:1,自引:1,他引:0  
为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.  相似文献   

18.
对协同过滤算法中用户相似性计算方面进行优化,在计算用户相似性的公式中添加用户兴趣偏差度作为权重,以提高相似性计算的准确性.通过实验对改进的算法进行了验证,结果表明改进的算法提高了推荐系统的准确度.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号