首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
在作文评测中,句间逻辑合理性是评价语言运用能力的一项重要指标。从句间连贯性角度出发,采用句子排序的相关算法研究句间词汇中的潜在关联,并对作文段落逻辑合理性进行定量分析,达到对作文段落逻辑合理性等级评测的目的。以计算条件熵为基础,使用马尔科夫随机游走模型进行句子排序;计算过程中融入word2vec和同义词词林进行语义扩展;经ROUGE-L评分,该模型取得了较好的效果。提出带优化的句间逻辑合理性评测模型,实验证明其能够取得最优的效果。建立ROUGE-L分值与由专家评判的段落句间逻辑合理性等级的对应关系,确定ROUGE-L与逻辑合理性等级判定的分类边界,为辅助中文作文智能评测提供了新思路。  相似文献   

2.
在传统基于关键词属性、情感属性和位置属性提取关键句的文本情感倾向性研究的基础上,提出一种融合全局特征和自身特征双窗口的加权TextRank关键句提取算法(WTTW算法),使用soft_voting对提取的关键句进行情感倾向性分析的方法。从全局特征出发通过关键词特征、位置特征、句子之间的相似度加权求和构建窗口为2的TextRank图模型,即将整个文本作为一个单元,设置长度为2的滑动窗口,从第一句至最后一句顺序进行滑动窗口建立图模型,迭代得到各句子的得分;再根据句子情感特征和标点特征对句子得分进行调整,得到关键句;使用soft_voting对提取的关键句进行情感倾向性分析。在四个不同领域进行实验,实验结果表明,该方法在各种评价指标下均显著优于baseline,具有高效性。  相似文献   

3.
《计算机工程》2017,(8):219-224
为了在大量的新闻中快速找到自己感兴趣的内容,提出在单文档中基于加权TextRank算法提取主题句的方法,以得到新闻关键事件信息。通过计算新闻文本句子关键词的互信息值,对新闻报道进行事件句和非事件句的分类,过滤出非事件句。基于TextRank算法的思想,构建一个事件句有向图,引入句子位置、句子相似度和关键词覆盖频率3个影响因子,以此计算句子之间的影响权重,利用TextRank模型对图中的每个点计算权重,并选取排序最靠前的句子作为关键事件的主题句。实验结果表明,该方法的抽取效果优于基于词频-逆文档概率和新闻标题的主题句抽取方法。  相似文献   

4.
文本分类一直是自然语言处理任务的研究重点与热点,且被广泛应用到诸多实践领域。首先,该文针对文本分类过程中缺乏层次结构特征的问题,对NMF-SVM分类方法进行优化,利用优化后的分类标签构建树形层次模型,从特征树中提取层次特征;其次,针对关键词与非关键词对分类结果影响程度不同的问题,提出SEAN注意力机制,通过对时间、地点、人物和事件四要素的提取,得到不同词之间的注意力;最后,针对句子间亲和度不同的问题,考虑不同句子的四要素词和语义层面的影响提出句间亲和度计算模型。该文算法适用于四要素突出的数据集,如新闻、小说、阅读理解、微博,在新闻类数据集上与同类别的深度学习文本分类模型以及包含注意力机制的混合模型进行了对比,实验结果表明,该算法在分类效果上具有一定优势。  相似文献   

5.
在研究区分性关键词提取方法的基础上,对维吾尔语中的生气和高兴等常见情感类型进行基于文本句子的情感分类研究。结合维吾尔文本句子中的情感表达特点,以词频和文档频率作为基本统计量,通过计算同一词语在不同组合统计量下的类间差异得到区分性关键词,并基于这些关键词进行特征提取和区分性情感模型构建。从维吾尔语电影字幕、小说等文本库中提取生气和高兴2种情感构造实验数据集,并验证所提出的情感分类方法。实验结果表明,基于区分性关键词的建模方法能有效地对维吾尔文本句子进行情感分类。  相似文献   

6.
基于序列的文本自动分类算法   总被引:24,自引:0,他引:24  
解冲锋  李星 《软件学报》2002,13(4):783-789
提出了一种基于序列的文本自动分类算法.该算法利用了文本中两个层次的语义相关性:句子(子模式)之间的相关性和句子内代表特定含义的关键词(概念节点)之间的相关性,这样就实现了对关键词的动态加权.对于不含有关键词的子模式,采用Markov模型来对其信号幅度进行估计,从而生成一个待分类文本的特征序列.在中文文本分类实验中,可以达到83%的BEP值.此外,该算法在实际系统中容易实现.  相似文献   

7.
邓箴  包宏 《计算机与应用化学》2012,29(11):1384-1386
提出了一种基于词汇链抽取,文法分析的抽取文本代表词条的多文档摘要生成的方法。通过计算词义相似度构建词汇链,结合词频与位置特征进行文本代表词条成员的选择,将含有词条权值高的句子经过聚类形成多文档文摘句集合,然后进行质心句的抽取和排序,生成多文档文摘。该方法不仅考虑了词汇之间的语义信息,还考虑了词条对文本的代表成度,能够改善文摘句抽取的性能。实验结果表明,与单纯的由关键词确定文摘的方法相比,召回率和准确率都有不少的提高。  相似文献   

8.
基于N元汉字串模型的文本表示和实时分类的研究与实现   总被引:4,自引:0,他引:4  
该文提出了一种基于N元汉字串特征的文本向量空间表示模型,用这个表示模型实现了一个文本实时分类系统。对比使用词语做为特征的文本向量空间模型,这种新的模型由于使用快速的多关键词匹配技术,不使用分词等复杂计算,可以实现实时文本分类。由于N元汉字串的文本表示模型中的特征抽取中不需要使用词典分词,从而可以提取出一些非词的短语结构,在特殊的应用背景,如网络有害信息判别中,能自动提取某些更好的特征项。实验结果表明,使用简单的多关键词匹配和使用复杂的分词,对分类系统的效果影响是很小的。该文的研究表明N元汉字串特征和词特征的表示能力在分类问题上基本是相同的,但是N元汉字串特征的分类系统可以比分词系统的性能高出好几倍。该文还描述了使用这种模型的自动文本分类系统,包括分类系统的结构,特征提取,文本相似度计算公式,并给出了评估方法和实验结果。  相似文献   

9.
针对使用规则和机器学习方法判别句间关系时出现因机器学习多次迭代而导致规则权值削弱现象,进而导致判别正确率偏低的问题,提出了在规则和机器学习相结合过程中对导入的明显规则特征进行加强处理的方法。首先,抽取依存词汇、语义、句子结构等具有明显规则的特有特征;然后,基于一些句间关系指示词提取普适的特征;其次,将特征写入待输入的数据向量,并且增加一维向量用来存储出现的明显规则特征;最后,运用LIBSVM模型结合规则和机器学习进行实验。实验结果表明,加强后的实验正确率较之加强前平均提高了两个百分点,各句间关系准确率、召回率、F1值整体上都取得了较好的结果,平均值达到了82.02%、88.95%、84.76%。实验思路和方法对研究句子间联系紧密度具有重要价值。  相似文献   

10.
谢浩  孙伟 《计算机科学》2013,40(Z11):246-250
句子排序问题是文本自动摘要的核心问题,基于互增强关系(MRP)的基本思想,提出一种新的句子排序模型——段落-句子互增强模型。利用段落关系,通过段落句子的互增强,迭代计算出句子的显著度,抽取出文摘句。分析了模型中的内、外影响因子对算法效果的影响并对冗余处理进行了讨论。实验表明,将其运用在单文本自动摘要中,能取得高质量的文摘。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号