首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 46 毫秒
1.
文本通过自然语言处理的自动化摘要方法以去除冗余,设计了语文作文语料标签智能化提取方式。明确了标签智能化提取效果评估指标,确保提取效果与精确度。以自动化抽取文本摘要方法、词典分词方法、有监督命名实体识别方法为技术框架,设定语文作文语料标签实践运用场景设置评估指标,以此开展测试试验分析。结果表明,基于本文设计的语文作文语料标签智能化提取方式在关键描述层面明显优于传统关键词算法,标签提取效果显著,值得大力推广应用。  相似文献   

2.
随着教育技术与信息技术的融合,实现面向小学生的语文写作自动辅助成为可能。快速自动地进行范文素材的分类入库是实现写作自动辅助的关键。作文素材语义信息丰富、种类较多,若采用现有方法进行自动分类入库操作往往难以取得好的效果。因此,在分析小学作文的类别特征并构建了一个数据集的基础上,提出基于TextRank和字符级卷积神经网络的小学作文自动分类模型。运用基于TextRank的关键句提取模型为范文素材,去除部分冗余的语义信息。应用word embedding对数据集进行文本表示,并将其作为卷积神经网络的输入。通过不断地迭代训练和测试,最终实现了该模型。实验表明了该方法对于作文分类任务能显著地提高分类的性能。  相似文献   

3.
采用了一种综合的文本自动摘要方法来抽取出涵盖范围广、冗余信息少、最能反映文本中心思想的文本摘要.该方法充分考虑文本中的词频、标题、句子位置、线索词、提示性短语、句子相似度等特征因素,构建了一个综合的特征加权函数,运用数学回归模型对语料进行训练,去除冗余句子信息,提取关键句生成摘要.实验评估表明了该方法的可行性、有效性以及在摘要质量方面的优越性.  相似文献   

4.
提出了使用关键词扩展的新闻文本自动摘要方法。该方法从大规模的语料中提取与输入文档相近主题的文本组成背景语料,并基于背景语料进行关键词的扩展,强化关键词对文摘句的指示作用,从而提高新闻文本摘要抽取质量。研究和实验表明,该方法在Rouge-1,Rouge-2评测中取得了优于基于关键词、基于TextRank和基于Manifold Ranking方法的结果。在研究中组织制定了100篇新闻文本的4份中文新闻文本标准评价集,研制了基于关键词扩展的中文新闻文本自动摘要系统,开发了面向中文的基于ROUGE原理的新闻文本摘要结果自动评测系统,初步实现了从理论到实践的转化。  相似文献   

5.
自动文摘是计算机语言学领域的一个研究重点,其研究和应用受到了计算机科学、语言学、情报信息学等相关学科的广泛关注。首先介绍了基于LexRank算法的自动文摘方法。针对该方法的不足,从句子相似度计算方法、句子权重计算方法以及冗余处理等方面对它进行了改进,从而可以根据输入文本内容动态地调整相关影响因子。实现的文摘系统,可以对中文和英文的单文本或多文本进行自动文摘。在哈工大和DUC的测评语料上进行了实验,结果表明该系统在一定程度上改进了文摘的质量,在多文本文摘中的抗噪声方面也有一定的优越性。最后讨论了自动摘要研究存在的问题,并指出了自动文摘的研究趋势。  相似文献   

6.
技术是一种能从海量文本中获取重要信息的方法,它可以缓解大数据时代信息过载的问题.传统基于编码-解码自动摘要模型生成的摘要易出现句内重复、语义无关等现象,不利于读者理解文本的核心思想.受人工摘要书写方式的启发,即先理解文本局部信息,再从全局层面归纳信息、书写摘要,提出一种基于卷积自注意力编码过滤的自动摘要模型(CSAG).模型由编码器、卷积自注意力门控单元、解码器组成,结合卷积神经网络可以提取局部特征,多端自注意力机制可以学习长期依赖关系,模型可以根据上下文的局部和全局特征,从不同角度和不同层面提取文本潜在信息,确保模型生成正确流畅的摘要.然后通过策略梯度强化学习可直接利用不可微的度量指标ROUGE对模型进行优化,避免推理过程中出现曝光偏差问题.在Gigaword数据集上的多组对比实验结果表明,该文提出的模型在自动摘要任务上具有一定的优势.  相似文献   

7.
长文本摘要生成一直是自动摘要领域的难题。现有方法在处理长文本的过程中,存在准确率低、冗余等问题。鉴于主题模型在多文档摘要中的突出表现,将其引入到长文本摘要任务中。另外,目前单一的抽取式或生成式方法都无法应对长文本的复杂情况。结合两种摘要方法,提出了一种针对长文本的基于主题感知的抽取式与生成式结合的混合摘要模型。并在TTNews和CNN/Daily Mail数据集上验证了模型的有效性,该模型生成摘要ROUGE分数与同类型模型相比提升了1~2个百分点,生成了可读性更高的摘要。  相似文献   

8.
直接利用主题模型对地质文本进行聚类时会出现主题准确性低、主题关键词连续性差等问题, 本文采取了相关改进方法. 首先在分词阶段采用基于词频统计的重复词串提取算法, 保留地质专业名词以准确提取文本主题, 同时减少冗余词串数量节约内存花销, 提升保留词的提取效率. 另外, 使用基于TF-IDF和词向量的文本数据增强算法, 对原始分词语料进行处理以强化文本主题特征. 之后该算法与主题模型相结合在处理后的语料上提取语料主题. 由于模型的先验信息得到增强, 故性能得以提高. 实验结果表明本文算法与LDA模型相结合的方法表现较好, 在相关指标及输出结果上均优于其他方法.  相似文献   

9.
TextRank算法在自动提取中文文本摘要时只考虑句子间的相似性,而忽略了词语间的语义相关信息及文本的重要全局信息.对此,提出一种基于改进TextRank的文本摘要自动提取算法(SW-TextRank).通过Word2 Vec训练的词向量来计算句子之间的相似度,并综合考虑句子位置、句子与标题的相似度、关键词的覆盖率、关键句子以及线索词等影响句子权重的因素,从而优化句子权重;对得到的候选摘要句群进行冗余处理,选取适量排序靠前的句子并根据其在原文中的顺序重新排列得到最终文本的摘要.实验结果表明,SW-TextRank算法生成摘要的准确性比TextRank算法更高,摘要生成质量更好.  相似文献   

10.
针对目前基于白名单过滤技术在海量文本中恶意域名提取的漏报、误报等问题,提出了一种基于上下文语义的恶意域名语料提取模型。该模型分别从恶意域名所在语句的上下文单词、短语进行语义分析,并利用自然语言处理技术自动生成描述恶意域名的语料。通过该模型对公开的APT(Advanced Persistent Threat)分析文档数据提取了大量恶意域名语料数据。利用安全博客文章数据并结合基于随机森林算法的机器分类模型对论文提取的恶意语料的有效性进行了验证。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号