首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
刘磊 《计算机应用与软件》2021,38(12):193-200,206
通过集成学习方法,探索影响英语学习者作文质量的语言特征,提高现有作文自动评分系统的准确率.基于剑桥FCE考试数据集,使用支持向量回归和随机森林算法筛选特征,构建并评测自动评分模型.与现有方法对比实验的结果表明,基于集成学习的评分模型准确率有所提升.该方法可以有效评估英语学习者的作文质量,有助于开发面向大规模机考和网络自主学习平台的作文自动评阅系统.  相似文献   

2.
该文尝试从文本语义离散度的角度去提升自动作文评分的效果,提出了两种文本语义离散度的表示方法,并给出了数学化的计算公式。基于现有的LDA模型、段落向量、词向量等具体方法,提取出四种表征文本语义离散度的实例,应用于自动作文评分。该文从统计学角度将文本语义离散度向量化,从去中心化的角度将文本语义离散度矩阵化,并使用多元线性回归、卷积神经网络和循环神经网络三种方法进行对比实验。实验结果表明,在50篇作文的验证集上,在加入文本语义离散度特征后,预测分数与真实分数之间均方根误差最大降低10.99%,皮尔逊相关系数最高提升2.7倍。该表示方法通用性强,没有语种限制,可以扩展到任何语言。  相似文献   

3.
近年来,越来越多的大规模英语考试采用了自动评分系统.因此,对英语作文自动评分的研究有着非常重要的价值.我们先依据英语作文写作技巧提取了大量语言学特征,再分别使用自编码器,特征值离散化方法对特征进行重构,最后我们使用分层多项模型来输出文章的最终得分.实验表明,该方法能取得很好的预测效果,而且面对不同主题的作文进行预测时也能显示出较好的鲁棒性.相比于传统自动评分方法皮尔森相关系数高出9.7%,具有良好的实际应用价值.  相似文献   

4.
该文研究了通过作文词汇评分来实现汉语作文自动评分的新算法。在作文评分应与词汇评分高度相关的假设基础上,实现了这种关系的量化计算。该文从通用词表方法、常规方法以及提出的三种改进算法上进行方法性能的比较,并对比了E-rater作文评分系统中同样采用基于词汇方法的性能。实验结果表明,基于新的词汇评分的作文评分方法相关度接近0.7的水平,高于E-rater中采用的基于词汇的方法的相关度。同时,这一方法的结果已经接近于人工作文评分的相关度。  相似文献   

5.
目前作文自动评分模型缺乏对不同尺度上下文语义特征的提取,未能从句子级别计算与作文主题关联程度的特征。提出基于多尺度上下文的英文作文自动评分研究方法 MSC。采用XLNet英文预训练模型提取原始作文文本单词嵌入和句嵌入,避免在处理长序列文本时无法准确捕捉到符合上下文语境的向量嵌入,提升动态向量语义表征质量,解决一词多义问题,并通过一维卷积模块提取不同尺度的短语级别嵌入。多尺度上下文网络通过结合内置自注意力简单循环单元和全局注意力机制,分别捕捉单词、短语和句子级别的作文高维潜在上下文语义关联关系,利用句向量与作文主题计算语义相似度提取篇章主题层次特征,将所有特征输入融合层通过线性层得到自动评分结果。在公开的标准英文作文评分数据集ASAP上的实验结果表明,MSC模型平均二次加权的Kappa值达到了80.5%,且在多个子集上取得了最佳效果,优于实验对比的深度学习自动评分模型,证明了MSC在英文作文自动评分任务上的有效性。  相似文献   

6.
基于MapReduce的多元线性回归预测模型   总被引:1,自引:0,他引:1  
针对传统的多元线性回归预测方法处理时间长且受内存限制的特点,对时序样本数据设计了基于MapReduce的并行多元线性回归预测模型。模型由三组MapReduce过程组成,分别求解由历史数据所构成叉积矩阵的特征向量和标准正交特征向量,用来预测未来参数的特征值和特征向量矩阵和未来时刻回归参数的估计量。设计并实现了实验来验证提出的并行多元线性回归预测模型的有效性。实验结果表明,基于MapReduce的多元线性回归预测模型具有较好的加速比和可扩展性,适合于大规模时序数据的分析和预测。  相似文献   

7.
图像情感特征的分类与提取   总被引:1,自引:0,他引:1  
黄崑  赖茂生 《计算机应用》2008,28(3):659-661
分析了图像情感特征的特点并提出三层结构的分类方法,以彩色自然风景图片为例,选取了典型的情感特征,采用排序调查法收集用户评价,并通过多元线性回归方法建立图像颜色特征与用户评价的映射关系,用于彩色自然风景图片情感特征的自动提取。最后通过实验验证了三层结构的合理性,以及所建立映射关系对于正确预测彩色自然风景图片情感特征的有效性。  相似文献   

8.
丁革建  刘畅 《计算机应用》2022,(S1):386-390
在作文自动评分任务的研究取得了长足发展,教育领域对自动评分任务的需求日益提升的趋势下,通过对现有文献的调研,对作文自动评分技术进行分析与综述。首先,根据技术发展的流程,介绍具有代表性的作文自动评分系统,分析现有模型中采用的评分技术与特征提取技术;其次,从传统技术、深度学习模型、预训练技术以及主题独立环境下的应用四个方面分析作文自动评分任务的关键节点以及相应技术的发展;最后,对值得关注的技术和当前的作文自动评分系统的发展方向进行总结与展望。分析结果表明,不同特征的结合是一种值得关注的研究方向。作文自动评分技术在语法修正及作文润色方面具有较大的应用前景。  相似文献   

9.
对于时间序列挖掘过程中的缺失值处理,目前有许多方法。在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法。利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性。文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果,但多元迭代回归迭代次数难以确定,插补代价较大,多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法。  相似文献   

10.
基于Sas的时间序列缺失值处理方法比较   总被引:1,自引:0,他引:1  
对于时间序列挖掘过程中的缺失值处理,目前有许多方法.在处理数据变量成一定的相关的数据集时,回归模型不失为较好的插补方法.利用均值插补、一元线性回归、多元线性回归、迭代回归方法对水文时间序列数据集的缺失数据进行处理,比较不同的皮氏相关系数下各方法的优劣及适用性.文中研究表明当数据集中存在与缺值变量相关度较大的变量时,一元线性回归的插补简单直观,且有较高的精度,结果接近真实;当数据集中不存在与缺值变量显著相关的自变量时,一元线性回归的结果变差,多元线性回归与多元迭代回归具有较好的结果.但多元迭代回归迭代次数难以确定,插补代价较大.多元线性回归为最佳选择;当缺值变量与其他自变量相关系数均较小时,回归插补的结果不理想,此时可考虑其他插补方法.  相似文献   

11.
Weblogs are increasingly popular modes of communication and they are frequently used as mediums for emotional expression in the ever changing online world. This work uses blogs as object and data source for Chinese emotional expression analysis. First, a textual emotional expression space model is described, and based on this model, a relatively fine-grained annotation scheme is proposed for manual annotation of an emotion corpus. In document and paragraph levels, emotion category, emotion intensity, topic word and topic sentence are annotated. In sentence level, emotion category, emotion intensity, emotional keyword and phrase, degree word, negative word, conjunction, rhetoric, punctuation, objective or subjective, and emotion polarity are annotated. Then, using this corpus, we explore these linguistic expressions that indicate emotion in Chinese, and present a detailed data analysis on them, involving mixed emotions, independent emotion, emotion transfer, and analysis on words and rhetorics for emotional expression.  相似文献   

12.
关系词在现代汉语复句领域起着重要的作用,是汉语语法、语义研究中的重要内容,复句关系词的计算机自动识别是一个非常困难的研究课题。在汉语复句关系词自动识别中规则的约束条件研究的基础上,重点研究现代汉语复句关系词自动识别系统中规则的表示方法,为进一步研究、建设复句关系词自动识别中的规则库,深入研究规则与统计相结合自动识别复句和复句关系词的方法,为实现汉语句子和篇章的自动识别奠定基础。  相似文献   

13.
HSK是一项国际汉语能力标准化考试。新HSK大纲中附表所列650个“默认词”多依据专家知识人工列举式的扩充。该文在《现代汉语词典》《现代汉语语法信息词典》等资源的基础上,利用知识工程的方法,迭代使用减字默认、组合默认等词汇等级类推规则,力争实现类推过程中隐性知识的显性化、分散知识的系统化,使得词汇等级类推的每一个环节都有章可循、有据可依,完成了基于新HSK大纲词汇等级的系统类推工作。接着,结合所构建的汉语词法知识库对类推结果进行了筛选,最终得到了23762个词语的类推等级。最后,通过对类推结果的统计分析,表明该文的研究工作可以更好地发挥新HSK词汇大纲在汉语词汇定级、文本难度分级中的指导作用,也可为其他领域教学词汇大纲的制定提供一定的借鉴。  相似文献   

14.
通过对语文古诗文阅读类主观题的分析,提出了结合学科情感分析与依存关系的相似度评分算法,并将其应用于高中语文古诗文阅读类主观题的评分中.首先,以中文维基百科语料为基础,增加了与评分相关的古诗文语料81927条,通过文本向量化算法Word2vec进行词向量训练,完成了对古诗文语料库的构建;基于学科评分特性建立了对应的古诗文...  相似文献   

15.
We report experimental results on automatic extraction of an English-Chinese translation lexicon, by statistical analysis of a large parallel corpus, using limited amounts of linguistic knowledge. To our knowledge, these are the first empirical results of the kind between an Indo-European and non-Indo-European language for any significant vocabulary and corpus size. The learned vocabulary size is about 6,500 English words, achieving translation precision in the 86–96% range, with alignment proceeding at paragraph, sentence, and word levels. Specifically, we report (1) progress on the HKUST English-Chinese Parallel Bilingual Corpus, (2) experiments supporting the usefulness of restricted lexical cues for statistical paragraph and sentence alignment, and (3) experiments that question the role of hand-derived monolingual lexicons for automatic word translation acquisition. Using a hand-derived monolingual lexicon, the learned translation lexicon averages 2.33 Chinese translations per English entry, with a manually-filtered precision of 95.1%, and an automatically-filtered weighted precision of 86.0%. We then introduce a fully automatic two-stage statistical methodology that is able to learn translations for collocations. A statistically-learned monolingual Chinese lexicon is first used to segment the Chinese text, before applying bilingual training to produce 6,429 English entries with 2.25 Chinese translations per entry. This method improves the manually-filtered precision to 96.0% and the automatically-filtered weighted precision to 91.0%, an error rate reduction of 35.7% from using a hand-derived monolingual lexicon.  相似文献   

16.
为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作为简单段落看待,也使用二部图匹配进行相似度计算。首先利用句子主干词汇提取算法来提取句子的主干词汇,将主干词汇作为二部图的顶点,把主干词汇之间的相似度作为二部图顶点之间的权值系数,进行句子相似度的计算。其次,将句子作为加权二部图的顶点,把句子之间的相似度作为二部图顶点之间的权值系数,进行段落之间的相似度计算。实验结果表明,该方法与VSM相比,由于它能准确识别同义词,自动匹配两个在段落中不同位置的相似词语,因而在准确度上有了很大的提高。  相似文献   

17.
一种基于字同现频率的汉语文本主题抽取方法   总被引:24,自引:0,他引:24  
主题抽取是文本自动处理的基础工作之一,而主题的抽取一直以分词或者抽词作为第1步.由于汉语词间缺少明显的间隔,因此分词和抽词的效果往往不够理想,从而在一定程度上影响了主题抽取的质量.提出以字为处理单位,基于字同现领率的汉语文本主题自动抽取的新方法.该方法速度快,适应多种文体类型,并完全避开了分词和抽词过程,可以广泛应用在主题句、主题段落等主题抽取的多个层面,而且同样适用于其他语言的文本主题抽取.主题句自动抽取实验表明,该方法抽取新闻文本主题句的正确率达到77.19%.汉语文本的主题抽取比较实验还表明,省略分词步骤并没有降低抽取算法的正确率.  相似文献   

18.
随着计算机的普遍应用以及计算机技术的快速发展,计算机辅助性测试和计算机自适应性测试都已先后成为现实。计算机辅助评分,也称作计算机自动评分,就成为人们所希望的下一代计算机辅助工具。中文辅助评分系统的研究尚处于起步阶段,据我们了解还没有一个能大规模使用的系统。我们研究了许多英文的辅助评分系统,并按照文章中的算法提取特征,但是特征的相关度并不高。在该文中,我们利用统计自然语言处理和信息检索的技术提取作文写作水平和作文主题特征。在建模时,融入样本分数分布和一位评分员的评分的信息,创造性的提出三重分段回归模型。实验表明,利用我们的辅助评分系统协助评分,在节省一半阅卷量的情况下,精度可以达到97%以上。  相似文献   

19.
和导航中应用广泛。文本聚类作为一种无监督学习算法,其依据是聚类假设:同类的文档相似程度大,不同类的文档相似程度小。文中主要研究汉语文本聚类算法在新闻标题类文本中的应用。首先对采集到的若干条新闻标题进行分词和特征提取,将分词后的文本转化为词条矩阵;然后使用TF-IDF技术处理词条矩阵,得到基于分词权重的新的词条矩阵,对新的词条矩阵进行奇异值分解,得到主成分得分矩阵,提取主成分分析文本特征并根据主成分得分矩阵进行K-均值和分层聚类分析;最后将聚类结果用词云图的形式展示出来并评价聚类效果的好坏。实证显示,对词条矩阵的奇异值分解能降低向量空间的维数,提高聚类的精度和运算速度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号