期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

王荻智李建宏施运梅《教育技术导刊》2020,19(6):201-204

政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率（TF-IDF）权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。相似文献

2.

在线课程质量观和质量要素的质性研究--基于专家、实践者和学习者的视角

李爽李梦蕾赵宏《中国远程教育(综合版)》2020,(3):42-50,81

本文采用扎根理论研究方法,通过对学术专家、实践者和学习者三类相关群体的访谈,调查高等教育和继续教育在线课程相关人群关于在线课程的质量观与对质量构成的认识,探索在线课程质量框架与要素,以期为促进人们对在线课程质量的共识,为改进和优化现有在线课程质量标准提供参考。研究通过对20位受访者累计22万字访谈文本的编码分析,发现四种质量观--服务质量观、系统性质量观、目标性质量观和增值性质量观,并定义出设计开发与实施运行两大类的九个在线课程质量要素--课程目标、课程内容、学习过程、学习支持服务、学习评价、媒体与技术环境、实施效果、改进发展和社会影响。其中,课程目标、学习内容与实施效果被定义为核心要素。本文基于TF-IDF关键词统计方法对三类群体的在线课程质量观差异进行了分析,并结合已有远程教育质量观和在线课程质量标准相关成果对本研究发现和定义的在线课程质量观、质量框架和质量要素进行了讨论与反思。相似文献

3.

K-Means聚类的多种距离计算方法的文本实验比较

林滨《福建工程学院学报》2016,(1):80-85

针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。相似文献

4.

利用本体关联度改进的TF-IDF特征词提取方法 总被引：8，自引：0，他引：8

徐建民王金花马伟瑜《情报科学》2011,(2)

针对传统TF-IDF方法提取文本特征词时未考虑词语间关系的不足,提出一种利用本体关联度改进的文本特征词提取方法。该方法首先利用传统的TF-IDF方法构建候选特征词集合和非候选特征词集合,然后根据领域本体知识在非候选特征词集合中提取候选特征词的本体关联词,利用候选特征词与其本体关联词之间的本体关联度以及本体关联词本身的权重调整候选特征词的权重,得到新的候选特征词权重排序。实验证明,该方法能够有效提高文本特征词提取的准确度。相似文献

5.

基于用户自然标注的TF-IDF辅助标引算法及实证研究

陈白雪宋培彦《图书情报工作》2018,62(1):132-139

[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。相似文献

6.

文献计量分析法精准定位资源环境类科技期刊“一带一路”专题策划方向

陶华杨小梅朱强侯春梅马素萍王曲梅金向远《中国科技期刊研究》2018,29(5):520-524

【目的】通过文献计量分析法筛选资源环境学科“一带一路”专题,解决传统选题策划与读者预期有偏差、无法精准吻合学科发展热点的问题。【方法】采用TF-IDF和文献互引聚类综合分析法,选取以“一带一路”为相似文献

7.

多学科交叉综合的研究领域内学科间分布状态与演化研究

曹嘉君王曰芬陈盛之邹本涛《情报学报》2020,39(5):459-468

本研究旨在揭示多学科交叉综合领域内的核心学科并分析学科间内在联系与演变,以此来分析领域内学科态势。以人工智能领域为研究对象,探讨该领域内相关学科的分布,分析学科相互间的关联和研究相似性及演化,为科学研究和政策制定提供支持。对文献资料进行预处理后,用关键词表征学科研究内容,并通过词袋模型构建学科向量;分别从基础统计、共现分析和相似性分析来研究学科的分布、人工智能与其他学科之间以及两两学科之间的相似性与演化。结果表明,人工智能领域内以计算机科学和工程为核心,以数学为基础,并逐渐延伸到社会科学、生物科学等领域,由单一的理论和技术研究向多学科应用领域发展。领域内学科的多元化也促进了管理学和法学等学科研究内容的转变。本研究分析路径可以在一定程度上揭示学科研究的跨学科发展趋势。相似文献

8.

基于领域中文文本的术语抽取方法研究 总被引：3，自引：0，他引：3

谷俊王昊《现代图书情报技术》2011,(4)

在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。相似文献

9.

基于共词分析的文本主题词聚类与主题发现 总被引：3，自引：0，他引：3

王小华徐宁谌志群《情报科学》2011,(11)

文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题。实验结果表明,该方法对热点主题提取有一定的效果。相似文献

10.

基于密度峰值聚类的专利地图制作方法

黄柏如周志平王利赵卫东《科技管理研究》2020,40(10):182-186

目前国内对于专利地图的研究大部分仍停留在应用阶段,对其制作的基础理论研究较少。概述目前专利地图类别,分析现有专利地图制作方法的缺陷,从增强专利文献信息可信度和价值的角度,运用TF-IDF(term frequency-inverse document frequency)统计特征将非结构化的专利文献信息映射到低维空间中,采用密度峰值快速搜索聚类(clustering by fast search and find of density peaks,CFSFDP)算法进行聚类,对同一聚类中的专利文献特征进行分析,得到不同专利文献间的发展关系并映射为图表示,从而构建以有向图表示的专利地图。改进提出的这种专利地图制作方法,同时利用了结构化信息与非结构化信息,以使专利地图更为真实准确地反映目标技术领域的技术发展过程。相似文献