排序方式: 共有32条查询结果,搜索用时 0 毫秒
1.
政府公文数量巨大,不同政府网站公文分类规则不一 ,在引用和参考公文时可能发生混淆 。针对该问题,基于政府公文题目、摘要和正文内容,采用 K-means 算法对公文进行分类。首先对政府公文进行分词及去停用词等数据预处理操作,再通过词频—逆文档频率(TF-IDF)权值计算方法,将处理后的政府文本信息转换成二维矩阵,然后采用 K-means 算法进行聚类。使用清华大学 THUCTC 文本分类系统对公文聚类结果进行测试。实验结果表明,采用 K-means 算法对公文进行聚类,准确率达到 82.93%,远高于政府网站公文分类准确率。 相似文献
2.
本文采用扎根理论研究方法,通过对学术专家、实践者和学习者三类相关群体的访谈,调查高等教育和继续教育在线课程相关人群关于在线课程的质量观与对质量构成的认识,探索在线课程质量框架与要素,以期为促进人们对在线课程质量的共识,为改进和优化现有在线课程质量标准提供参考。研究通过对20位受访者累计22万字访谈文本的编码分析,发现四种质量观--服务质量观、系统性质量观、目标性质量观和增值性质量观,并定义出设计开发与实施运行两大类的九个在线课程质量要素--课程目标、课程内容、学习过程、学习支持服务、学习评价、媒体与技术环境、实施效果、改进发展和社会影响。其中,课程目标、学习内容与实施效果被定义为核心要素。本文基于TF-IDF关键词统计方法对三类群体的在线课程质量观差异进行了分析,并结合已有远程教育质量观和在线课程质量标准相关成果对本研究发现和定义的在线课程质量观、质量框架和质量要素进行了讨论与反思。 相似文献
3.
林滨 《福建工程学院学报》2016,(1):80-85
针对文本类型数据的分类进行研究,用VSM模型和TF IDF技术对文本文件进行了数据样本抽取加权,得到文本相似度矩阵;采用不同样本距离计算方法和K-Means算法对数据进行了聚类实验,获得聚类结果并进行了分析和总结;基于实验结论,研究了不同距离计算方法之间的区别以及适用的数据类型。 相似文献
4.
5.
[目的/意义] 从用户角度出发,研究基于用户自然标注的TF-IDF辅助标引算法。[方法/过程] 首先以核心期刊论文中作者标注的关键词和分类号为源数据,通过对关键词词频进行统计,使用TF-IDF算法构建用户标注词表、形成标引知识库,然后通过IK Analyzer分词软件对待标引的科技项目数据进行切词和停用词处理,进而使用TF-IDF算法和位置加权算法提取科技项目数据的特征词,最终实现对科技项目数据进行关键词和分类的同步标引。[结果/结论] 实验结果表明,机标关键词与人标关键词的相似比在60%以上的科技项目数据占总数的68.1%,机标分类号与人标分类号前三位一致的占总数的83.9%,结果表明基于用户自然标注数据并采用TF-IDF算法在关键词和分类标引方面是可行的。 相似文献
6.
【目的】 通过文献计量分析法筛选资源环境学科“一带一路”专题,解决传统选题策划与读者预期有偏差、无法精准吻合学科发展热点的问题。【方法】 采用TF-IDF和文献互引聚类综合分析法,选取以“一带一路”为 相似文献
7.
本研究旨在揭示多学科交叉综合领域内的核心学科并分析学科间内在联系与演变,以此来分析领域内学科态势。以人工智能领域为研究对象,探讨该领域内相关学科的分布,分析学科相互间的关联和研究相似性及演化,为科学研究和政策制定提供支持。对文献资料进行预处理后,用关键词表征学科研究内容,并通过词袋模型构建学科向量;分别从基础统计、共现分析和相似性分析来研究学科的分布、人工智能与其他学科之间以及两两学科之间的相似性与演化。结果表明,人工智能领域内以计算机科学和工程为核心,以数学为基础,并逐渐延伸到社会科学、生物科学等领域,由单一的理论和技术研究向多学科应用领域发展。领域内学科的多元化也促进了管理学和法学等学科研究内容的转变。本研究分析路径可以在一定程度上揭示学科研究的跨学科发展趋势。 相似文献
8.
基于领域中文文本的术语抽取方法研究 总被引:3,自引:0,他引:3
在ICTCLAS词典分词的基础上,利用串频最大匹配算法从中文专利文本中抽取候选术语,再利用TF-IDF算法得到相关特征项的权重,经过筛选后得到最终概念术语。最后,抽取部分样本数据进行实验,并对结果进行分析。 相似文献
9.
10.
目前国内对于专利地图的研究大部分仍停留在应用阶段,对其制作的基础理论研究较少。概述目前专利地图类别,分析现有专利地图制作方法的缺陷,从增强专利文献信息可信度和价值的角度,运用TF-IDF(term frequency-inverse document frequency)统计特征将非结构化的专利文献信息映射到低维空间中,采用密度峰值快速搜索聚类(clustering by fast search and find of density peaks,CFSFDP)算法进行聚类,对同一聚类中的专利文献特征进行分析,得到不同专利文献间的发展关系并映射为图表示,从而构建以有向图表示的专利地图。改进提出的这种专利地图制作方法,同时利用了结构化信息与非结构化信息,以使专利地图更为真实准确地反映目标技术领域的技术发展过程。 相似文献