期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

张均胜孙晓平刘志辉《情报学报》2023,(1):59-73

随着互联网虚假信息日益泛滥,自动识别虚假信息成为互联网信息治理的迫切需求。互联网上虚假信息伴随新事件不断产生,导致识别虚假信息的有监督统计机器学习模型需要不断更新迭代。每次迭代更新都需要构建新的训练集,以便新的虚假信息能在训练集中得以体现。为此,本研究提出一种动态迭代更新训练集构筑机器学习模型的虚假信息识别方法,设计基于核密度估计的迭代聚类方法对虚假信息数据集进行迭代聚类。在每一个自动得到的聚类中,按比例分别选取训练集样本和测试集样本构造分类器的训练样本集和测试样本集,使新产生事件的样本能够在训练集中得到体现。研究结果显示,基于核密度估计的迭代聚类方法划分数据集训练得到的虚假信息分类器,与随机划分数据集策略相比,能够显著提升虚假信息分类准确度。相似文献

2.

智能科学家——科技信息创新引领的下一代科研范式

罗威罗准辰雷帅程齐凯陆伟张瑾韩涛冯岩松韩先培冯冲张均胜刘志辉乔林波李东升许儒红陈敬一《情报理论与实践》2020,43(1):1-5,17

科技创新是国家发展与民族复兴的强大引擎。提高科技创新能力必须透彻理解科研活动本身,包括科学研究发展规律、科技竞争形式特点、科研人员行为方式、科研成果传播影响等。科技信息是大量科研活动信息的承载和记录,科技信息的智能挖掘服务可以有效支撑科研创新能力研究。文章提出"智能科学家"的理念,首先分析了科研范式的演变与发展趋势,然后探讨了科技信息引领下的辅助科研创新、协助科研创新、自主科研创新三阶段构想,最终实现"智能科学家"的目标,最后介绍了"智能科学家"需要依托的若干关键技术方向。相似文献

3.

国内外专利挖掘研究(2005-2014)综述 总被引：1，自引：0，他引：1

屈鹏张均胜曾文乔晓东王惠临《图书情报工作》2014,58(20):131-137

在中国知网、万方数据和Web of Science进行检索,获得72篇相关中文文献和98篇英文文献,并从中选出66篇进行综述。专利挖掘研究包括术语抽取、聚类、分类、以复杂网络为基础的方法、以时间为基础的方法和基于专利挖掘的技术研究等6个主题。尽管近10年来这一领域发展较快,但是部分研究也存在试验验证不精确、基于IPC的自动分类效果不好、所要解决的问题不明确且局限于方法应用和粒度粗糙等问题。专利挖掘研究应该注重发现问题,而非简单地应用方法。相似文献

4.

国家科技文献中心多语言信息服务研究及其应用

张满年高影繁徐红姣张均胜王惠临《数字图书馆论坛》2011,(12):12-19

如何提高多语言信息服务质量已成为数字图书馆等科技信息服务领域的重要研究问题。文章首先介绍了国内外多语言信息服务相关研究,然后具体从跨语言信息检索和机器翻译两个方面介绍了国家科技文献中心多语言信息服务研究成果在国家科技文献在线服务系统中的应用。将跨语言信息检索功能和文摘翻译服务功能引入数字图书馆在线查询系统,在国内数字图书馆信息服务领域尚属探索性尝试,可以为进一步提高数字图书馆多语言信息服务质量提供经验。相似文献

5.

机器翻译系统融合方法及其应用探究

何彦青石崇德于薇张均胜王惠临《数字图书馆论坛》2011,(12):32-38

多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合,产生更好的翻译性能,因此该技术成为机器翻译研究领域的一个热点问题。文章介绍了中国科学技术信息研究所（ISTIC）参加第七届全国机器翻译研讨会机器翻译评测的情况。本单位参加了英汉科技领域的机器翻译评测项目。文章阐述了本单位机器翻译系统的实现框架以及实施细节,并分析了它们在评测数据上的性能表现,最后对机器翻译系统融合方法目前的现状进行讨论,并对该系统融合方法进行总结和展望。相似文献

6.

多语叙词表构建方法研究与实践

徐红姣高影繁张均胜屈鹏曾文《图书情报工作》2014,58(19):7

多语叙词表是实现多语言信息组织和检索,满足日益增长的多语言信息需求的重要工具资源。首先介绍多语叙词表构建的研究现状和3种主要构建方法,并对基于翻译构建多语叙词表的方法及该方法的不足进行分析,然后从汉化方法、汉语词汇的选取原则、叙词表辅助汉化平台的构建及汉化结果评价4个方面对英语EI叙词表和日语JST叙词表的汉化工作进行介绍,最后探讨下一步的研究工作。相似文献

7.

一种基于短文本相似度计算的主观题自动阅卷方法

张均胜石崇德徐红姣高影繁何彦青《图书情报工作》2014,58(19):31-38

文本主观题自动阅卷的关键是提高考生答案文本和试题标准答案文本之间相似度计算结果的准确率。参考文本试题人工阅卷方法,提出一种结合人工制定文本相似标准、词语集合及词语次序和同义词的短文本相似度计算方法,设计并实现相应文本主观题阅卷系统。建立试题人工评分标准库,并在387道银行培训领域真实考题数据集上进行自动阅卷与人工阅卷结果对比实验。结果显示,文本试题自动阅卷结果与人工阅卷结果相比,完全相同的达到58%,准确率达到80%左右。相似文献

8.

基于词与短语的多机器翻译系统融合方法研究

何彦青张均胜王惠临《情报学报》2011,30(12)

多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合产生更好的翻译性能,因此该技术成为机器翻译研究领域的一个热点问题.常用的多机器翻译系统融合技术可以分为句子级、短语级和词级融合.在对不同级别的系统融合技术进行分析的基础上,本文提出基于词和短语的多机器翻译系统融合方法.首先,采用词级的系统融合技术构建混淆网络,将混淆网络转化为短语表.然后,基于该短语表利用短语级的系统融合技术中的再解码方法进行混淆网络解码生成融合结果.该方法既保证了融合系统所构建的混淆网络的最大可能性,又可以利用更多的特征进行混淆网络解码.我们将基于词和短语的多机器翻译系统融合方法在两个测试集上分别实验并进行比较,获得了较为满意的翻译效果. 相似文献

9.

“中日两国机器翻译技术合作研讨会”综述

李颖于薇张均胜《数字图书馆论坛》2011,(12):3-11

文章介绍了“中日两国机器翻译技术合作研讨会”的召开背景和会议概要。其中,重点介绍与会议相关的日本“日中·中日语言处理技术的开发研究”项目,以及在本次会议中基于实例的机器翻译技术创始人长尾真先生的主旨发言内容。最后,对会议取得的成果予以总结。相似文献

10.

基于问题—方法矩阵的文献新颖性评估方法

王艳艳张均胜乔晓东魏家泽《情报理论与实践》2021,(2):90-95

[目的/意义]基于科技文献构建问题—方法矩阵,探索科技文献研究内容新颖性评估方法,辅助科技查新应用。[方法/过程]对科技文献内容进行信息抽取,提取研究问题和方法内容文本并构建问题—方法矩阵。利用LDA模型对科技文献采用的问题与方法进行分类,将科技文献在问题—方法矩阵中定位并可视化。通过设定阈值划分区域,确定待评估科技文献研究问题和方法所在区域,进行新颖性评估分析,并通过实验验证该方法的有效性。[结果/结论]提出的基于问题—方法矩阵的文献新颖性评估方法通过可视化方式不仅有利于辅助科技查新判断,还可服务于创新选题。[局限]基于科技文献的研究问题与方法信息抽取和新颖性评估计算的自动化方法有待进一步研究。相似文献