首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 281 毫秒
1.
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法.在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量.  相似文献   

2.
作为一种新闻失范现象, “标题党”屡禁不止.近来国家网信办出台相关规定,强化对这一现象的治理与规范.文章从新闻生产、网络文化与媒介管理三个方面,详细分析了“标题党”现象的根源、影响与治理路径.文章重点讨论了媒介技术变革对新闻生产的改变、“标题党”与网络文化的关系,并对管理新规作出一定的分析.文章丰富了“标题党”现象研究的视角.  相似文献   

3.
为了减少或根除新闻网站中大量非主题信息的干扰,提出一种新闻网页抽取方法,采用基于熵的计算和DOM树的知识,从新闻网页中抽取主题文档和相关链接。  相似文献   

4.
正2014年9月,《人民日报》连发数篇署名评论,批评"悬疑新闻"和其背后的"标题党"。"标题党"现象伴随着传媒作为利益单元的存在,由来已久。这是一种主要发生在业内、影响到业外的"专业"逐利现象,"悬疑新闻"只是其表现之一。说它"专业",是因为这些人谙练新闻价值的运用,但新闻传播专业的各种职业理念是相互关照的,这些人没有真实、客观的职业理念(也是一种职业道  相似文献   

5.
设计面向综合性中文叙词表本体的叙词概念定义抽取方法,获得良好的实验效果并已投入实际应用。其中,基于"高频词与句子向量"和"TF*IDF向量"两种定义抽取算法提出的二维相对量的融合算法,能够更有效地抽取出前两种方法的良好结果,有效信息提高比一般可达到60%。  相似文献   

6.
本文分析微信新闻“标题党”的表现特点,如利用公众对社会弱势群体的关注或以国家、民族荣誉感为噱头刺激读者阅读;黄色暴力词汇以及惊悚低俗图片的大量运用挑动读者遐想;表达故弄玄虚,大量采用感叹号、省略号激起人们的强烈情绪等.文章探析微信新闻“标题党”现象产生的原因,如移动社交媒体“快阅读”时代过分追求标题吸引力,微信新闻从业者媒体素养不高,过分迎合受众低趣味等.治理微信“标题党”应从新闻专业主义出发提高微信从业者职业道德,不为流量做“标题党”;加强培训,提高微信编辑标题制作能力和媒体素养;宏观层面的政策法规和技术力量并用,加强对微信“标题党”现象的监管.  相似文献   

7.
面向科技文献的混合语义信息抽取方法研究   总被引:1,自引:0,他引:1  
针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。  相似文献   

8.
[目的/意义]针对目前专利关键词抽取算法评价中主要采用抽取的关键词与专家人工标注关键词进行匹配存在的问题,提出一种基于信息增益与相似度的专利关键词抽取算法评价模型.[方法/过程]提出的评价模型从内部和外部两个层面评估专利关键词抽取算法的准确性.其中,内部评价模型度量待评价算法抽取的每个关键词的信息增益,以评估被抽取的关...  相似文献   

9.
网络媒体发展迅猛,新媒体竞争加剧,视觉文化的冲击使得网络媒体在标题上竞争激烈,一时间演变成各种"标题党",耸人听闻、夸张、歪曲的标题侵害网络环境。本文通过网易新闻中"周点击率"排行的100个标题,分析了网易新闻"标题党"传播的特点、盛行的原因及其危害性,同时对网易新闻标题的改进提出对策。  相似文献   

10.
[目的/意义]在海量网络新闻和微博等新媒体文本中自动识别网络热点话题并抽取有意义词串来描述热点事件,对自动识别和描述网络舆情具有重要的研究意义。[方法/过程]在现有热点描述词抽取方法中,利用关联规则或多元词组合方法在抽取过程中存在噪音词较多和特征词语义被放大或转移等问题。本文提出一种基于复合词生成的描述词抽取方法,在所提取的语义更为精确的描述词集合上使用一趟聚类算法对新闻文本进行聚类,自动识别网络热点话题并对热点话题进行排名。[结果/结论]对腾讯新闻事件文本数据集所做的实验结果表明,本文所提出的方法较传统的词特征抽取方法在聚类结果上具有更好的话题簇识别能力和簇描述能力。  相似文献   

11.
This article examines if patterns in online news seeking privilege stories featuring more linguistic markers of partisan affect than those positioned by traditional gatekeepers on the print front page. Online “most-read” and print front-page stories covering 8 weeks of the 2012 presidential campaign were submitted to computer-assisted text analysis (n = 302). Guided by research on online and partisan affect, this study hypothesizes that (a) “most-read” stories will feature more supportive language than stories placed on the front page by traditional gatekeepers when the news outlet has a reputation for supporting the incumbent party; and (b) “most-read” stories will feature more antagonistic language than those placed on the front page by traditional gatekeepers when the news outlet has a reputation for supporting the challenger party. The findings show how online audiences opted for stories that featured more linguistic markers of preferred partisan affect than journalists and editors placed on Page One.  相似文献   

12.
基于标题的中文新闻网页自动分类   总被引:1,自引:0,他引:1  
借鉴tf-idf加权思想,利用新闻标题来做中文新闻网页自动分类的依据,构建基于标题的中文新闻自动分类方法,并设计多个实验对各种基于标题的中文新闻网页自动分类方法进行评测。实验结果表明,基于标题对中文新闻网页进行自动分类,可以大大缩短判断处理时间,节省存储空间,且准确率较高,特别是改进的类目加权法分类效果最好。  相似文献   

13.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

14.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

15.
论电视新闻节目的策划   总被引:1,自引:0,他引:1  
电视新闻节目的策划一直以来是一个有争议的问题,本文的作者针对新闻节目不能策划提出了自己的观点,并从新闻实践的事实论述了构成电视新闻节目报道的策划要素,分析论证了报道的选题、报道的主题和切入点的挖掘、报道的形式、报道的话题设计和新闻节目的编排艺术等等都是可以策划的,并且也需要策划的观点。这些报道的策划正是提高新闻节目质量和新闻节目的竞争力所不可少的手段和措施。  相似文献   

16.
信息抽取是从海量网页获取有价值信息的重要方式,对目标网页内容进行主题相关性判断是提高信息抽取效率和准确性的关键环节。目前的相关性判断主要采用人工筛选和文档训练的方法,这其中存在效率低、重复训练等问题,而本文尝试针对抽取任务引入主题描述模型用于网页内容的主题相关性判断。从任务的主题描述模型的角度出发,计算模型中的关键词基于标记信息的加权频率,将网页内容进行量化表示,然后分析关键词加权频率关于任务主题描述模型的变化来判断网页内容的主题相关性。最后通过对比该方法在国防产品信息抽取中结果,实验证明该方法大大提高了网页信息抽取的效率和准确性。  相似文献   

17.
在美国报业史中,党派报纸在19世纪的大部分时间里占据着主导地位。本论文试图分析美国党派报纸的报道方式,并从美国十九世纪下半叶国家政治的变化导致的政党角色的变化中解析美国的党派报纸如何因政党功能的变化而在报道方式上发生改变。  相似文献   

18.
基于本体和DOM相结合的Web信息抽取器   总被引:1,自引:0,他引:1  
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。  相似文献   

19.
《Journalism Practice》2013,7(2):159-174
This study examines 10 recent high-profile cases of journalistic deceptions at major American news organizations, and analyzes deceptive news and authentic news in a comparative perspective. Applying disaster incubation theory and normal accident theory to newsrooms, it focuses on how newsroom organizational culture contributes to journalistic deceptions. Results suggest that prior to the final revelation of a reporter's deception, an incubation period occurs during which a “first flag”—an initial warning signal often related to the reporter's earliest work that gives rise to suspicion of authenticity—is overlooked. The study also identifies patterns in deceptive news that distinguish it from authentic news. Deceptive news stories are more likely than authentic news stories to be filed from a remote location, to be on a story topic conducive to source secrecy, to be on the front page (or magazine cover), to contain more sources, more “diverse” sources and more hard-to-trace sources. It is suggested that editors might use these recognizable patterns to help prevent journalistic deceptions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号