首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
In this paper, we designed and implemented a computer assisted writing system and the application domain is love letter. The system includes text generation module, synonym substitution module and simile expression module. A text generation model is proposed based on keyword generation model and sentence generation model. The keyword generation model extracts important keywords from the corpus and they will become the backbone of the template. Meanwhile, the sentences between keywords will construct the content of the template and candidate sentences are retrieved from the corpus based on statistical analysis. Synonym substitution and simile expression are two modules that could enrich the content of the text. Synonym terms are retrieved from the Internet and a simile expressions discovery mechanism is proposed to collect related simile expressions. The prototype system has shown that it could work well on love letter application domain and the concept of this research could be extended to another domain with minor modification.  相似文献   

2.
针对中文散文诗歌的自动生成,提出一种基于循环神经网络的时序性文本生成方法.通过现有语料库构建好一个词语集后,首先给定若干关键词,在聚类模型生成的词语集基础上进行关键词扩展生成首句.在确定首句的基础上,利用上下文模型对已生成内容进行压缩和上文特征获取,最后将之前上下文内容传递给递归神经网络模型实现后续句子的生成.该方法中首句生成的过程利用语言模型中的词汇集扩展,并通过上下文模型获取关联实现上下句的映射关系.本文采用BLEU自动评测方式和人工评测方式,建立起较为标准的评测系统,实验结果证实了该方法的有效性.  相似文献   

3.
计算机写诗是实现计算机写作的第一步,目前计算机写诗普遍存在主题不明确、诗的内容与写作意图不一致的问题。为改善这些问题,效仿古人写诗的过程,提出了一种两个阶段生成古诗的方法。第一阶段获取写诗大纲,采用TextRank算法对用户输入文本提取关键词,并提出一种基于注意力机制的序列到序列神经网络模型用于关键词扩展;第二阶段根据写诗大纲生成每一行诗句,并提出一种包含双编码器和注意力机制的序列到序列神经网络模型用于古诗生成。最后通过对实验结果的评估验证了提出方法的有效性。与基准方法相比,该方法生成的古诗的主题意义更加明确,诗所表现的内容和写作意图更加一致。  相似文献   

4.
Readers are becoming accustomed to obtaining useful and reliable information from bloggers. To make access to the vastly increasing resource of blogs more effective, clustering is useful. Results of the literature review suggest that using linking information, keywords, or tags/categories to calculate similarity is critical for clustering. Keywords are commonly retrieved from the full text, which can be a time-consuming task if multiple articles must be processed. For tags/categories, there is also a problem of ambiguity; that is, different bloggers may define tags/categories of identical content differently. Keywords are important not only to reflect the theme of an article through blog readers’ perspectives but also to accurately match users’ intentions. In this paper, a tracing code is embedded in Blog Connect, a newly developed platform, to collect the keywords queried by readers and then select candidate keywords as co-keywords. The experiments show positive data to confirm that co-keywords can act as a quick path to an article. In addition, co-keyword generation can reduce the complexity and redundancy of full-text keyword retrieval procedures and satisfy blog readers’ intentions.  相似文献   

5.
Blog retrieval is a complex task because of the informal language usage.Blogs deviate from the language which is used in traditional corpora largely due to various reasons.Spelling errors,grammatical irregularity,over use of abbreviations and symbolic characters like emotions are a few reasons of irregular corpus blogs.To make the retrieval of blogs easier,the novel idea of personalized semantic based blog retrieval(PSBBR) system is discussed in this paper.The blogs are tagged with a relationship to one another with reference to ontology.The meanings of the blog content and key term are tagged as XML tags.The query term accesses the XML tags to retrieve entire blog content.The system is evaluated with a huge number of blogs extracted from various blog sources.Relevance score is calculated for every blog associated with  相似文献   

6.
针对微博文本高维、稀疏的特点,比较基于同义词词林等外部知识库的文本扩展策略,利用Word2vec训练微博语料,并构建微博上下文相关词词表,通过种子词表和微博标签信息去扩展微博文本流中的关键词,最后提出了提取微博文本关键词及区分词向量中相似词和相关词的方法。实验结果证明,微博短文本经过Word2vec词向量相关词及微博标签扩展后,其聚类效果有了明显提高。  相似文献   

7.
计算机自动写作是人工智能领域的一个重要研究方向,现有方法大多都是基于一定的模板,生成行文较为单一的文章,没有对写作内容进行主题方面的提示和推荐,对文章修辞色彩的渲染就更少。为了使自动写作的文章更吸引人,可以将我们现实写作中使用的一些排比句根据主题和相似度的计算加入自动写作作品中,使得作品更加生动。文章主要研究规范文献资料的排比句自动抽取算法,以便抽取到的排比句作为语言素材有效应用于计算机自动写作。文章采用基于段内排比特征和段间排比特征的方法进行排比句的自动抽取,实验结果表明,本文方法抽取的准确率达到93%以上。  相似文献   

8.
龙珑  邓伟 《计算机应用研究》2013,30(4):1095-1098
由于目前博客基本是文本格式,提出基于语义理解分析博文倾向性的方法。算法以HowNet情感词语词库为基础,绿色网络云系统可以创建并不断完善绿色网络系统的情感字典云数据库,使用词语相似度方法计算词语的情感权值,同时利用词语的情感权值的计算对博文倾向性作初始判定,从而得到博文的情感倾向性判定结果。最后通过实验对该方法进行验证,结果表明该算法可以有效地判定博客文本情感倾向性,为绿色网络系统是否过滤该博客提供准确依据。  相似文献   

9.
针对全文本关键字检索的时间成本高,以及采用标签/类别会产生语句歧义和同义词等问题,提出在博客链接平台上选取联合关键字进行博客聚类。假设一个博客文章被查询的候选关键字(或者联合关键字)可以用于表示这个博客文章的主题。为验证该假设,首先将跟踪代码嵌入到博客链接(BC)组件中,以收集读者查询的关键字。然后,选取适当的候选关键字作为联合关键字。最后,使用重叠投影、交互信息投影、分布式分布信息和肯德尔 系数这四种相似性度量以验证BC组件提取的联合关键字。实验结果表明,提出的方法可以为查询者提供一条找到对应博客的快速通道。此外,生成的联合关键字可以减少全文本关键字检索过程的复杂度和冗余度,很好地满足了博客用户的需求。  相似文献   

10.
设计并实现了一种高效率、高性能的网页文本过滤系统,该系统采用分层过滤策略,包括实时过滤和事后分析。实时过滤模块是基于Linux下的IP Queue机制实现的,采用高效的过滤策略,在保证过滤实时性的同时也保证了过滤的准确性;事后分析模块研究过滤系统经过协议还原后备份的网页文本,通过网页预处理、非法关键词抽取、特征选择等步骤,实现了基于二元模型的文本过滤方法,该方法在一定大小的词语距离窗口内,采用包含非法关键词的二元词串作为特征,解决了使用二元词串带来数据稀疏的问题,同时保留了二元词串的强类别分辨能力的特征。实验表明,文章实现的过滤系统有较高的效率和准确率,用于事后分析的基于二元模型的文本过滤方法达到了较高的性能,其准确率、召唤率和F1的值分别为:96.98%,85.75%和91.02%。  相似文献   

11.
基于概念扩充的中文文本过滤模型   总被引:8,自引:0,他引:8  
1 前言今天,以因特网为主体的信息高速公路仍在不断普及和发展,因特网上蕴涵的海量信息远远超过人们的想象,面对这样的信息汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”问题。如何帮助人们有效地选择和利用所感兴趣的信息,同时保证人们在信息选择方面的个人隐私权利?这已成为学术界和企业界所十分关注的焦点。因此,信息过滤技术应  相似文献   

12.
文本分类指的是在制定文本的类别体系下,让计算机学会通过某种分类算法将待分类的内容完成分类的过程.与文本分类有关的算法已经被应用到了网页分类、数字图书馆、新闻推荐等领域.本文针对短文本分类任务的特点,提出了基于多神经网络混合的短文本分类模型(Hybrid Short Text Classical Model Base on Multi-neural Networks).通过对短文本内容的关键词提取进行重构文本特征,并作为多神经网络模型的输入进行类别向量的融合,从而兼顾了FastText模型和TextCNN模型的特点.实验结果表明,相对于目前流行的文本分类算法而言,多神经网络混合的短本文分类模型在精确率、召回率和F1分数等多项指标上展现出了更加优越的算法性能.  相似文献   

13.
微博是个人和组织用户分享或获取简短实时信息的重要社交平台,微博文本自动生成技术能帮助用户在微博平台上快速实现各种社交意图。为辅助用户发表博文并表达社交意图,提出一种基于用户意图的微博文本生成技术,以挖掘提取微博文本特征,并在给定微博主题的条件下生成与用户意图相一致的微博文本。采用预训练语言模型与微调相结合的方法,在预训练语言模型GPT2上实现联合主题和用户意图的文本控制生成,以及具备用户对话功能的文本预测生成。实验结果表明,该技术生成的文本具有较高的可读性且符合微博文本语言风格,结合主题和5类用户意图的生成样本人工评分达77分以上。  相似文献   

14.
In this paper we address the issue of continuous keyword queries on multiple textual streams and explore techniques for extracting useful information from them. The paper represents, to our best knowledge, the first approach that performs keyword search on a multiplicity of textual streams. The scenario that we consider is quite intuitive; let’s assume that a research or financial analyst is searching for information on a topic, continuously polling data from multiple (and possibly heterogeneous) text streams, such as RSS feeds, blogs, etc. The topic of interest can be described with the aid of several keywords. Current filtering approaches would just identify single text streams containing some of the keywords. However, it would be more flexible and powerful to search across multiple streams, which may collectively answer the analyst’s question. We present such model that takes in consideration the continuous flow of text in streams and uses efficient pipelined algorithms such that results are output as soon as they are available. The proposed model is evaluated analytically and experimentally, where the Enron dataset and a variety of blog datasets are used for our experiments.  相似文献   

15.
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。  相似文献   

16.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。  相似文献   

17.
基于查询扩展词条加权的文本检索研究   总被引:1,自引:1,他引:0  
本文分析了关键词检索文本,由于其查询词没有扩展导致检全率低;而概念检索文本虽然部分有检索词扩展,但是查询词权重与原查询词没有区分.为此,本文利用词条间的语义相似度,提出一种查询扩展词条权重计算方法--展开减小法,并将查询词以及扩展词经展开减小法计算权重后构建向量空间模型检索文本.实验表明,构建的检索模型检索文本,其综合...  相似文献   

18.
基于网页格式信息量的博客文章和评论抽取模型   总被引:3,自引:0,他引:3  
曹冬林  廖祥文  许洪波  白硕 《软件学报》2009,20(5):1282-1291
从信息论的角度出发,提出了一个基于网页格式信息量的博客文章和评论抽取模型.首先,结合网页视觉上的位置信息和文本的有效信息来定位网页正文.其次,利用博客网页中的格式信息作为信息单元并计算每个信息块所包含的格式信息量,通过计算最小切分位置信息量来切分正文中的文章和评论.该模型具有与语言无关的特点,因此具有一定的通用性.实验结果表明,该模型在博客正文定位和正文切分方面达到了较高的精确率.  相似文献   

19.
Blog mining addresses the problem of mining information from blog data. Although mining blogs may share many similarities to Web and text documents, existing techniques need to be reevaluated and adapted for the multidimensional representation of blog data, which exhibit dimensions not present in traditional documents, such as tags. Blog tags are semantic annotations in blogs which can be valuable sources of additional labels for the myriad of blog documents. In this paper, we present a tag-topic model for blog mining, which is based on the Author-Topic model and Latent Dirichlet Allocation. The tag-topic model determines the most likely tags and words for a given topic in a collection of blog posts. The model has been successfully implemented and evaluated on real-world blog data.  相似文献   

20.
近些年来,由于互联网企业竞争激烈,各平台文本信息存在着相互恶意拦截的问题,这往往给用户带来不便甚至造成损失。目前,在中文文本信息过滤领域中,“火星文”在规避关键词屏蔽方面效果显著。然而,随着人工智能的快速发展,检测技术不断提升,仅仅依靠规避关键词屏蔽已然不足以确保文本信息传递的安全性,文本关键信息仍然存在着被拦截的风险,这是由于这类关键信息的呈现模式通常具有规律性。为了解决这类问题,本文采用了文本信息隐藏技术。鉴于传统文本隐写算法的局限性,本文提出了一种基于“火星文”生成的文本隐写系统。该文本隐写系统利用“火星文”较于传统平面媒介的语言形式而言,信息冗余度高的特点,将重要内容隐藏至文本中。该文本隐写系统主要由预处理、控制以及隐写三大基本模块组成。通过对汉字结构特征的研究以及“火星文”构字方式的分析,本文设计出了6种隐写子模块以供信息嵌入与提取。实验结果分析,所提出的隐写方案的嵌入容量高于同类型隐写方案,且具有较强的鲁棒性。此外,我们给出该文本隐写系统在互联网中的一个具体应用,从而体现其实用性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号