首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
上市公司年报中的描述性文本信息是上市公司信息披露的重要组成部分,通过对上市公司信息披露文本的挖掘与分析可以提高对其财务风险的预测能力。基于BERT(bidirectional encoder representations from transformer)模型与自编码器(autoencoder,AE),提出了BERT-AE融合文本特征提取模型,提取A股市场531家上市公司年报中“经营情况讨论与分析”和“审计报告”的文本特征,构建能够反映财务困境公司与正常公司的文本特征指标,随后将文本特征指标与财务指标数据结合,分别使用Logistic回归、极端梯度提升(extreme gradient boosting,XGBoost)、人工神经网络(artificial neural networks,ANN)、卷积神经网络(convolutional neural networks,CNN)四种模型,检验加入文本特征指标后财务风险预测的准确性是否得到提高,并使用Word2Vec-CNN-AE、Word2Vec-LSTM-AE模型提取财务文本特征进行对比实验。结果表明,三种模型提取的财务文本特征均能使财务预警模型预测的AUC得到提升,且BERT-AE模型提取的财务文本特征使得四种财务预警模型预测的AUC值提升效果更为显著,表明BERT-AE模型有效地提取了财务文本特征,提高了上市公司财务风险预警模型的预测能力。  相似文献   

2.
已有上市公司财务困境预测模型主要是基于结构化数据进行研究,为进一步提高上市公司财务困境预测模型准确率,本文将非结构化数据引入上市公司财务困境预测问题中,研究了基于新闻文本分类的上市公司财务困境预测模型,结合新闻文本信息和财务信息提出上市公司财务困境组合预测模型。本文首先将新闻数据进行预处理,然后基于新闻文本数据通过支持向量机(SVM)进行财务困境预测,同时基于财务数据通过Logistic模型进行财务困境预测,最后采用阈值表决集成策略整合两种模型的预测结果,实验结果证明了模型的有效性。  相似文献   

3.
研究文本分类问题,传统方法对文本信息分拣的效率和准确性偏低.为了克服干扰,提高分类精度,提出一种基于二次模糊聚类的文本分拣仿真算法.利用传递闭包方法得到源文本的初始分类,得到初始分划矩阵,然后结合特征指标的不等权重因子对文本的属性相关数据进行迭代计算,从而使文本分拣的结果更接近于实际情况.仿真结果证明,算法能有效地提升文本分拣效率和准确性,对于提升海量文本信息的快速智能分拣有较高的实用价值.  相似文献   

4.
本文在对已有研究文献总结基础上,借鉴伯特森(Botosan,1997)和格雷(Chau-Gray,2002)的研究,衡量了中国上市公司自愿性信息披露的质量,并分析了影响上市公司自愿性信息披露质量的因素。结果表明。上市公司自愿性信息披露质量不高,披露质量差距较大。公司行业特性、地区差异、盈利水平、是否发行H股、公司规模、财务杠杆以及是否为四大审计机构等变量都对上市公司的自愿性信息披露质量有显著影响,其中,公司规模与自愿性信息披露质量的显著性最强,盈利水平、独立董事比例、股权集中度与自愿性信息披露质量之间的关系不明显。  相似文献   

5.
许高建  胡学钢  王庆人 《微机发展》2007,17(12):122-124
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。  相似文献   

6.
该文按照基于内容理解的中文文本网页的主题探测和过滤设计网页信息过滤系统。首先对智能网页过滤系统工作流程进行了研究,然后给出了智能网页信息过滤系统的系统设并对各个模块进行分析,最后对网络数据处理、文本数据处理和自适应处理三个模块进行详细研究。  相似文献   

7.
为了有效管理、分析海量判决书数据信息,设计和实现了判决书数据分析系统。判决书数据分析系统基于 ASP.NET MVC 开发模式和文本判决书信息,利用C#语言设计并开发。系统实现上传原始文本判决书数据、导出判决书数据 修改、上传标准判决书数据、上市公司数据导入和管理、对判决书数据分析和统计、对判决书数据进行相关性分析等功能操 作。应用结果表明判决书数据分析系统在实现上述功能上可以达到比较理想的结果,具有一定的应用前景。  相似文献   

8.
文本挖掘中的中文分词算法研究及实现   总被引:4,自引:0,他引:4  
文本挖掘是指使用数据挖掘技术,自动地从文本数据中发现和提取独立于用户信息需求的文档集中的隐含知识。而中文文本数据的获得是依靠中文信息处理技术来进行的,因而自动分词成为中文信息处理中的基础课题。对于海量信息处理的应用,分词的速度是极为重要的,对整个系统的效率有很大的影响。分析了几种常见的分词方法,设计了一个基于正向最大匹配法的中文自动分词系统。为了提高分词的精度,对加强歧义消除和词语优化的算法进行了研究处理。  相似文献   

9.
文本挖掘是一个从非结构化文本信息中获取用户关心或感兴趣模式的过程。对文本挖掘进行深入的研究将大大提高从海量的文本数据中获取有用知识的效率。本文首先介绍了文本数据挖掘的研究概况,之后着力对当前基于Web文本挖掘的一般处理过程进行了详细的描述,同时总结了文本分类和文本聚类的一些主要算法,在文章的最后对文本挖掘在信息技术中的发展前景做了合理的预测和展望。  相似文献   

10.
电网企业拥有海量采用中文记录的非结构化文本信息,其中包含有大量重要的可靠性统计信息。但依靠人工对其进行挖掘不仅效率低而且准确性因人而异。如何高效、准确、智能地挖掘电网企业设备缺陷文本中重要的可靠性统计信息是目前亟待解决的问题。本文基于改式隐式马尔科夫算法对通过全过程技术监督工作采集的非结构化文本数据进行分句分词,制定研究非结构化数据的结构化表达规则。利用主成分分析、词向量以及深度神经网络等的自然语言处理算法对现有的问题描述文本中的同名词、同义词以及近义词等的语义相似度进行计算,并采用K阶近邻算法对降维后的词向量进行分类聚类。上述工作解决了缺陷文本句子成分难以划分、数字量无法精确提取等问题,形成一份国网系统运检专业领域的数据词典库,为电网领域的非结构化数据挖掘提供了新技术,为今后技术监督工作的展开具有重要意义和贡献。  相似文献   

11.
并购重组类公告是上市公司进行信息披露的重要组成,属于具有一定格式规范的自由长文本。针对公告文本特点,借鉴降维思想,提出规则法和序列标注法相结合的联合信息抽取方案。采用规则法,抽取关键句子集合,将“篇章级”抽取缩小为“句子级”抽取;采用序列标注法,构建基于双向门控循环(BiGRU)网络和注意力机制(Attention)的序列标注模型,实现“句子级”到“字段级”的抽取。实验结果表明,该方案在并购重组类公告信息抽取任务中,取得了平均F1值0.92的较好结果,验证其具有一定的可行性和实用性。  相似文献   

12.
The application of computer technology, especially the emergence of some statistical software and graphic presentation technology, has enabled many areas of research that require a large amount of data analysis. This paper discusses the relationship between R&D investment and corporate financial performance, and further studies the effect of environmental regulations on this relationship through these technologies. The unbalanced panel data of listed companies from 2007 to 2016 were used as a sample, and then corresponding regression modelswere established through logical reasoning. Empirical analysis has found that there is an inverted U-shaped relationship between R&D investment and company financial performance, and there is a U-shaped relationship between the intensity of environmental regulations and companies’ investment in R&D. Another finding is that the inverted U-shaped relationship between companies’ R&D investment and financial performance is moderated by environmental regulations in such a way that greater environmental regulations is associated with a lower point of maximum efficiency in the inverted U-shaped curve. This indicates that the strengthening of environmental regulations will affect a company’s resource allocation, which will lead to a reduced investment in production, R&D and so on, thus reducing the peak value of financial performance.  相似文献   

13.
随着手机、电脑等移动设备的普遍使用,人们越来越习惯于用智能设备存储个人信息。但近些年来,由于移动设备丢失导致的用户隐私泄露事件屡见不鲜,如何实现互联网云环境下身份认证以及信息安全性的提高已经成为人们极为关注的问题。基于这个问题本文提出了一种访问策略的更新,设计动态演化的隐式重认证方法,使得智能终端能够持续地识别用户是否合法,对抗恶意用户的模拟攻击,防止未授权用户造成数据泄露。通过分析及研究以期为相关工作者提供一定的帮助。  相似文献   

14.
近年来文本相似度计算在文本聚类、智能检索、网页问答、结果去重等其他许多自然语言处理领域具有举足轻重的地位,尤其是在搜索引擎中。该文简单论述了文本相似度计算的常用方法,以及本系统如何利用文本相似度计算判断多文本的同一性。更重要的是提出了迭代搜索的概念,进一步细化信息检索工作,尽可能确保信息检索的正确性,提高效率,解放人工。  相似文献   

15.
需求获取和建模是指从需求文本或记录中获取显式和隐式的需求,并通过表格化、图形化、形式化等方法构建相应模型的过程,是软件开发过程中极为关键的一步,为后续系统设计与实现铺平道路,提高软件开发效率和质量,提升软件系统稳定性和可行性.研究者们在需求获取与建模方面获得了一系列研究成果,根据其关注阶段不同,可以将它们分为需求知识提取、需求知识分类和需求模型构建3个方面.鉴于传统方法在知识获取、模型构建的准确性和效率方面一直存在弊端,近年来,越来越多的研究者们将具有广泛应用性的人工智能技术与需求获取、需求分类、需求建模方法相结合,提出了一系列智能需求获取与建模的方法和技术,从而弥补了传统方法的不足.着重从智能需求获取与建模角度着手,对近年来的研究进展进行梳理和总结.主要内容包括:1)统计并分析人工智能技术在需求知识提取、需求知识分类和需求模型构建中使用的方法和技术;2)总结了智能需求获取与建模过程中采用的验证方法和评估方法;3)从科学问题和技术难点2个方面归纳得出目前智能需求获取与建模的关键问题,围绕集成式和动态化模型构建、与其他软件工程活动关联、智能需求知识分类的粒度、数据集构建、评估指标构建和工具支持6部分,阐述了上述问题的可能解决思路和未来发展趋势.  相似文献   

16.
近几年来,短文本信息流广泛应用于一些全民媒体,它在公开传递信息同时携带了丰富且具有极大价值的信息资源。该文提出了一种回顾式话题识别模型,改进了权值计算方法,有效提取了具有较强分辨话题能力的关键词,在聚类过程中将BIC值作为话题类别合并依据,提高了聚类的准确率。通过进行时间段分隔和去掉孤立点信息提高了算法的效率。实验结果表明,该方法有效地提高了短文本信息流的话题检测准确率和效率。  相似文献   

17.
近些年来,由于互联网企业竞争激烈,各平台文本信息存在着相互恶意拦截的问题,这往往给用户带来不便甚至造成损失。目前,在中文文本信息过滤领域中,“火星文”在规避关键词屏蔽方面效果显著。然而,随着人工智能的快速发展,检测技术不断提升,仅仅依靠规避关键词屏蔽已然不足以确保文本信息传递的安全性,文本关键信息仍然存在着被拦截的风险,这是由于这类关键信息的呈现模式通常具有规律性。为了解决这类问题,本文采用了文本信息隐藏技术。鉴于传统文本隐写算法的局限性,本文提出了一种基于“火星文”生成的文本隐写系统。该文本隐写系统利用“火星文”较于传统平面媒介的语言形式而言,信息冗余度高的特点,将重要内容隐藏至文本中。该文本隐写系统主要由预处理、控制以及隐写三大基本模块组成。通过对汉字结构特征的研究以及“火星文”构字方式的分析,本文设计出了6种隐写子模块以供信息嵌入与提取。实验结果分析,所提出的隐写方案的嵌入容量高于同类型隐写方案,且具有较强的鲁棒性。此外,我们给出该文本隐写系统在互联网中的一个具体应用,从而体现其实用性。  相似文献   

18.
近年来,随着国家经济的飞速发展,电力建设工程投资快速增加,电力建设工程标书数量及相应的工程标书评审工作量也急剧增加。传统的纯人工标书评审耗时、耗力且速度慢。要实现工程标书的机器自动评审,就需要对标书进行关键内容自动抽取和摘要,标书文本中的实体识别是关键步骤。鉴于工程标书中有很多非常用词语组合存在,现有的技术对工程标书中的地名等实体的识别效果并不理想。针对上述问题,本文提出并设计一种基于条件随机场的电力工程标书的实体识别技术方案,通过机器实现对标书的自动化快速处理,并帮助实现关键性工程的电子化评估和数据共享。该方法已在实验中证实了其有效性,并已被应用到电力领域的文件自动化处理事务中。  相似文献   

19.
Preparing technical disclosure documents has always been a labor-intensive task in the site management practice of current OCS (Overhead Contact System) project construction, and the overall information level of construction management is not high. As a result, the technical disclosure documents are of poor quality, which significantly affects the effective play of technical documents in guiding construction activities. In view of the above limitations, this paper proposes a text-generation method for OCS engineering technical disclosure based on a knowledge element model. By investigating the characteristics of OCS engineering technical knowledge, a representation model is established to model the technical knowledge from multiple sources, such as case data, standard specifications, and design data. As OCS engineering is highly standardized, we propose a case-rule hybrid reasoning model for the reuse of OCS engineering case knowledge. The mining and utilization of earlier engineering technical knowledge are made possible by similar retrieval of precedent situations and adaptive rules modification. Finally, we suggest an automatic text-generating technique based on a configuration template for new building projects. The knowledge element model is converted into a technical disclosure document expressed in natural language using a two-level mapping process. The cantilever installation project is used as an illustration for empirical research, and relevant practitioners are invited to carry out a manual review by questionnaire from the perspectives of topic relevance, topic integrity, topic word implication, sentence smoothness, sentence continuity, and information volume. At the same time, standard assessment metrics such as BLEU and ROUGE are employed to compare with the neural network-based text generation approach. The outcomes demonstrate that the strategy suggested in this paper can generate technical disclosure text that performs well. Overall, its text integrity and readability may satisfy on-site management's demands and help on-site management lessen the workload of technical management staff.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号