首页 | 官方网站   微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
目的:构建中文生物医学实体及关系的自动识别标注平台,为中文生物医学语料标注和精准医学语料积累及知识服务等提供参考。方法:基于词典和CRF算法实现中文生物医学文本的自动实体识别,利用Python、JavaScript、CSS等编程语言和Query框架等相关工具构建中文生物医学实体自动标注平台。结果:构建了一个可以自动识别中文实体且具备上传、标注、审核文本并最终存储文本等功能的中文自动标注平台。该平台能高效、准确地识别文本内容,实现自动标注。结论:该平台具备了人工导入文献、标注、管理员审核结算的功能,可以为生物医学领域的研究者进行信息的数据挖掘、中文语料库的构建提供支持。  相似文献   

2.
通过梳理国外31个生物医学文本语料库标注内容,根据语料库标注实体类型,参照UMLS语义类型将其划分为6大类。总结语料库在语义类型、数据源等方面特点,阐述生物医学文本语料库构建流程及关键步骤,以期为我国生物医学文本语料库相关研究奠定基础。  相似文献   

3.
文本挖掘在生物医学领域中的应用及其系统工具   总被引:4,自引:2,他引:2       下载免费PDF全文
系统介绍了生物医学文本挖掘的具体流程和文本挖掘技术在生物医学领域中的应用情况,并着重从自然语言处理和本体、命名实体识别、关系抽取、文本分类与聚类、共现分析、系统工具及评价、可视化等方面分别做了阐述.  相似文献   

4.
以医院信息系统为研究基础,以临床医学文本分类为依据,从数据来源角度分析临床科研数据抽取方法和过程,使用自然语言处理、数据库检索技术对医学文本进行抽取和挖掘,取得良好效果,助力临床科研工作。  相似文献   

5.
中医英语语料库建立的设想   总被引:7,自引:1,他引:6  
通过分析语料库对英语语法研究、词典编写及词汇频率分析的作用,论述中医英语语料库建设的意义。认为中医英语语料库的建立将为中医英语的标准化做出贡献;并从文本收集方法、语料库的代表性、语料库的标注及检索软件的选择等方面阐述了中医英语语料库建立的方法。  相似文献   

6.
医院使用的北京思创贯宇科技开发有限公司开发的CREALIFE ST-PACS为例,从构建目标、系统架构和临床使用三个方面,探索一种医院数字化建设中行之有效的途径.  相似文献   

7.
以Web of Science为数据源,检索我国医学信息学领域国际发文量,利用SPSS20.0软件对文献关键词进行因子聚类分析,总结出6大研究主题:核医学图像数据库存储研究;计算机自然语言处理和文本挖掘在中国传统医学诊断中的运用;统计方法和计算机处理对临床医学和研究型数据的分析和系统构建;计算机和网络在医院信息系统、临床管理系统、护理系统研发与管理中的运用;统计方法和计算机技术在临床辅助检查心电图和临床疾病的治疗与诊断、临床决策中的运用;电子医学记录和健康记录的安全管理。  相似文献   

8.
目的 针对缺血性脑卒中这一发病率高、预后差的疾病,应用自然语言处理技术从患者出院小结中进行文本数据挖掘,并通过Python编程语言将非结构化的文本数据转换成供后续统计分析的结构化数据库.方法 利用缺血性脑卒中患者出院小结资料,构建基于知识增强的语义表示模型(ERNIE)+神经网络+条件随机场的命名实体识别模型,进行疾病、药物、手术、影像学检查、症状5种医疗命名实体的识别,提取实体构建半结构化数据库.为了进一步从半结构化数据库中提取出结构化数据,构建基于ERNIE的孪生文本相似度匹配模型,评价指标为准确率,采用最优模型构建协变量提取器.结果 命名实体识别模型总体F1值为90.27%,其中疾病F1值为88.41%,药物F1值为91.03%,影像学检查F1值为87.71%,手术F1值为87.07%,症状F1值为96.59%.文本相似度匹配模型的总体准确率为99.11%.结论 通过自然语言处理技术,实现了从完全的非结构化数据到半结构化数据再到结构化数据的构建流程,与人工阅读病历并手动提取病历信息相比,极大提高了数据库构建的效率.  相似文献   

9.
在介绍临床表型提取技术的基础上,利用临床决策支持技术、自然语言处理技术和机器学习方法,就从糖尿病相关电子病历中提取临床表型等方面进行系统综述,表明深度学习方法可以更高效准确地从电子病历数据中提取出临床表型,帮助临床研究人员更好地进行临床试验,提高医疗护理水平。  相似文献   

10.
从数据库设计、系统构建流程、技术架构、功能模块等方面阐述药材道地特征数据库网络共享系统构建,介绍该系统特色,指出其为药材道地特征相关研究提供可靠的数据支持与可视化展示。  相似文献   

11.
Objective: Developing clinical natural language processing systems often requires access to many clinical documents, which are not widely available to the public due to privacy and security concerns. To address this challenge, we propose to develop methods to generate synthetic clinical notes and evaluate their utility in real clinical natural language processing tasks.Materials and Methods: We implemented 4 state-of-the-art text generation models, namely CharRNN, SegGAN, GPT-2, and CTRL, to generate clinical text for the History and Present Illness section. We then manually annotated clinical entities for randomly selected 500 History and Present Illness notes generated from the best-performing algorithm. To compare the utility of natural and synthetic corpora, we trained named entity recognition (NER) models from all 3 corpora and evaluated their performance on 2 independent natural corpora.Results: Our evaluation shows GPT-2 achieved the best BLEU (bilingual evaluation understudy) score (with a BLEU-2 of 0.92). NER models trained on synthetic corpus generated by GPT-2 showed slightly better performance on 2 independent corpora: strict F1 scores of 0.709 and 0.748, respectively, when compared with the NER models trained on natural corpus (F1 scores of 0.706 and 0.737, respectively), indicating the good utility of synthetic corpora in clinical NER model development. In addition, we also demonstrated that an augmented method that combines both natural and synthetic corpora achieved better performance than that uses the natural corpus only.Conclusions: Recent advances in text generation have made it possible to generate synthetic clinical notes that could be useful for training NER models for information extraction from natural clinical notes, thus lowering the privacy concern and increasing data availability. Further investigation is needed to apply this technology to practice.  相似文献   

12.
长期以来。病历都是以一种叙述性的自然语言方式来记录。医学文献中大量的生物医学知识也是以自然语言形式存在。这些叙述性文本信息的自动利用需要自然语言处理技术,因而医学语言处理就成为医学临床实践和转化医学最为核心的信息技术挑战。它对于我国医疗信息化具有重要意义。  相似文献   

13.
The authors report on the development of the Cancer Tissue Information Extraction System (caTIES)—an application that supports collaborative tissue banking and text mining by leveraging existing natural language processing methods and algorithms, grid communication and security frameworks, and query visualization methods. The system fills an important need for text-derived clinical data in translational research such as tissue-banking and clinical trials. The design of caTIES addresses three critical issues for informatics support of translational research: (1) federation of research data sources derived from clinical systems; (2) expressive graphical interfaces for concept-based text mining; and (3) regulatory and security model for supporting multi-center collaborative research. Implementation of the system at several Cancer Centers across the country is creating a potential network of caTIES repositories that could provide millions of de-identified clinical reports to users. The system provides an end-to-end application of medical natural language processing to support multi-institutional translational research programs.  相似文献   

14.

Objective

De-identification allows faster and more collaborative clinical research while protecting patient confidentiality. Clinical narrative de-identification is a tedious process that can be alleviated by automated natural language processing methods. The goal of this research is the development of an automated text de-identification system for Veterans Health Administration (VHA) clinical documents.

Materials and methods

We devised a novel stepwise hybrid approach designed to improve the current strategies used for text de-identification. The proposed system is based on a previous study on the best de-identification methods for VHA documents. This best-of-breed automated clinical text de-identification system (aka BoB) tackles the problem as two separate tasks: (1) maximize patient confidentiality by redacting as much protected health information (PHI) as possible; and (2) leave de-identified documents in a usable state preserving as much clinical information as possible.

Results

We evaluated BoB with a manually annotated corpus of a variety of VHA clinical notes, as well as with the 2006 i2b2 de-identification challenge corpus. We present evaluations at the instance- and token-level, with detailed results for BoB''s main components. Moreover, an existing text de-identification system was also included in our evaluation.

Discussion

BoB''s design efficiently takes advantage of the methods implemented in its pipeline, resulting in high sensitivity values (especially for sensitive PHI categories) and a limited number of false positives.

Conclusions

Our system successfully addressed VHA clinical document de-identification, and its hybrid stepwise design demonstrates robustness and efficiency, prioritizing patient confidentiality while leaving most clinical information intact.  相似文献   

15.
目的:支撑大规模中文专利精准自动分类工作,利用改进中文专利文本表示的预训练语言模型实现专利的自动分类。方法:基于中文预训练语言模型RoBERTa,在大规模中文发明专利语料上分别使用单字遮盖策略和全词遮盖策略遮盖语言模型任务进行迁移学习,得到改进中文专利文本表示的RoBERTa模型(ZL-RoBERTa)和RoBERTa-wwm模型(ZL-RoBERTa-wwm);将模型应用到专利文本分类任务中进行实验研究,并与典型深度学习模型(Word2Vec+BiGRU+ATT+TextCNN)和当前先进的预训练语言模型BERT、RoBERTa进行对比分析。结果:基于ZL-RoBERTa和ZL-RoBERTa-wwm的中文专利自动分类模型在专利文本分类任务上的分类精准率/召回率/F1值更为突出。结论:改进文本表示的中文专利预训练语言模型用于专利文本分类具有更优效果,这为后续专利情报工作中应用预训练模型提供了模型基础。  相似文献   

16.
简哲  李燕 《医学信息学杂志》2016,37(12):10-13,21
分析自然语言处理在医学领域应用存在障碍的原因,提出电子病历自然语言处理测评的方法,介绍历年来有关电子病历自然语言处理测评内容及其发展情况,包括文本检索会议、医学自然语言处理测评、SHARe/CLEF测评、I2B2测评等。  相似文献   

17.
目的:电子病历数据中的主诉、现病史、既往史、鉴别诊断、影像诊断、手术记录等主体内主要采用中文自然语言文字描述,是临床医生实际诊疗细节的具体体现,包含了诊疗细节的大量、丰富信息。本研究目的在于建立一种从中进行有效信息提取并组织成可分析利用的形式,供目前医学数据处理、医学研究之用。方法:基于医院的真实电子病历数据,设计定制化的基于规则学习及信息抽取方法,采用三个步骤实现中文信息的抽取:(1)抽样标注,随机抽取600份电子病历的病史信息(包括现病史、既往史、个人史、家族史等),采用本研究开发的标注平台,对其中需要抽取的信息(以糖尿病史为实例)进行标注;(2)根据标注结果,进行抽取模版归纳,并将抽取模版进行重写,生成可以直接用于抽取的Perl语言正则表达式抽取规则,并利用这些规则进行实际信息抽取;(3)对抽取结果进行人工验证与自动化验证相结合的方法,对方法的有效性进行验证。结果:所设计方法已在国家医疗数据中心平台上实现,并针对糖尿病病史抽取在医院进行了单个科室的现场验证,2015年1 436份糖尿病患者病历的病史抽取结果为召回率87.6%、准确率99.5%、F分数(F-Score)0.93;全体糖尿病患者10%抽样病历共1 223份的抽取结果为召回率89.2%、准确率99.2%、F-Score 0.94,效果较好。结论:主要采用自然语言处理与基于规则的信息抽取相结合的方法,设计并实现了从非结构化的中文电子病历文本数据中抽取定制化信息的算法,与已有工作比对效果较好。  相似文献   

18.
分析我国循证医学论文写作现状,结合项目实践从语料库设计、语料采集、语料加工及语料库应用等方面详细阐述循证医学专业英语语料库建设理论、原则和方法,指出该语料库对循证医学论文写作教学、翻译、教材编写和语法研究具有应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司    京ICP备09084417号-23

京公网安备 11010802026262号