MBA导师韩普 | 潜心医疗健康大数据分析（互联网+大数据特色MBA项目的研究领域之一）

南京邮电大学MBA

2022-01-07 12:47 浏览量: 2312

随着社会信息化的快速发展，人们对医疗健康信息的需求与日俱增。公开数据显示，百度每天搜索量约60亿次，其中25%与疾病健康有关。互联网的蓬勃发展为公众的健康需求提供了一个平台，但同时互联网信息爆炸使得必须借助大数据分析和人工智能等技术进行处理。与传统数据不同的是，医疗健康数据的多源异构性、复杂性和海量性以及临床和用户的信息需求给传统的数据分析和处理带来了巨大挑战。随着大数据和人工智能技术的迅速发展以及相关应用的日趋成熟，医疗健康数据分析迫切需要新的突破。医疗实体识别是医疗领域信息处理的基础，并且已经成为医疗健康信息抽取和知识发现中重要的研究方向。在针对电子病历的医疗实体识别研究中，提出了融入外部语义特征的中文电子病历实体识别模型，该模型首先利用word2vec将大规模的未标记文本生成具有语义特征的字符级向量，接着通过整合医疗语义资源以及实体边界特征分析构建了医疗实体及特征库，将其与字符级向量相拼接以更好地挖掘序列信息，最后采用改进的Voting算法将深度学习结果与CRF结果相整合以纠正标签偏置。针对医学文献术语存在专业性强、规模庞大、特征复杂和抽取难度大的问题，提出了一种高效的中文医学文献实体识别模型MFA-BERT-BiLSTM-CRF，该模型在传统模型的基础上，利用BERT训练获得含有丰富语义信息的特征向量，同时引入医学领域知识特征和自注意力机制以挖掘更深层次的语义特征，进一步提升了医学实体识别效果。社会化媒体中大部分网民对医疗健康问题表述不仅不够规范，而且存在大量口语化表述。如何将用户非标准化表述映射到标准的医学术语，已经成为医疗健康信息处理和知识挖掘的关键环节。在中文医疗实体归一化研究方面，首先基于在线健康社区构建中文疾病名称归一化数据集；接着采用LSTM、GRU和CNN模型进行中英文对照实验，然后利用word2vec和Glove生成外部语义特征向量，并通过CNN模型进行验证；最后在自注意力机制基础上，提出多特征融合的中文疾病名称归一化模型MTCF-CNN，该模型可以更好地利用全局和局部语义特征。此外，还基于多任务学习和多态语义特征提出了中文疾病名称归一化模型MTAD-BERT-GCNN，该模型能够更好地利用多任务学习捕获多态语义信息，通过共享多任务间权重参数以深度挖掘文本语义信息从而达到最优效果。

韩普老师也承担了MBA硕士论文的指导工作。小编分享韩老师在医疗健康大数据领域的最新研究，感兴趣的读者可以阅读。置顶留言是韩老师的电子邮箱地址。中文文章下载自中国知网，外文文章下载自对应期刊网站，在此一并表示感谢。“考虑隐私保护的医疗数据共享意愿研究——基于演化博弈的视角”发表在《现代情报》（01）

“基于多特征融合的中文疾病名称归一化研究”发表在《数据分析与知识发现》（05）

“隐私保护视角下医疗数据共享意愿研究——基于三方演化博弈分析”发表在《现代情报》（03）

“基于特征融合和多通道的突发公共卫生事件微博情感分析”发表在《数据分析与知识发现》（11）

“基于多任务学习和多态语义特征的中文疾病名称归一化研究”发表在《情报学报》（11）

“Chinese Q&ACommunity Medical Entity Recognition with Character-Level Features andSelf-Attention Mechanism” 发表在“INTELLIGENT AUTOMATION AND SOFTCOMPUTING”（01）