You Are My RockStar - 编程开发

某公司国家863项目申请计划书，有幸参与其中，现将部分构思设想与大家分享，希望可以获得更多的交流。

1．主要研究技术内容的国内外发展现状与趋势

2013年是世界大数据元年，基于大数据的信息挖掘引发了医疗领域的巨大变革。大数据的“大”不仅表现在数据的规模性，而且体现在存储、处理、分析数据的高速性上，而数据也不仅仅体现在数字化数据，如今定义的数据不再仅仅局限于数字，更广义的文本、图像、声音、HTTP文本和传感器信息等一些可测量的信息都将数据化。IBM将“大数据”理念定义为4个V，即大量化-Volume、多样化-Variety、快速化-Velocity以及产生的价值-Value四个属性。例如，2009年，美国谷歌（Google）公司在《自然》（Nature）杂志上发表了关于流感预测的论文，成为大数据在医疗卫生应用的典范，在医学界引起巨大反响。Google公司把5000万条美国人最频繁检索的词条和美国疾病预防控制中心（CDC）在2003~2008年季节性流感传播时期的数据进行了比较，希望通过分析搜索记录来判断是否流感暴发。结果显示，Google公司的数据不仅可以预测流感的暴发情况，而且可以具体到特定地区和州。又如麻省理工学院、密歇根大学和一家妇女医院创建了一个计算机模型，可利用心脏病患者的心电图数据进行分析，预测在未来一年内患者心脏病发作的几率。在过去，医生只会花30秒钟来观看用户的心电图数据，而且缺乏对之前数据的比较分析，这使得医生对70%的心脏病患者再度发病缺乏预判，而现在通过机器学习和数据挖掘，该模型可以通过累积的数据进行分析，发现高风险指标。有报告显示，医疗大数据的分析会为美国产生3000亿美元的价值，减少8%的美国国家医疗保健的支出[18]。

另一项是英国临床实践研究数据库(CPRD)的数据研究，用巢式病例对照研究的方法分析了含钠药物制剂对心血管事件发生率的影响。该研究的对象为1987年1月至2010年12月期间、服用至少两种含钠盐的药物制剂或相同药物标准制剂的成人初级保健患者，对1300000例患者进行了长达7年的随访，共记录61000次心血管事件。对于每一个病例都设有一个年龄、性别及临床治疗相匹配的对照。研究发现服用含钠制剂的研究组相比于对照组主要复合终点（非致死性心肌梗死、卒中和血管性死亡）的发生率明显增高，且二者存在着剂量-效应关系，即通过药物累积摄入的钠越多，发生主要复合终点事件的风险越高。与服用相同药物不含钠制剂的对照组相比，服用含钠药物制剂的患者发生卒中的可能性和患高血压的风险显著增高。服用富含钠的制剂的患者其全因死亡率也显著高于对照组，但没有证据表明药物含钠量与心肌梗死或心力衰竭相关。

（2）我国目前大部分的医院数据库均是静态数据，无法满足动态、实时更新的需求。

目前，全国大部分的医院所存数据均是静态数据，无法实时、动态利用新数据，并且各医院之间数据缺乏统一、共享机制；目前，虽然冠脉诊疗的数据库已拥有一定基础，但该类型的数据库只能定期汇总数据，不能满足实时快速的应用要求，数据内容分析简单，远远达不到对于大数据应用处理分析方面的要求。随着每年PCI数据内容的不断增大，目前需要建立一个大容量、数据结构统一、数据能够实现动态更新的PCI大数据库，一个面向全国的集采集、存储、管理、分析及服务于一体的大型心血管数据平台与系统，实现数量与实时的双向需求。

（3）我国在心血管数据管理与分析方面比较薄弱，存在很大的差距。

我国已拥有海量的有关冠脉诊疗的临床数据，数据的管理与统计分析已具备一定的基础，但运用大数据技术进行冠脉数据挖掘与利用的水平还比较薄弱。大数据技术在银行金融和零售服务等行业已得到成功的运用，其技术已相对成熟，将该技术应用到冠脉数据的分析与挖掘，可促进PCI技术的发展与进步，造福广大医生与患者。

（4）针对国内现状制定符合我国国情、患情和医情的PCI全周期数据采集与分析系统

针对中国老百姓及心血管医生对高水平数据研究服务的迫切需求，本项目将对海量心血管疾病PCI数据进行采集、存储、分析，得出有价值的信息,达到对流行疾病的预测及心血管疾病的预防作用，帮助医生及企业制定终端解决方案，提供实时查询检索、在线咨询会诊、数据管理下载平台等服务。

1.1.1数据采集

数据源所涉及的对象包括医疗机构、区域公共卫生机构，医疗机构的HIS、LIS、PACS、CIS以及便携设备数据上传系统等数据构成总体架构最基本数据源，数据源通过医疗机构、区域公共卫生机构等的前置机进行采集，再通过前置机内置路由网关传输到数据平台，数据源层完成了各个分散系统的数据采集及传输。

数据存储层则基于并行数据库系统以及Hadoop发行版及标准数据库实现。用来存储从每个医疗数据源收集来的海量结构化和非结构化数据，数据处理层对数据进行处理，其处理内容包含：数据清洗、数据校验、数据转换。处理对象包含标准数据及非标准数据，处理的数据结构包括非结构化数据、半结构化数据及结构化数据（如非结构化数据的简单分析–过滤和统计、基于计算模型进行结构化数据和非结构化数据的统一关联和统计处理、复杂的分析和挖掘以及复杂问题的近似模糊求解等操作）。被处理的数据最终转化成符合医疗卫生信息化标准的卫生综合数据，标准数经过ETL后存入医疗中心数据仓库，为大数据应用做数据准备。

1.1.2数据处理

针对医疗行业大数据应用特点，采用多项创新的结构化与非结构化数据一体化处理、并行处理、SQL/MapReduce统一执行引擎、分布式容错及自动故障处理、复杂数据类型关联分析、多IP通路负载均衡、处理任务断点执行、动态扩展等技术，从服务器、网络、操作系统到软件层逐层优化，保证系统具有高性能、高可靠、易扩展、易使用等特点。

分别为不同类型的数据集制定统一的元数据描述框架，规范变量名称与结构，并建立主索引。利用面向大数据的Map Reduce算法等实现数据的分布式处理。针对文本型数据，采用基于机器学习的自然语言处理技术、一体化医学语言系统（UMLS）等医学术语标准、语义网、数据关联技术将异构的非结构化PCI电子病历、图形影像、临床检验等核心数据结构化，并进行语义整合。针对数值型数据，采用散点图、频率分布、列联表等识别和处理异常值、逻辑上不一致的值，消除噪声；推导计算缺失值数据，消除重复记录，并根据分析需要将数据拆分、转换类型、归一化等。经过抽取、转换、加载（ETL）后的数据将分门别类存储到数据集市。

就看你能不能战胜它。战胜了，你就是英雄，就是生活的强者。

相关文章：

你感兴趣的文章：

标签云：