Login
升级VIP 登录 注册 安全退出
当前位置: 首页 > PPT模板 > 教师培训 > 医学数据挖掘与大数据处理,医学数据挖掘与大数据处理范例

医学数据挖掘与大数据处理,医学数据挖掘与大数据处理范例

收藏

医学数据挖掘与大数据处理

医学数据挖掘与大数据处理

医学数据挖掘与大数据处理

第七章医学数据挖掘与大数据处理本章主要内容数据挖掘与数据仓库常用的数据挖掘方法大数据概念大数据处理方法医疗大数据应用阅读书目崔雷.医学数据挖掘.高等教育出版社涂子佩.大数据.广西师范大学出版社赵刚.大数据技术与应用实践指南.电子工业出版社李雄飞等.数据挖掘与知识发现(第2版).高等教育出版社纽约警察-杰克.梅普尔的传奇数据驱动管理除了上帝,任何人都要用数据说话。-爱德华.戴明图灵奖、诺经济学奖、美心理学会终身成就奖人类理性是有限的,所有决策都是基于有限理性的结果,如果能利用存储在计算机里的信息来辅助决策,人类理性的范围将扩大,决策的质量就能提高。决策支持—商务智能11/01/20238数据挖掘的发展动力---需要是发明之母数据爆炸但知识贫乏全球每秒290万份电子邮件、每秒亚马逊产生72.9笔订单,每分钟20个小时视屏上传到YouTube,Google每天处理24PB数据;淘宝有6亿注册会员,在线商品超过9亿,每天交易超过数千亿。自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。这些数据当中大量有用的知识被淹没其中。11/01/20239解决方法-数据仓库和数据挖掘数据仓库(DataWarehouse)和在线分析处理(OLAP)在大量的数据中挖掘感兴趣的知识(规则、规律、模式、约束)支持数据挖掘技术的基础--海量数据搜集--强大的多处理器计算机--数据挖掘算法数据仓库数据仓库是一个面向主题的,集成的,相对稳定的,反映历史变化的数据集合,用于支持管理中的决策支持。数据仓库体系结构数据仓库体系结构数据源:通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等。数据的存储与管理:决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。数据仓库体系结构OLAP(OnLineAnalysisProcessing)对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。ROLAP(关系型在线分析处理),基本数据和聚合数据均存放在RDBMS之中;MOLAP(多维在线分析处理)和HOLAP(混合型线上分析处理),基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。数据仓库体系结构前端工具各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。数据分析工具主要针对OLAP服务器报表工具、数据挖掘工具主要针对数据仓库。数据仓库四大特点数据仓库是面向主题的。数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。数据仓库是集成的。数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,转换统一与综合之后才能进入数据仓库;数据仓库特点数据仓库是随时间而变化的。不断跟踪事务处理系统中,数据仓库会把业务系统数据库中变化数据追加进去。传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。数据仓库是稳定的(非易失性的)。其数据以物理分离的方式存储,决策人员只进行数据查询,而不进行数据修改。数据仓库只需要两类操作:数据的初始化装入和数据访问11/01/202323数据挖掘与知识发现基本概念数据挖掘(从数据中发现知识)数据挖掘(DM):从大量的数据中正规地发现有效的、新颖的、潜在有用的,最终可被读懂的模式的过程,简单的说就是从大量数据中提取或“挖掘”知识。医学数据挖掘:是针对医学方面的数据仓库进行挖掘知识发现:知识发现(KDD)包括数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示等步骤•有人把数据挖掘视为数据中的知识发现或KDD同义词,另一些人将其视为知识发现的一个基本步骤。11/01/202325数据挖掘和知识发现的基本步骤数据库目标数据已处理数据已转换数据模式趋势知识选择处理转换数据挖掘解释评价11/01/202326数据挖掘和知识发现的基本步骤选择:根据某种标准选择数据处理:包括清除和充实转换:删除丢失重要内容的记录,将数据分类、格式变换等数据挖掘:运用工具或算法,在数据中发现模式和规律解释评价:将发现的模式解释为可用于决策的知识11/01/202327数据挖掘:数据库中的知识挖掘(KDD)数据挖掘——知识发现过程的核心数据清理与集成数据集数据仓库任务相关数据选择数据挖掘模式评估模式11/01/202333知识发现和数据挖掘的算法数据挖掘算法由3部分组成:模型表达、模型评价和检索方法。关联规则。两个或多个变量之间存在某种规律性,称为关联。如超市中顾客买可乐和玉米片的相关性。分类或者特征提取。如检查特定记录并描述第一类记录的特点。如信用分析。序列模式。注重在一定时间段内发生的购买事件。如买电视和摄像机序列。聚类分析。将数据库中的记录分成子类。可用统计学方法和神经网络等非监督性符号归纳方法实现数据聚类。本章主要内容数据挖掘与数据仓库常用的数据挖掘方法大数据概念大数据处理方法医疗大数据应用常用的数据挖掘方法关联规则与关联分析聚类分析决策树人工神经网络遗传算法粗糙集理论本章主要内容数据挖掘与数据仓库常用的数据挖掘方法大数据概念大数据处理方法医疗大数据应用大数据概念和特征大数据概念无法在一定时间内用传统的数据库软件工具对其内容进行抓取、管理和处理的数据集合。--维基百科奥巴马竞选连任-大数据应用DanWagner,奥巴马2012年竞选团队首席分析师,长的有点像比尔盖茨大数据在医疗行业的应用基因组学测序分析大数据在医疗行业的应用疫情和健康趋势分析GOOGLE官网全球登革热趋势。http://www.google.org/denguetrends/大数据分析或可助抗击埃博拉。健康地图”通过搜集社交媒体、地方媒体信息,比WHO早9天确定埃博拉出血热在几内亚境内的传播情况。大数据的作者-涂子沛我们已经不仅仅处在信息时代新信息时代?后信息时代?智能时代?越来与依赖机器,越来与依赖网络,人机共生的时代,机器是数据启动的软件定义这个世界,数据驱动这时代大数据的特征(四个V)数据量巨大(Volume):PB级以上数据类型多(Variety):日志、音频、视频数据流动快(Velocity):实时分析获取信息数据潜在价值大(Value):数据的量级数据大小的量级1Byte(B)1Kilobyte(KB)=1024b1Megabyte(MB)=1024KB1Gigabyte(GB)=1024MB1Terabyte(1TB)=1024GB1Petabyte(1PB)=1024TB1Exabyte(EB)=1024PB1Zettabyte(ZB)=1024EB1Yottabyet(YB)=1024ZB本章主要内容数据挖掘与数据仓库常用的数据挖掘方法大数据概念大数据处理方法医疗大数据应用大数据主流架构:Hadoop+MapReduceHdoop+MapReduce架构HDFS:分布式文件系统。运行在廉价的计算机组成的大规模集群之上。采用元数据集中管理和数据块分散存储相结合的模式。Hbase:基于列存储的开源非关系型数据库。提供非常大数据集的实时读取和写入的随机存取。MapReduce:分布式并行计算框架,Map任务分解,Reduce综合结果。是一个JAVA函数。Mahout:分布式机器学习和数据挖掘库。R语言:用于统计分析、绘图的语言和操作环境Hdoop+MapReduce架构Hive:Facebook提供的数据仓库工具,分析结构化数据的中间件。Hive类SQL查询语音可以查询分析存储在Hadoop中的大规模数据。Pig:基于Hadoop的并行计算高级语言,类似SQLSqoop:开源工具,Hadoop与传统的数据库间进行数据传递。Flume:Cloudera提供的日志收集系统。ZooKeeper:分布式应用程序集中配置管理器。Hadoop优势Hadoop:分布式文件系统和并行执行环境。能够存储管理PB级的数据。1.易于扩充的分布式架构。数据处理采用大量计算节点横向扩充实现。2.善于处理非结构化数据。3.自动化的并行处理机制。数据分布在并行节点上,每个节点只处理一部分数据,所有节点同时并行处理。4.高可靠性、容错强。自动保存数据多个副本。5.计算靠近存储。计算与存储一体。6.低成本计算和存储。MapReduce框架本章主要内容数据挖掘与数据仓库常用的数据挖掘方法大数据概念大数据处理方法医疗大数据应用???提纲一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望压在百姓健康3座大山•第一座健康大山——跑步进入老龄化社会第二座大山-癌症年轻化第三座大山-新生儿“先天缺陷”医疗费用在不断上升GDP的占比非常高0-9%趋势分析:我们正处在医疗行业的一个重要转折点%ofpopulationoverage6030+%25-29%20-24%2050WWAverageAge60+:21%Source:UnitedNations“PopulationAging2002”全球老龄化平均年龄60+:目前的10%,到2050年将达到20%Source:McKinseyGlobalInstituteAnalysisESGResearchReport2011–NorthAmericanHealthCareProviderMarketSizeandForecast以美国为例:医疗大数据的价值3千亿美元/年,相当于每年生成总值增长0.7%015000100005000201020112012201320142015趋势分析:我们正处在医疗行业的一个重要转折点存储的增长医疗服务产生的数据总量(PB)AdminImagingEMREmailFileNonClinImgResearch医疗影像归档一个医疗系统案例的数据到2020年,医疗数据将急剧增长到35Zetabytes,相当于2009年数据量的44倍增长urce:McKinseyGlobalInstituteAnalysisGResearchReport2011–NorthAmericanHealthCareProviderMarketSizeandForecast一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望大数据对于“大数据”(Bigdata)研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。4V:Volume(大量)Velocity(高速)Variety(多样)veracity(真实性)/Value(价值性)1.制药企业/生命科学3.费用报销,利用率和欺诈监管2.临床决策支持&其他临床应用(包括诊断相关的影像信息)4.患者行为/社交网络医疗大数据简介数据来源包括哪些?我们如何利用大数据创造价值?(示例)2.临床决策支持4.由生活方式和行为引发的疾病分析1.个体化医疗3.欺诈监测得以加强McKinseyGlobalInstituteAnalysis医疗大数据相关解决方案健康信息服务新兴的医疗服务应用数据分析及视觉化处理数据处理/管理分布式平台老龄社会肿瘤基因组学医疗影像分析医疗影像影像数据处理加速基础医疗服务临床决策支持类SQL的检索医疗记录存储优化个人健康管理个体化医疗机器学习基因数据安全和隐私一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望大数据的挑战不仅来自于数据量的增长...需要新技术的支持检验结果,费用数据,影像,设备产生的感应数据,基因数据等数据量••结构化数据,遵循标准的数据标准(如,HL7)非结构化数据,如口述、手写、照片、影像等类型实时有效的商业价值基于现有数据库中的数据进行分析,来支持不同种类的业务:如费用及报销、患者病史、归档影像分析、实时临床决策支持(数据分析)•实时数据分析,而非传统的批量处理分析•数据以流的方式进入系统,进行抽取和分析•对于实时运行中的每个时间节点产生影响,而不是事后处理在传统的解决方案之上,引入新的数据及分析模型和技术,价值速度一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望传统解决方案环境ERP,CRM,Batch,OLTP-DBDataCenterProvisioningDiscreteVirtualCloud–AsAServiceHPC关注数据的价值大数据存储的考虑传统存储方式大规模分析–Hadoop海量数据库–Hive大规模备份–Lustre数据源文本-语音-视频-传感器RequestingOrM2M通讯批量–商业应用丰富的视觉化效果–安全的数据分析和缓存边缘服务器(Edge)分析同步端到端Machine-to-MachineSource-to-Source可行的解决方案体系(示例)Applications&ServicesVisualization–FileStructure&AnalyticalToolsDataDelivery,Operational&GraphicalAnalyticsDataManagement&ComputationalAnalyticsCompute–Storage&InfrastructurePlatforms高效的大数据访问途径(客户端)“KnowMe”“FreeMe”“ExpressMe”智能手机移动医疗助理平板电脑笔记本,Ultrabook™其他设备台式机数字标牌自助终端MobilityVitalsign,I&OentryMedicationadministrationTemplatedataentryFree-formattextdataentryLargediagnosticimagesDatainquiryManageability“LinkMe”大数据在中国医疗行业中的应用模式1.制药企业/生命科学3.费用报销,利用率和欺诈监管2.临床决策支持&其他临床应用(包括诊断相关的影像信息)4.患者行为/社交网络•药品研发对药品实际作用进行分析;实施药品市场预测•基因测序•分布式计算加快基因测序计算效率•公共卫生实时统计分析发现公共卫生疫情及公民健康状况•新农合基金数据分析及时了解基金状况,预测风险辅助制定农合基金的起付线,赔付病种等•基本药物临床应用分析分析基本药物在处方中的比例•临床数据比对匹配同类型的病人,用药•临床决策支持利用规则和数据实时分析给出智能提示•远程监控采集并分析病人随身携带仪器数据,给出智能建议•人口统计学分析对不同群体人群的就医,健康数据实施人口统计分析•了解病人就诊行为发现病人的特定就诊行为,分配医疗资源一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望案例分享:RegionalHealthInfoNetwork–ChinaReal-timeClinicalDecisionSupport•实时的医疗数据处理(电子健康档案,医疗影像数据),支持医疗协同、临床决策支持和公共卫生管理•采用Hadoop(HBase/Hive)来实现医疗数据分析和处理•未来将扩展到不同领域、不同区域/地区(包括数据交换、处理和分析)•与本地的软件厂商及OEM厂商进行了广泛合作•技术挑战–Hadoop(HBase/Hive)与传统关系型数据库如何有效结合–大数据在区域卫生信息平台中的切实可行应用场景PublicHealthHospitalPrimarycare(Grassroots)HealthInformationDWEHRData&ServicesRegistriesData&ServicesLongitudinalRecordServicesHealthInformationAccessLayerCareCoordinationClinicaldecisionsupport…DataAnalyticR&D…RHINAncillaryData&Services分布式数据服务系统展现层(报告,视图)区域医疗及基层医疗信息系统大数据解决方案(Hadoop)集成的用户应用界面(居民、医生、卫生行政管理人员)数据挖掘(Mahout)分布式批量处理框架(Map/Reduce)区域卫生信息访问层(HIAL)医院信息系统医院信息系统语言和编译(Hive)实时数据库(Hbase)基层医疗信息系统医疗服务药品管理新农合医疗保险服务器虚拟化基础设施虚拟化网络虚拟化存储虚拟化基于云的区域基层医疗服务系统多租户应用分布式文件系统协作服务(HDFS)(Zookeeper)结构化数据采集器日志数据采集器(Sqoop)(Flume)健康档案数据存储公共卫生运营管理一、医疗与大数据的趋势二、什么是医疗大数据三、大数据面临的挑战四、如何管理和利用大数据五、案例分析六、总结与展望36总结•我们正处在医疗行业大数据和分析的一个重要转折点•我们需要让大数据更为高效,可以便捷的访问•专注在创新,依赖产业链来提供企业核心能力之外的服务•采用标准和最佳实践,参考全球已有的成熟模型展望让我们一起让医疗大数据成为现实:•••提供具有差异化的技术解决方案,探索开放标准和最佳实践寻找可能的客户和产业链合作伙伴,共同探索医疗行业的核心应用模式与产业合作进行验证,加速大数据的采用参考题•1、文献综述:大数据在医疗卫生健康领域的应用现状。•2、常用的大数据处理技术比较分析


  • 编号:1701027166
  • 分类:教师培训
  • 软件: wps,office Excel
  • 大小:61页
  • 格式:xlsx
  • 风格:其他
  • PPT页数:4926347 KB
  • 标签:

广告位推荐

相关教师培训更多>