企业云融合计算解决方案参考
本作品内容为企业云融合计算解决方案参考,格式为 docx ,大小 2761916 KB ,页数为 59页
('企业云融合计算解决方案参考目录1项目目标1.1项目背景1.2现状及需求分析1.3总体建设目标1.4具体技术目标1.4.1丰富的基础设施资源服务1.4.2高效的智能管理能力1.4.3端到端的安全防护能力1.5建设原则2总体架构设计2.1方案设计思路2.2方案设计原则2.3方案架构设计2.3.1总体架构2.3.2网络架构2.3.3安全架构2.3.4计算架构2.3.5存储架构2.3.6运维管理架构3计算核心虚拟池设计3.1主机资源化平台设计3.2虚拟机的定义3.3计算资源池分类3.4服务器容量规划3.5虚拟机资源分配3.6虚拟机的物理分布3.7高可用性设计3.8动态资源调整4云业务及管理平台设计4.1云平台整体分析4.2云平台组织架构及权限管理4.3Iaas云业务4.3.1云主机服务4.3.2云防火墙4.3.3云负载均衡服务4.3.4VPC租户服务4.3.5计费管理4.3.6物理主机服务5运维管理设计5.1建设目标5.1.1总体目标5.1.2技术目标5.2基础资源监控5.2.1网络设备管理系统5.2.2主机应用管理系统5.2.3存储设备管理5.3业务服务管理5.3.1业务可视化监控5.3.2基于业务的故障管理及分析5.4告警管理5.5统一的IT资源配置信息库(CMDB)5.5.1配置管理关键点5.5.2配置项的范围5.5.3配置项的关系设计5.5.4配置管理系统功能6配置清单说明6.1硬件配置需求6.2虚拟化软件配置需求1项目目标1.1项目背景国内某大型食品加工企业根据业务需要,新建研发数据中心。研发数据中心要求以虚拟化、云计算为支撑,以信息安全为核心,以标准化、模块化服务为主体,以运营服务为导向,建设基于云理念的弹性、高效、安全的基础设施资源运营服务中心,实现基础软、硬件设施资源动态调度、自动管控、共享使用和业务快速部署,提高运营效率,降低运营成本,满足企业“数据驱动、用户至上、开放协同、随需应变”的信息化发展战略的要求。1.2现状及需求分析◼现状业务系统现状如下:(1)烟囱式的建设方式导致资源无法统一规划、资源无法共享,利用率低。各业务系统在建设的时候独立规划,系统间设备复用程度低。资源无法在业务系统之间共享,而建设投资基于预估峰值,实际上线后资源利用率低,造成投资浪费。不同阶段设备购置型号不同,增加了设备维护的难度。由于硬件采购周期的原因,业务系统上线周期长达3-6个月。(2)IT基础架构缺乏弹性业务发展超出预期时,无法根据业务需求动态调整资源供给,难以满足业务快速增长的需求。系统资源扩展同样需要周期,在此过程中,业务系统将处于高危运行状态,服务质量下降。(3)运维效率低、压力大运维压力主要来自于系统资源的监控和管理,如设备是否运行正常、应用平台的优化、设备的升级等问题。现有运维体系依托外包,初步实现了专业化分工,例如有专门的网络管理人员、存储管理人员、应用软件管理人员等,但是由于系统管理缺乏关联性,而是依赖于人员合作,问题定位困难,解决问题的周期长,严重影响服务质量。部分系统存在单点故障,缺乏高可用设计,有必要对服务器进行虚拟化整合改造,利用虚拟化实现高可用;存储性能和可靠性均不满足未来业务要求,有必要对存储进行整合,提高资源的利用率,提高存储可用性。◼需求对新建的研发数据中心IT基础设施诉求如下:采用应用成熟、适度先进的技术,构建新型数据中心,并整合现有的资源,建立基于IAAS的基础软、硬件资源池,并进行动态调度、自动管控和共享使用,为企业各类业务应用提供标准化、可定制化的运行环境,提高整体运营效率和IT设施的可靠性、安全性,并有效降低运营成本,促进企业信息化的跨越式发展。同时,满足未来市局范围内多数据中心之间资源共享、统一管控的要求。(1)建立高效灵活的IT架构,实现IT资源对业务变化的快速响应。在业务场景变化时能够自动化的实现IT资源的调度,缩短业务系统的建设周期,提高业务系统的使用体验用户满意度。(2)通过集中化管理、统一运维,以及标准化的运维流程和智能化的监控与事件分析,提高运维效率、降低运维成本。(3)综合考虑信息安全等级保护3级要求和业务应用的实际需求,提供事前防御、事中控制、事后审计全方位保障,提高信息安全防护能力。1.3总体建设目标(1)建立技术成熟、适度前沿的企业“私有云”服务中心通过虚拟化、云计算技术,将硬件、软件进行有效集中形成IaaS资源池,面向全市局提供服务,实现业务快速上线和网络、安全、计算、存储等资源的弹性扩展,形成高效、便捷的企业级“私有云”。(2)实现多数据中心统一管控、互为备份利用“大二层”网络技术,实现多个数据中心之间负载分担、互为备份架构,有效整合市局内部IT资源,并实现资源共享、统一管控。(3)实现集设备、业务、状态监控、事件分析于一体的智能运维通过建设集设备管理、业务管理、状态监控、事件分析于一体的智能化运维管理平台,降低运维复杂度,提升故障定位及恢复效率。(4)实现网络及业务风险纵深防御以等级保护为指导,从网络、主机、应用、数据等多个层面出发,实现事前防御、事中控制、事后审计多维度纵深防御体系。(5)兼顾现有业务特点,实现平滑迁移以稳妥和安全为前提,按计划、分批实现新旧两个数据中心的应用迁移。按照先易后难的方式,详细规划好风险的规避措施和回退步骤,最大限度降低对业务的影响。1.4具体技术目标1.4.1丰富的基础设施资源服务(1)物理资源:云平台以服务目录的方式实现物理服务器、网络、存储、安全设备的自助申请与管理。(2)虚拟资源:通过虚拟化技术,将物理资源划分更细小的服务单元,基于云平台提供云主机、云存储、云网络、云防火墙等虚拟资源。(3)虚拟数据中心(VDC)资源:可为下属单位用户以小型逻辑数据中心的模式提供批量的物理或虚拟的计算、存储和网络等资源集合。(4)分布式应用资源:可针对分布式架构业务系统,提供基于容器(Docker)、关系型数据库(RDS)、消息队列(MQ)、缓存(Redis)、微服务等应用所需的软件基础环境(由于基于分布式架构的应用本身非标准化应用,一般性情况下都是由应用软件系统开发商结合自身业务特点,选用并搭建相关环境,无法在没有具体需求时提前搭建,故本次数据中心设计方案不包含具体的分布式应用供给,仅考虑提供系统所需的物理机/虚拟机、传统SAN或分布式存储,并通过云平台实现基础设施层面的统一管理)。1.4.2高效的智能管理能力(1)应用的自动化部署。将特定规格的虚拟机、存储、数据库、中间件等事先编排成模板,用户可以通过自助菜单申请应用资源环境,实现应用的快速部署。(2)云备份能力。提供虚拟机整机的备份功能,结合虚拟化漂移能力,实现应用主机的高可用。(3)云容灾能力。在网络打通的前提下,支持基于用户视角实现单个业务的多数据中心的容灾。(4)主机迁移服务。实现物理机到虚拟机、虚拟机到虚拟机之间在线迁移。(5)高效运维能力。通过对基础资源(主机、网络、存储)、应用组件(数据库、中间件、web服务等)统一监控以及日志分析,及时发现故障隐患、性能瓶颈,实现业务稳定运行。(6)故障恢复时间:对于硬件设备故障:5分钟以内对于系统软件环境故障:20分钟对于数据来类故障:依赖业务数据量和恢复速度1.4.3端到端的安全防护能力实现业务系统登录认证、攻击防御、数据传输及存储保护、日志审计等全过程管理,并配合边界隔离、病毒检测、实时监控等运维措施,实现端到端的安全。(1)登录安全:采用CA认证及堡垒机登录,确保身份可信,并对登录人员账号进行权限管理。(2)传输安全:外部登录数据传输采用VPN隧道方式接入,对明文数据进行SSL加密。(3)边界安全:根据安全级别对业务系统进行安全区域划分,分区间采用防火墙进行安全隔离;在互联网出口处部署入侵检测防御、病毒检测防御、抗DDOS攻击设备等安全措施个区域边界进出数据和流量的安全。(4)主机安全:采用系统安全加固、防病毒软件手段保证业务主机安全。(5)数据安全:采用数据加密存储、介质冗余、存储双活、定时备份等措施,确保数据安全。(6)运维安全:利用日志审计、数据库审计系统及时发现系统中存在的或潜在的威胁,并通过监控实时发现异常情况以及时处理。(7)云安全:利用VLAN隔离、安全组策略,结合边界防火墙共同部署构筑南北+东西流量安全防护机制,并对云平台、API接口进行安全加固,确保云平台自身的安全。1.5建设原则(1)高可用性关键设备和链路采取冗余设计,保障在设备或链路出现故障的情况下,服务不间断;同时,综合利用大二层迁移、数据远程复制等技术实现企业的业务及数据备份,保障在数据中心在不同程度故障的情况下业务能够快速切换,不影响用户业务。(2)业务需求快速响应通过部署具备云业务自动化管理的云平台,自动提醒相关人员对业务部门提交的需求电子流进行需求审核,并为业务部门创建、分配相应虚拟机资源,无需传统数据中心硬件设备选型、采购、上线、配置等复杂流程,实现业务上线时间最短可达半小时,大大提升数据中心对业务部门的响应速度。(3)运维高效通过建设集设备管理、业务管理、状态监控、事件分析于一体的智能化运维管理平台,降低运维复杂度和系统故障率,提升故障定位及恢复效率。(4)扩展灵活选用具备冗余业务插槽、支持功能和性能灵活扩展的设备,实现在不影响现有业务的前提下进行网络扩容,满足不断增长的业务对数据中心功能和性能扩展的需求。(5)风险纵深防御数据中心建设以公安部《信息系统安全保护等级定级指南》和《信息系统安全等级保护测评准则》为指导,从网络、主机、应用、数据等多层面综合考虑,建设纵深防御体系。2总体架构设计2.1方案设计思路1)基于IaaS云管理平台建设的自动化云数据中心设计通过计算虚拟化系统建设的数据中心,采用云管理平台进行资源的管理,并提供自助式的云服务,能有效实现企业信息系统的技术标准化和管理规范化,为企业信息系统提供更好的支撑。云管理平台需要在虚拟化技术的支撑下,对包括计算资源、存储资源、网络资源等在内的基础架构进行管理,实现按需的、自动化的、可计量的对基础架构资源进行分配,同时,实现对资源使用情况和健康情况进行监控和管理。2)基于软件定义+网络虚拟化动态灵活的云网融合设计云数据中心引入服务器虚拟化技术后,对网络要求大二层设计,传统的VLAN技术存在跨三层网络的限制(特别是在夸数据中心),无法做到二层透传,而基于新一代VxLAN技术可实现三层网络透传,在物理网络上叠加一个软件定义的逻辑网络,物理网络不变,通过定义其上的逻辑网络,实现跨三层网络的二层透传,从而大二层网络的扩展问题。软件定义+网络虚拟化利用标准的OpenFlow协议,通过软件定义控制器与OpenFlow交换机来捕获云环境中新上线虚拟机所发出的报文,再根据捕获到的报文特征来感知虚拟机启动或迁移事件与虚拟机接入位置。基于这一技术,可以将获取到的虚拟机位置信息通知软件定义网络控制器,软件定义网络控制器进而在网络设备上自动下发虚拟机相关的网络策略,实现网络自动配置,让虚拟机上的业务能够被正确地访问,这一过程全部是自动化处理的,从而保证了网络配置的正确性与快速下发,实现网络动态感知虚拟机迁移,实现网络策略的动态跟随,真正实现云、网融合。3)基于软件定义的信息安全与基础资源动态调度设计虚拟化和云的引入,形成计算、存储、网络及安全资源池,资源池化后网络边界模糊,需要引入新的技术解决虚拟化环境的隔离能力,并且能够实现资源池的基础资源能够在不同租户间的动态调度能力。基于软件定义技术,通过将计算资源、存储资源、网络及安全资源分配给不同租户,构成虚拟云平台,虚拟云平台之间可以实现有效的、安全的隔离,使之符合安全等保(等保三级)的要求;并且通过云管理平台能够实现基础资源在不同的虚拟数据中心间灵活调度,真正实现云计算数据中心资源的动态、按需的分配/调度和提供资源。IT基础设施是由上层应用的发展决定,现在云计算以及虚拟化技术已经深刻的改变了IT基础架构,企业必须能够优化计算、网络和存储资源之间的关系,实现真正的灵活部署以及弹性扩展,才能支撑起IT瞬息变化的需求。从近些年IT基础设施的发展可以得出如下结论:硬件平台单一化,越来越多的IT设备均由X86服务器承载;专用设备软件化,即通过软件定义技术实现灵活的业务部署。基于此发展趋势,超融合设备成为基础设施领域最热门的产品HCI超融合是实现“软件定义数据中心”的终极技术途径。HCI类似Google、Facebook等互联网数据中心的大规模基础架构模式,可以为数据中心带来最优的效率、灵活性、规模、成本和数据保护。使用计算存储超融合的一体化平台,替代了传统的服务器加集中存储的架构,使得整个架构更清晰简单。相比分离式的计算存储虚拟化,超融合在提供存储的同时,也提供计算能力,这不但大量减少了硬件投入和电力成本,也将计算放在离存储更近的地方,达到最优的性能。超融合架构通常采用了全分布式的组件,横向可扩展,不存在单点失效,数据能够自动恢复和备份,性能优势非常明显,是目前国际上主流科技公司普遍采用的IT基础架构,也是未来IT基础架构的方向。下表列举了使用超融合架构(计算+存储)和传统数据中心三层架构(服务器+光纤交换机+存储)的对比:基于以上项目背景及建设思路,推荐用户采用超融合架构解决方案,融合了:计算、网络、存储和安全四大模块,通过全虚拟化的方式构建IT架构资源池。所有的模块资源均可以按需部署,灵活调度,动态扩展。通过超融合一体机或者超融合操作系统能够在最短的时间内,将业务系统安全、稳定、高效的迁移到超融合平台中,并且为后期迈向私有云平台奠定基础,从而能够实现云服务目录、多租户的管理及计费审计等功能。2.2方案设计原则整体方案设计应当遵循以下规则:\uf0a7统一规范超融合数据中心应该在统一的框架体系下,参考国际国内各方面的标准与规范,严格遵从各项技术规定,做好系统的标准化设计与施工。\uf0a7成熟稳定超融合数据中心应是熟稳定的技术和产品,确保能够适应各方面的需求,并满足未来业务增长及变化的需求。\uf0a7实用先进为避免投资浪费,超融合架构的设计不仅要求能够满足目前业务使用的需求,还必须具备一定的先进性和发展潜力,具备纵向扩增以及平滑横向扩展的能力,以便IT基础架构在尽可能短的时间内与业务发展相适应。\uf0a7开放适用超融合数据中心是为各业务系统提供支撑,所以必须充分考虑开放性,提供开放标准接口,供开发者及用户使用。\uf0a7安全可靠超融合数据中心设计时应加强系统安全防护能力,确保业务和数据的稳定可靠,保障业务连续性。2.3方案架构设计2.3.1总体架构随着信息化的发展,企业业务系统需要一个安全、稳定、可靠、高性能的基础架构平台来进行承载,来满足未来业务发展的需要。企业研发数据中心按照支持多数据中心统一管控的模式进行建设。研发数据中心和业务中心同时承担业务,同时两个中心间实现业务备份或者双活。这样由同城两中心满足不同灾难场景下的业务连续性要求。另外,下属单位数据中心也可根据与主数据中心的专线带宽条件,做到资源统一管理或源统一管理下的资源共享。具体如下:2.3.2网络架构建立大二层网络需要在传统网络架构(Underlay网络)的模式之下,打破三层的束缚,实现二层扩展,Overlay网络是一个建立在已有物理网络上的虚拟网络,逻辑节点和逻辑链路构成了Overlay网络,VxLAN是Overlay的一种实现技术。在数据中心内部,通过Vlan技术终结在核心交换机上,实现整个数据中心内的大二层,对于不同数据中心之间,需跨越专线的束缚(三层连接),实现二层透传,通过VxLAN技术即可实现。如下图所示:2.3.3安全架构将安全设备资源化,通过防火墙、负载均衡等安全设备的虚拟化功能,形成防火墙池和负载均衡池,组建成企业核心安全能力中心。基于软件定义的模型,组成安全管理中心,通过软件定义方式,将虚拟化的安全设备分别部署在不同的安全区域的边界,保护用户访问的安全;同时通过安全事件信息的收集和分析,与安全设备(虚拟安全设备)联动,实现智能安全防护。与云管理平台相结合,根据云管理平台的边界定义,与软件定义控制器实现联动,进而通过安全虚拟化的虚设备部署在虚拟边界,保护虚拟资源的访问安全。2.3.4计算架构全面采用x86服务器作为计算资源。随着云技术的发展,服务器市场也面临挑战,X86服务器以开源软件Linux为核心开发,可用行业标准件组装,售价为几万到十几万元,在技术层面已能大面积替代价格高达十几万到几百万元的各品牌小型机。1)可靠性:X86服务器的可靠性已逐渐提升,加上虚拟化的应用,使得在x86服务器部署的业务系统的可靠性可媲美小型机上的可靠性。2)可扩展性:x86服务器都是标准化产品,随着虚拟化的部署,x86服务器的选择更加宽泛,兼容性更好,扩展性更好。3)可用性:基于X86服务器的集群和虚拟化的集群技术不断提升,系统的可用性已接近小型机的水平。4)可维护性:X86服务器上linux或windows系统普及型更高,硬件都是标准化产品,更换方便。2.3.5存储架构采用统一存储系统+分布式存储的混合架构,并根据云管理平台和应用的需求进行灵活的配置。图:统一存储+分布式存储(ServerSAN)架构统一存储架构,基于文件的网络附加存储(NAS)以及基于数据块的SAN的网络化的存储架构,可将其数据存储变成了一个共享的资源池,来存储块的或者文件数据,保障云平台对共享云的使用。图分布式存储架构(ServerSAN)分布式存储架构,这种架构的基本单元是部署了虚拟化系统的x86标准服务器。在提供虚拟计算资源的同时,服务器上的空闲磁盘空间被组织起来形成一个统一的虚拟共享存储。由于不再需要集中共享存储设备,云管理平台基础架构得以扁平化,大大简化了IT运维和管理。2.3.6运维管理架构以IT基础平台配置管理(CMDB)库建设为核心,建设面向业务一体化IT基础平台运维管理系统。图:一体化IT基础平台运维管理系统架构IT基础平台配置管理需具备对IT基础资源进行全面的监控能力,包括网络监控及主机应用监控,结合CMDB的自动化数据采集能力,将网络信息采集进入CMDB,进行统一的IT基础信息配置管理。结合XX企业管理体系及实际情况,建立以IT基础平台信息配置信息库为核心,以流程为导向符合ITIL/ISO20000标准的运维管理体系,提供先进的流程管理工具设计科学、规范的流程管理模型和方法,以建立完备、关联的云基础设施配置管理数据库为基础和切入点,实施事件管理、问题管理、变更管理、配置管理和服务级别管理5大核心流程,实现配置管理数据库相关数据项与5大核心流程的关联和融合;使用规范化的流程管理办法将涉及运维服务管理的每一项规章制度在日常工作中进行模式化和固定化,使以往繁杂无序的运服管理工作变成标准有序,不断降低云运维服务管理工作的风险,为管理人员和技术人员提供一个灵活的、易于量化的管理平台。3计算核心虚拟池设计当前,虚拟化技术已经非常成熟并得到广泛应用。虚拟化技术将计算、存储等物理资源池化,为用户提供弹性扩展的资源,解决了硬件资源利用率低、业务部署周期长、运维管理复杂等问题。本着适度领先、应用成熟的原则,研发数据中心服务器及存储建设引入虚拟化技术,将物理资源划分为不同性能的逻辑单元,并构成计算、存储资源池,灵活为各业务系统提供所需资源。目前,X86服务器已可以完美支持虚拟化技术,企业数据中心本着节约成本和充分利旧的原则,采用X86服务器方式。(1)对于文件服务、人力资源、Web等对服务器性能要求不高的业务系统,采用X86服务器,通过在X86服务器上部署虚拟化系统,将物理服务器虚拟化为细颗粒的虚拟机,形成服务器池,应用系统部署于虚拟机上。任何虚拟机出现宕机时,可以将业务瞬间切换到服务器池的其他虚拟机上,保障业务的连续性。同时如果有新增业务系统,用户只需创建新的虚拟机,非常方便高效。物理服务器的利用率得到明显提高,管理和运营成本明显降低。(2)对于数据库、管理平台等重要业务系统,建议采用高性能、高可靠的x86服务器。3.1主机资源化平台设计在服务器资源池上需要再通过安装虚拟化软件平台,使得其计算资源能以一种云主机的方式被不同的应用和不同用户使用。在x86系列的服务器上,其主要是以云主机的形式存在,如下为虚拟化软件平台的构成。•虚拟化内核平台运行在基础设施层和上层操作系统之间的“元”操作系统,用于协调上层操作系统对底层硬件资源的访问,减轻软件对硬件设备以及驱动的依赖性,同时对虚拟化运行环境中的硬件兼容性、高可靠性、高可用性、可扩展性、性能优化等问题进行加固处理。•虚拟化管理系统主要实现对数据中心内的计算、网络和存储等硬件资源的软件虚拟化,形成虚拟资源池,对上层应用提供自动化服务。其业务范围包括:虚拟计算、虚拟网络、虚拟存储、高可靠性(HA)、动态资源调度(DRS)、云主机容灾与备份、云主机模板管理、集群文件系统、虚拟交换机策略等。采用虚拟化平台对多台服务器虚拟化后,连接到共享存储,构建成计算资源池,通过网络按需为用户提供计算资源服务。同一个资源池内的云主机可在资源池内的物理服务器上动态漂移,实现资源的动态调配。建成后的虚拟化系统,虚拟机之间安全隔离;虚拟机可以实现物理机的全部功能;兼容主要服务器厂商的主流X86服务器、主流存储阵列产品、运行在X86服务器上的主流操作系统,并支持主流应用软件的运行。3.2虚拟机的定义虚拟机与物理服务器类似,它们主要的区别在于虚拟机并不是由电子元器件件组成的,而是由一组文件构成的。每台虚拟机都是一个完整的系统,它具有CPU、内存、网络设备、存储设备和BIOS,因此操作系统和应用程序在虚拟机中的运行方式与它们在物理服务器上的运行方式没有任何区别。与物理服务器相比,虚拟机具有如下优势:1.在标准的x86物理服务器上运行。2.可访问物理服务器的所有资源(如CPU、内存、磁盘、网络设备和外围设备),任何应用程序都可以在虚拟机中运行。3.默认情况,虚拟机之间完全隔离,从而实现安全的数据处理、网络连接和数据存储。4.可与其它虚拟机共存于同一台物理服务器,从而达到充分利用硬件资源的目的。5.虚拟机镜像文件与应用程序都封装于文件之中,通过简单的文件复制便可实现虚拟机的部署、备份以及还原。6.具有可移动的灵巧特点,可以便捷地将整个虚拟机系统(包括虚拟硬件、操作系统和配置好的应用程序)在不同的物理服务器之间进行迁移,甚至还可以在虚拟机正在运行的情况下进行迁移。7.可将分布式资源管理与高可用性结合到一起,从而为应用程序提供比静态物理基础架构更高的服务优先级别。可作为即插即用的虚拟工具(包含整套虚拟硬件、操作系统和配置好的应用程序)进行构建和分发,从而实现快速部署。3.3计算资源池分类为了提升虚拟化系统的可靠性,在虚拟化平台的计算资源池建设时,可以将多个物理主机合并为一个具有共享资源池的集群。虚拟化软件管理系统的HA功能组件会监控该集群下所有的主机和物理主机内运行的虚拟机。当物理主机发生故障,出现宕机时,HA功能组件会立即响应并在集群内另一台主机上重启该物理主机内运行的虚拟机。当某一虚拟服务器发生故障时,HA功能也会自动的将该虚拟机重新启动来恢复中断的业务。在搭建服务器资源池之前,首先应该确定资源池的数量和种类,并对服务器进行归类。归类的标准通常是根据服务器的CPU类型、型号、配置、物理位置来决定。对云计算平台而言,属于同一个资源池的服务器,通常就会将其视为一组可互相替代的资源。所以,一般都是将相同处理器、相近型号系列并且配置与物理位置接近的服务器——比如相近型号、物理距离不远的机架式服务器或者刀片服务器。在做资源池规划的时候,也需要考虑其规模和功用。如果单个资源池的规模越大,可以给云计算平台提供更大的灵活性和容错性:更多的应用可以部署在上面,并且单个物理服务器的宕机对整个资源池的影响会更小些。但是同时,太大的规模也会给出口网络吞吐带来更大的压力,各个不同应用之间的干扰也会更大。如果有条件的话,通常推荐先审视一下自身的业务应用。可以考虑将应用分级,将某些级别高的应用尽可能地放在某些独立而规模较小的资源池内,辅以较高级别的存储设备,并配备高级别的运维值守。而那些级别比较低的应用,则可以被放在那些规模较大的公用资源池(群)中。初期的资源池规划应该涵盖所有可能被纳管到云计算平台的所有服务器资源,包括那些为搭建云计算平台新购置的服务器、内部那些目前闲置着的服务器以及那些现有的并正在运行着业务应用的服务器。在云计算平台搭建的初期,那些目前正在为业务系统服务的服务器并不会直接被纳入云计算平台的管辖。但是随着云计算平台的上线和业务系统的逐渐迁移,这些服务器也将逐渐地被并入云计算平台的资源池中。虚拟化管理平台体系将云计算资源池的物理服务器资源以树形结构进行组织管理,云资源中的被管理对象之间的关系可以用下图描述:3.4服务器容量规划单台服务器所能支持虚机数量的决定因素主要取决与两方面:1.服务器的硬件配置oCPU性能---多核高主频技术使得CPU成为性能瓶颈的可能性越来越低o内存大小---做为硬指标的内存,配置越高,所能支持的虚机数量越多o网络端口---千兆网环境已很普遍,网络带宽大多有保证,更多从管理角度来考虑oHBA卡---磁盘访问性能对虚机数量有一定影响,建议采用10G以太网或者8-16GbpsFC以减少链路影响o本地磁盘---内置磁盘的可用性及IO吞吐能力均较弱,不建议在其上存放虚拟机,推荐使用外置高性能磁盘阵列2.应用负载大小o由于物理服务器资源自身的最大限制,应用负载越大,所能同时运行的虚机数量越少o建议将不同应用访问特性的应用混合部署在同一物理服务器上o灵活运用DRS和VMotion技术可将物理机与虚机的比率关系调到最优o考虑到HA及DRS所要求的资源冗余,所有运行虚机在正常负载下,总体资源使用率不超过三分之二会比较合适在部署虚拟化时,对物理服务器的硬件配置需要考虑以下因素:o可用的CPU目标数量尽可能多,单台服务器建议配置40个以上的CPU核。o超线程技术并不能提供等同于多核处理器的好处;建议关闭CPU的超线程功能o使用具有EM64T能力的IntelVT或AMDV技术的CPU可以同时支持运行32位和64位的虚拟机o采用同一厂商、同一产品家族和同一代处理器的服务器组成的集群,可以获得最好的虚拟机迁移兼容能力o内存资源往往比CPU资源更会成为潜在的瓶颈,应配置大容量内存。3.5虚拟机资源分配1.虚拟机CPU分配原则:o尽量使用最少的vCPUs,如果是单线程应用,无需多线程处理。o虚拟CPU数量不要等于或超过物理CPU核数,如双路双核的服务器配置,虚机最多使用两个虚拟CPU2.内存分配原则:o内存总量为在资源评估后,计算虚拟机评估结果所需实际内存尽量避免大于物理内存的总和。因为应用程序而产生的更多内存需要用磁盘内存来解决,会导致系统性能下降。o关键应用可考虑固定内存的方法以保证性能的稳定性3.6虚拟机的物理分布同一个资源池内的虚拟机在物理服务器上的分布,要尽可能考虑平衡负载的原则,即保证资源池内的物理服务器CPU、内存资源占用率均衡,避免某单台物理服务器上的负载特别高,而其它处于闲置状态。个别业务应用可能会存在某个时段负载突发上升的情况,如公务员报考系统,对于这类应用,需要部署DRS(动态资源调度)和DRX(动态资源扩展):o通过动态资源调度(DRS)集群的部署,可以解决单个虚拟机负载过高时,位于同一台物理服务器上的其它业务应用虚拟机不会被“饿死”。o通过动态资源扩展集群的部署,可以解决当单个虚拟机负载超过物理服务器性能后,快速克隆多个同样业务的虚拟机,配合负载均衡(LB)设备,完成对负载的分担。3.7高可用性设计高可用性包括两个方面:1.虚拟机之间的隔离:每个虚拟机之间可以做到隔离保护,其中一个虚拟机发生故障不会影响同一个物理机上的其他虚拟机;2.物理机发生故障不会影响应用:故障物理机上运行的虚拟机可被自动迁移接管,即虚拟机可以在同一集群内的多台服务器之间进行迁移,从而实现多台物理服务器的之间的相互热备,实现当其中一个物理服务器发生故障时,自动将其上面的虚拟机切换到其他的服务器,应用在物理机宕机情况下保证零停机。虚拟机的迁移需要依赖共享存储,关于共享存储,后续章节将详细介绍。虚拟化平台HA功能会监控该集群下所有的主机和物理主机内运行的虚拟主机。当物理主机发生故障,出现宕机时,HA功能组件会立即响应并在集群内另一台主机上重启该物理主机内运行的虚拟机。当某一虚拟服务器发生故障时,HA功能也会自动的将该虚拟机重新启动来恢复中断的业务。除了对集群中的物理服务器节点进行持续检测之外,虚拟化平台HA软件模块还对运行于物理服务器节点之上的虚拟机进行持续检测。在每台服务器节点上都运行了一个LRMd(LocalResourceManagerdaemon,本地资源管理器守护进程),它是HA软件模块中直接操作所管理的各种资源的一个子模块,负责对本地的虚拟化资源进行状态检测,并通过shell脚本调用方式实现对资源的各种操作。当LRMd守护进程检测到本机的某台虚拟机出现通信故障时,首先将事件通知给DC,由DC统一将该虚拟机状态告知集群内所有的物理服务器节点,并按照一定的策略算法,为该故障的虚拟机选择一个空闲的服务器节点,在该节点上重启该虚拟机。3.8动态资源调整动态资源调度功能可以持续不断地监控计算资源池的各物理主机的利用率,并能够根据用户业务的实际需要,智能地在计算资源池各物理主机间给虚拟机分配所需的计算资源。通过自动的动态分配和平衡计算资源,动态资源调整特性能够:整合服务器,降低IT成本,增强灵活性;减少停机时间,保持业务的持续性和稳定性;减少需要运行服务器的数量,提高能源的利用率。动态资源调度功能组件可以自动并持续地平衡计算资源池中的容量,可以动态的将云主机迁移到有更多可用计算资源的主机上,以满足虚拟机对计算资源的需求。即便大量运行SQLServer的虚拟机,只要开启了动态资源调整功能,就不必再对CPU和内存的瓶颈进行一一监测。全自动化的资源分配和负载平衡功能,也可以显著地提升数据中心内计算资源的利用效率,降低数据中心的成本与运营费用。如上图所示,动态资源调整功能通过心跳机制,定时监测集群内主机的CPU利用率,并根据用户自定义的规则来判断是否需要为该主机在集群内寻找有更多可用资源的主机,以将该主机上的云主机迁移到另外一台具有更多合适资源的服务器上。4云业务及管理平台设计4.1云平台整体分析虚拟化技术的应用大大提升了物理设备的利用率,降低了基础架构复杂性,但从IT运维管理层面并没有得到明显提升。企业数据中心在虚拟化基础上部署一套云业务及管理平台,通过其内置的自动化功能和基于策略的控制机制,满足部署自助模式和交付“IT及服务”的需要,从而消除管理复杂性,加快IT服务的交付速度,提高运营效益。该平台分为云资源管理平台、云运营管理平台和用户自服务门户三个子系统。(1)最底层为云资源管理平台,对计算、存储、网络、安全等资源池进行统一管理,对底层虚拟化平台运行状态及虚机的cpu、内存利用率,网络流量、硬盘IO等实时监控,通过创建或删除虚机为各业务系统提供弹性资源;按照云业务管理需求灵活创建或删除虚机,实现对业务需求的快速响应和资源及时释放;根据对采集到的大量虚拟机运行日志进行分析,提供针对基础架构资源池的合理优化建议,进一步提升资源利用率及应用性能。(2)中间层为云运营管理平台,对用户模块、服务模块及订单模块的业务进行管理,对用户模块的管理包括对用户的新增、注销及用户组、用户角色、用户权限的管理等;对服务模块的管理包括对计算、存储、网络、安全等虚拟资源的服务定义及修改,如服务名称、服务等级、服务描述等,还包括对服务的查询,运维管理人员在搜索框进行关键字查询,快速查找相关服务;还包括对用户订单的管理,处理用户的资源订购请求,用户资源订购请求通过审批流程进行审批,审批结果自动通过电子邮件或短信形式通知用户,审批通过后,系统将用户订单分解并传送给各资源池系统,由各资源池系统按订单资源描述进行实例化,生成用户所订购的资源,并通过电子邮件或短信形式通知用户。图1云环境业务处理流程(3)最上层为用户自服务门户,为用户使用服务提供入口。用户通过在自助服务门户界面点选进行计算、存储、网络、安全等资源选择及申请,同时通过云运营管理平台为自己分配的管理权限对所获得资源进行配置和管理。4.2云平台组织架构及权限管理组织架构定义是云平台的基础,几乎所有的云平台需求都涉及用户和组织关系,这里牵涉到适应企业租户不同的定制需求。云平台支持定制多级组织嵌套,每级组织都会划分自己的资源(CPU、内存、存储、网络等)和用户。根据XX企业的组织架构,本项目定义对应的云组织管理架构如下:运营管理员专注于对池化资源的部署分发、服务编排、应用监控,定制流程和计费模板。企业信息化部门作为云平台的运营管理员,关注云容量的规划、服务的质量评价、计费营账报表以及绩效考核等。各级组织管理员负责本组织所需资源的申请,构建和维护本组织网络及安全架构。最终用户按需使用云资源的申请、流程审批、工单问答以及实时账单等。各角色之间应能通过网络进行二层隔离,每个网络都设定了VLAN标识和IP地址池规划。用户可以使用多个网络以支持不同场景的业务和隔离需求。用户可以将处在不同阶段的应用部署在不同的隔离网络中,通过应用迁移实现阶段和环境的推进。云平台可以通过与企业CA系统进行对接,实现用户登录的安全认证。4.3Iaas云业务4.3.1云主机服务功能上支持主流的服务器操作系统,如WindowsServer系列和主要Linux发行版,支持在线交付、在线管理、远程登陆、快照管理、在线迁移等功能。云主机根据业务系统的负载量可提供不同的配置模板,如标准型云主机(2个vCPU,8G内存)可部署WebServer,文件服务等;大内存型(4个vCPU,16G或32G内存)云主机可部署邮件系统、应用服务器、轻量级数据库应用等。云主机系统盘默认配置容量为:Linux系统系统盘20G;云主机Windows系统盘40G;云主机数据盘单独选配,以100GB为最小单位增加。云主机通过集群技术保障高可用,当云主机所在的物理服务器故障时,可快速切换到其他状态正常的服务器上,切换时间小于5分钟。通过动态资源调度技术自动进行负载均衡,云主机可在线自动迁移到其他物理服务器上,期间应用不会产生任何影响。4.3.2云防火墙对于企业的核心研发数据中心,还需要考虑通过多种形式对下属单位提供云资源的出租服务,在考虑整体安全防护的同时,也要关注针对不同租户个性化的安全防护需求,租户的个性化安全部署可以作为云安全服务出租给用户,在满足用户需求的前提下,也要达到可运维、可管理的目的。有两种实现云环境防火墙的方式:\uf0a7通过高性能防火墙实现IaaS模型下VFW需求从运维、成本、扩展性的角度考虑,典型的部署模式为通过一台实体或裸机的物理墙进行1:N的虚拟化,将不同的虚拟墙提供给不同的租户,对于租户来讲,就好像拥有了一台独立的具备一定处理能力的实体物理防火墙,租户有独立的管理账号,可以在独立的管理界面,创建个性化的业务防护策略。同时作为一种可运营的资源,类似虚拟机一样,要求能够给虚墙进行资源分配,逻辑的资源包括接口、VLAN,物理的资源包括CPU、内存、存储介质等。虚墙之间要求数据隔离,并且在共享硬件能力的基础上实现所分配能力的保障,也即不同虚墙之间不会出现相互侵占的问题,从而能够实现不同的租户的差异化SLA保证。在本规划中,在核心区域部署了两台高端防火墙设备,一方面通过这两台设备实现云平台的整体安全防护;另一方面也通过在实体防火墙上进行Context划分,为每个申请安全服务的租户提供独立的vFW服务,租户可在申请防火墙服务时,自主定义FW所需资源和性能指标,租户对防火墙申请成功后,会独享这个vFW的资源,并且具备自己独立配置、管理所租用vFW的权利。\uf0a7通过分布式防火墙网关实现IaaS下的VFW随着云计算虚拟化技术的发展,越来越多的云计算服务商开始采取纯虚拟化的网络安全解决方案来满足云租户的安全需求。云计算服务商往往有非常丰富的服务器计算资源,而软件虚拟化安全网关的出现也为租户自行运维管理云中的安全服务提供了技术支撑,典型的部署模型就是VPC模型。云服务提供商给租户提供虚拟机出租,云租户可以通过在云中部署虚拟化安全网关如VFW,实现和二级企业的VPN互联,使得远程用户可以直接访问云中的服务器资源。通过这种方式企业可以把租用的计算资源作为研发数据中心的有效补充实现混合云,实现业务需求和成本的有效平衡。4.3.3云负载均衡服务随着WEB应用的快速发展和业务量的不断提高,基于HTTP/HTTPS的数据访问流量正在迅速增长,对企业以及门户网站等的访问甚至达到了10Gb/s的级别;同时,服务器网站借助HTTP、FTP、SMTP等应用程序,为访问者提供了越来越丰富的内容和信息,服务器逐渐被数据淹没;另外,大部分网站都需要提供不间断24小时服务,任何服务中断或通信中的关键数据丢失都会造成直接的商业损失。所有这些都对应用服务提出了高性能和高可靠性的需求。但是,相对于网络技术的发展,服务器处理速度和内存访问速度的增长却远远低于网络带宽和应用服务的增长,网络带宽增长的同时带来的用户数量的增长,也使得服务器资源消耗严重,因而服务器成为了网络瓶颈。传统的单机模式,也往往成为网络故障点。在这种情况下负载均衡技术应运而生,负载均衡可以实现对网络设备和服务器带宽的有效扩展,充分利用多台服务器的业务处理能力,通过合理的调度算法和健康检查双方,可以有效感知服务器的负载并将业务流量调度到最恰当的服务器上,从而提高网络的灵活性和可用性。4.3.4VPC租户服务虚拟私有云(VPC)为租户提供了专属的虚拟网络。VPC之间可以实现安全隔离和灵活互通,满足多租户同时部署的业务场景。在VPC内部,租户可以灵活的部署自己的业务应用,就像部署在自己的专属数据中心内部,拥有计算、存储和网络虚拟实例完整的使用权和管理权。在自己的VPC中,租户可以定制主机、存储服务,通过关联VLB来实现服业务的负载均衡。在网络安全方面,用户可以自主规划私网网段,有效解决不同租户之间的IP地址重复问题。同时,通过设定VFW的域间策略实现安全隔离。另外,租户还可以为应用申请公网IP,支持互联网外对服务的使用。在虚拟私有云的网络环境下,用户无须关心如何打通基础网络(云平台会自动化部署网络),而只需关注服务本身,通过云平台统一界面实现服务的操作和访问。另外,还能从云平台获取服务的监控统计数据,时刻关注服务的质量。虚拟私有云(VPC)网络架构通过Openstack、SDN、VLAN等技术的组合来实现。云数据中心内的物理网络资源(核心交换机、接入交换机等),以及通过主机虚拟化软件的OVS均可以提供SDN、VLAN功能,组成虚拟网络资源池。不同租户可通过基于Openstack云平台来调度云数据中心内的网络资源池、计算资源池、存储资源池以及安全资源池的资源,组成自己的虚拟网络(VPC)。VPC内的安全防控,通过使用安全组的方式来实现,为不同用户提供安全隔离。4.3.5计费管理计费系统对于企业来说一般被作为占有资源量的评判标准,任何单位和部门都不能过度占用资源,并产生大量的浪费,在云计算的背景下,通过技术手段合理利用资源,消除计算资源、网络安全资源、存储资源等乱占,但除了技术手段外,更需要通过收费的形式,约束用户(申请者)合理的使用资源。云计算管理平台提供了平台计费与计量的功能,云管理员可以根据需要定制计费策略,云管理平台根据租户实际使用情况自动的进行计费与计量,通过计费和计量的方式,通过基于小时的计费,可以将云资源的价值进行充分体现。云计算管理平台提供了两种计费模式:资源用量和资源规格。资源用量是根据资源的使用情况,以初始价格+固定费率进行线性递增的一种计费模式。资源规格是一种类似于“套餐”的计费模式,可以实现费用的非线性增长。采用资源规格计费模式时,需要先定制规格模板。通过云计算管理平台可以实现:•灵活的计费策略计费策略可以根据资源用量或资源规格模式进行设置。资源用量模式采用纯线性计算方式计费,资源规格模式采用线性和离散模式,用户可以定制自己需要计费的资源组合,满足多种计费需求。•方便的账单查询可以根据时间范围(月、季度、年)和组织部门等查询账单信息。账单信息包括各资源的各条详细费用信息,方便用户实时掌控费用信息。◆基于资源用量的计费可以根据CPU、内存、硬盘、带宽、防火墙、负载均衡、公网IP的使用情况进行计费。◆基于资源模板进行计费可以根据用户使用资源的总体情况进行计费,如基于云主机整体计费等等。◆账单报表云计算管理平台可以根据不同维度输出满足用户需求的使用报表,例如基于云平台的账单报表、基于租户的、基于最终用户的账单报表。•基于云平台费用报表•基于云平台费用报表•报表查询4.3.6物理主机服务对于某些对系统资源消耗过大或不支持虚拟化部署的业务,需要将应用部署到物理服务器上,云管理平台可统一管理物理服务器资源,用户通过云管理平台进行资源申请,云平台与网络管理软件的联动,由网络管理软件与服务器专有管理接口(如iLO接口)对接,实现物理服务器基础环境的部署,包括操作系统安装和物理服务器的监控。5运维管理设计5.1建设目标5.1.1总体目标本着规划先行、基础优先、实用优先的建设原则,以IT基础平台配置管理(CMDB)库建设为核心,建设面向业务一体化IT基础平台运维管理系统。平台需具备对IT基础资源进行全面的监控能力,包括机房动力环境监控、网络监控及主机应用监控,结合CMDB的自动化数据采集能力,将网络信息采集进入CMDB,进行统一的IT基础信息配置管理。系结合企业运维管理体系及实际情况,建立以IT基础平台信息配置信息库为核心,以流程为导向符合ITIL/ISO20000标准的运维管理体系,提供先进的流程管理工具设计科学、规范的流程管理模型和方法,以建立完备、关联的云基础设施配置管理数据库为基础和切入点,实施事件管理、问题管理、变更管理、配置管理和服务级别管理5大核心流程,实现配置管理数据库相关数据项与5大核心流程的关联和融合;使用规范化的流程管理办法将涉及运维服务管理的每一项规章制度在日常工作中进行模式化和固定化,使以往繁杂无序的运服管理工作变成标准有序,不断降低云运维服务管理工作的风险,为管理人员和技术人员提供一个灵活的、易于量化的管理平台。5.1.2技术目标最底层是被管对象层,它包含信息中心运行管理的所有对象,可分为网络设备、计算、存储资源、系统应用软件、虚拟化资源、机房基础设施。第二层是数据采集层,它包含网络监控,系统监控,机房环境监控,告警事件等数据的集中采集。配置状况、监控对象的运行状态和性能参数。数据采集层实现对被管理运行对象的监控,掌握运行资源的第三层是IT基础信息配置管理层,融合完成网络、主机、应用部分数据的自动化收集,通过人工处理和功能对接等工作完成其他系统信息的统一管理。建立面向业务的关系模型。第四层是业务处理层,包含了性能管理及分析、统一事件管理、业务可用性管理、业务健康管理、业务影响分析等。可了解业务的整体运行情况,进行业务预警和快速发现IT系统的根源故障。提供了多种面向业务使用用户的展示视图和方式,包括3D机房仿真视图,拓扑视图、业务视图、大屏展示等。可与服务管理流程的集成,以及时响应和规范化地处理故障。实现故障的闭环管理。5.2基础资源监控5.2.1网络设备管理系统在网络设备管理系统当中需具有网络设备管理及自动发现、网络拓扑管理、网络拓扑管理、网络设备告警管理以及网络设备配置备份管理等功能。其中网络设备管理及自动发现功能主要包含可管理的网络设备范围,设备管理及配置能力,支持的设备访问协议及自动发现机制等;网络拓扑管理功能主要应包含拓扑自动发现、拓扑编辑及自定义、拓扑操作等;网络设备性能管理功能主要面向各类网络设备的性能综合监测和分析,应具有性能监测管理、性能数据管理、性能阈值门限管理、性能分析及展示等功能;设备告警来源应包含多种途径,可解析主流网络设备发送的snmptrap和syslog告警,包含CISCO、H3C华为等;在网络设备配置备份管理方面需要支持支持设备配置集中管理、支持批量的设备配置备份和恢复、多厂商设备配置及软件管理、基线化的设备配置变更审计、支持设备软件智能升级。5.2.2主机应用管理系统需要通过主机应用管理系统对各类主机、应用、存储进行统一的管理。在主机系统监控方面,需要对各类主机操作系统进行统一管理,包含windows、linux、Unix、AIX、Solaris。在应用软件管理平台方面需要对数据库、中间件、WEB服务器以及其他的标准化应用进行监控和管理。5.2.3存储设备管理可对支持并开启SMI-S协议的存储设备进行统一管理。管理信息应包含:基本信息监控‒IP地址、设备名称、产品描述、RAID级别、驱动器数量、厂商、制造商、机箱型号、设备序列号、版本存储池存储池/虚拟磁盘‒存储池/虚拟磁盘的ID、健康状况、可用空间、总空间电源信息‒电源的ID、名称、健康状况风扇信息风扇信息‒风扇的ID、名称、健康状况磁盘信息磁盘信息‒磁盘的ID、健康状况、磁盘容量、空闲空间、已用空间、磁盘利用率存储卷信息存储卷信息‒存储卷的ID、健康状况、类型、容量、空闲空间、已用空间、利用率、是否初始化、当前拥有者、首选控制器控制器信息‒控制器的名称、健康状况、制造商、模式、序列号接口信息接口信息‒接口的名称、健康状况、当前速率、最大速率、接口类型、目标ID、网络配置。5.3业务服务管理5.3.1业务可视化监控可实时展示各个业务系统当前的健康状态、繁忙程度、可用状态、业务告警总览,体现了业务的构成。为IT管理者提供综合运维管理的总体视图,可以全面整体了解业务系统运行情况。可以以业务为单元,基于时间轴同步技术分析对比该业务系统相关的监控数据汇总。在业务可视化监控方面,需要对业务可用度、业务健康度、业务繁忙度和业务模型进行分析计算。其中业务建模是业务可视化展示、业务分析的基础。业务建模需要基于数据模型,数据模型包含IT资源、关系、权重。IT资源构成了数据模型的架构,他们通过关系进行关联;业务模型除了需要定义业务类以外,还需要定义该IT资源对业务的影响权重,定义业务类归属、名称、描述、数据类型等。通过数据模型,可以查询业务组件之间、业务和平台之间以及平台资源之间的关系,为务管理数据处理和呈现提供统一的定义。5.3.2基于业务的故障管理及分析通过可视化业务视图从业务全局看业务的某个组成部分故障对整个业务的影响度。业务视图可以实时数据采集紧密集成来提供一个动态、全面、可操作的实时业务模型视图,来展现基础架构和业务之间的影响关系。当出现影响服务的告警事件时,需映射到模型中的对象上。并根据报警级别、业务影响的程度呈现不同的颜色,当该告警事件清除后,可以自动恢复其受影响前的状态。通过此视图用户可以了解一个或多个业务的当前运行状况,以便IT人员对发生的告警事件进行根源问题分析,快速定位问题,并确定业务的影响范围。业务模型视图将具备以下基本功能:支持对业务视图的多角色、多角度查看功能。提供灵活的图形界面展现方式,能以基本关系、连接关系、影响关系等不同视角呈现业务服务模型。支持对业务模型中的各类对象状态和告警事件联动呈现,当出现影响服务的告警事件时,模型中的对象可以根据其受影响的程度呈现不同的颜色,当该告警事件清除后,可以自动恢复其受影响前的状态。支持业务模型中对象与告警事件列表之间的关联功能,点击模型对象时可列出相应的告警事件。5.4告警管理(1)告警设置需能够对任意一种性能指标,任意一个节点或接口设置指标值的上下行告警门限,并可分别设置告警重试次数与告警级别。(2)告警定义可以扩展定义新的告警、告警解析处理方式,使系统具有接收和处理新的故障告警的能力。提供友好的配置界面,能够方便地定制各类事件的标准化处理规则,以及定制将标准事件转化为告警事件的规则。(3)告警浏览告警浏览提供实时告警、历史告警、故障设备等几种查看的角度,操作员可以根据需要设置查询条件来浏览告警信息。告警列表显示每一条告警信息的来源、告警信息、告警级别、确认状态和告警时间。(4)告警确认、恢复、清除告警包含确认、未确认、恢复、未恢复四种状态,用户可手工确认\\去确认、恢复\\去恢复,系统也会自动确认告警;支持告警删除。(5)告警通知及处理支持短信、声音、邮件、发送给第三方网管等多种告警通知方法。支持与现有短信平台的对接。(6)告警定义管理员可以根据需要对Trap的级别进行设置。(7)告警过滤可屏蔽重复接收到的相同Trap、分析接收到的闪断Trap、屏蔽接收到的未知Trap、屏蔽接收到的未管理设备Trap。用户可自定义的Trap过滤规则,用户可以指定时间范围、告警类型进行过滤。(8)告警修复建议系统应为告警提供缺省修复建议;提供维护经验修改功能,方便管理员将实际的维护经验固化到系统中。5.5统一的IT资源配置信息库(CMDB)配置管理(CMDB)建设作为在整体IT基础设施运维的基础,是有重点意义的。针对XX企业目前的IT运维成熟度,进行针对性的IT成熟度评估,对当前环境中的物理资源和逻辑资源进行梳理,构建结构成熟、信息可消费的CMDB。通过CMDB和iMC融合完成网络、主机、应用部分数据的自动化收集,通过人工处理和功能对接等工作完成其他系统信息的统一管理。XX企业拟通过配置管理咨询、CMDB数据模型的咨询设计,初步奠定配置管理系统建设,满足对IT基础架构信息的注册、变更及注销管理。即对单位数量的云资源从供给、使用、出库整个生命周期的跟踪与管理。需要提供的功能包括云基础设施注册、信息变更、信息查询、信息注销等功能。5.5.1配置管理关键点配置管理流程建立的基础是需要建立有效的配置管理数据库CMDB,CMDB将作为基础设施管理系统最核心的基础信息库而存在。在建立配置管理流程之前我们必须考虑:•管理配置的范围•理清各配置项的关系•配置的分类•各配置项在IT环境中的重要级别•配置项与人员/单位的所属关系•配置项的状态•配置与网络的关系•定义配置流程中的相关角色(配置经理、配置管理员、配置审核员等)、角色职责并与某单位现有人员进行映射5.5.2配置项的范围综合考虑配置项结构的可维护性和可扩展性,本次设计采用3级分类。参照ITILV3、CIM等实践进行设计,得出第一级包括:基础架构、软件和文档。注:从可操作性和易用性考虑,网卡、端口等设备配件不作为单独的CI,而作为母设备的属性。5.5.3配置项的关系设计详细的CI关系描述如下表所示:基于以上的关系定义,CI间的总体关系可以通过以下的示意图进行描述。在图中,CI可以分为三个层面,分别是:服务层面、应用层面和硬件层面。\uf0a7软件CI间的关系软件类的CI包括:应用系统、数据库、中间件、数据库实例、中间件实例、软件许可证和软件介质。它们的主要关系包括:•应用系统依赖于数据库实例和中间件实例;•数据库实例依赖于数据库;中间件实例依赖于中间件。\uf0a7计算机、存储系统CI间关系应用、数据/中间件与计算机系统CI(包括:小型机、PC服务器和虚拟分区)的关系包括:•对于数据库、中间件实例以及应用,它们既可以运行于虚拟分区,也可以运行于实体的PC服务器或小型机;•对于虚拟分区,它们需要运行在实体的PC服务器或小型机。存储设备(包括SAN交换机、SAN存储和NAS存储)与服务器(包括:小型机和PC服务器)的关系包括:•对于PC服务器和小型机,它们既可以连接SAN交换机(在SAN存储系统的环境下),也可以连接普通的网络交换机(在NAS存储系统的环境下);•SAN交换机应连接SAN存储(在SAN存储系统的环境下),网络交换机应连接NAS存储(在NAS存储系统的环境下)。\uf0a7网络设备CI间关系网络设备包括:交换机、路由器、专线和其它接入设备等,它们之间的关系包括:•PC服务器、小型机以及其它设备应连接交换机;•交换机应连接路由器或其它接入设备;•路由器(和其它接入设备)应连接专线;•专线应连接对端的路由器。\uf0a7虚拟化CI间关系•虚拟机实例依赖于虚拟机•虚拟机运行于虚拟化环境主机。•虚拟化主机连接虚拟存储\uf0a7其它CI间关系其它的CI间关系包括:•各类的基础架构和各种的软件可以关联相应的维保信息;•各类的基础架构和各种的软件可以关联相应的运维类文档。5.5.4配置管理系统功能配置管理数据库,存储所有配置管理的数据和信息,为事件管理、问题管理、变更管理提供查询、诊断、记录的基础。支持扩展定义配置项类型,快速扩展适配现有IT资产管理数据。可以通过界面定义新增配置项类型,比如设备、组织结构、网络资产、桌面资产、软件资产、文档、IT运维人员。支持CI关系管理。通过各配置项的关系维护,提供了完整的IT资产逻辑数据,为IT服务管理提供IT基础设施的准确数据,为问题定位分析、变更影响决策提供支撑作用。配置项类型拓扑,用图像的方式,形象直观的展示配置项类型之间的关联关系。支持自动发现、手动录入、批量手工、单个手动等多种方式添加和构建资源列表;支持从其它管理平台中获得,及使用模板来手工创建配置项。能够在配置项的整个生命周期内跟踪配置项的状态;配置项记录中特定字段的变化,应被记录在配置项的历史记录中。实现资源供给、上线、维修、回收、报废的全生命周期管理。支持配置项内容关键字检索,检索的信息准确。可查看最近检索的配置项记录。-全文完-',)
提供企业云融合计算解决方案参考会员下载,编号:1700823799,格式为 docx,文件大小为59页,请使用软件:wps,office word 进行编辑,PPT模板中文字,图片,动画效果均可修改,PPT模板下载后图片无水印,更多精品PPT素材下载尽在某某PPT网。所有作品均是用户自行上传分享并拥有版权或使用权,仅供网友学习交流,未经上传用户书面授权,请勿作他用。若您的权利被侵害,请联系963098962@qq.com进行删除处理。