联想服务器虚拟化
日常运维巡检方案
联想集团 Lenovo Co., Ltd. 2014年10月
第 1 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
■ 文档编号 ■ 版本编号 V 0.1
■ 密级 ■ 日期
商业机密 2014-10
第 2 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
目 录
1. 引言........................................................................................................................ 4 1.1.
编写目的................................................................................................... 4
2. 运维巡检方案........................................................................................................ 4 2.1. 2.2. 2.2.1. 2.2.2.
VMware vSphere整体架构 ................................................................. 4 运维巡检服务........................................................................................... 6
VMWare 健康检查服务 ................................................................. 9 分时间频率的巡检方案.................................................................. 11
3. 附录...................................................................................................................... 16 3.1.
联想公司简介......................................................................................... 16
第 3 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
1. 引言
1.1. 编写目的
本手册基于VMWare vSphere 服务器虚拟化系统层日常维护的基础上完成,内容包括虚拟化平台日常系统运行维护,健康检查使用说明,能够保持系统健康稳定的运行,本手册适用读者为:系统安装人员、系统管理人员。
2. 运维巡检方案
2.1. VMware vSphere整体架构
VMware vSphere 是目前最值得信赖的虚拟化平台,它的出现是 IT 计算领域具有变革意义的一种进步。基于经验证的虚拟化平台构建,并以此作为私有云和公共云的基础,并使用联邦与标准来桥接各个云计算基础架构,从而创建一种可响应不断变化的业务需求的混合型云结构。降低资金成本和运营成本并增强对 IT 基础架构的控制能力,同时保留选择任意操作系统、应用程序和硬件的灵活性:
让 IT 员工将精力转移到打造具有变革意义的业务解决方案上,而不是放在对硬件
和软件的例行维护上
更充分地利用现有 IT 资产,并使数据中心的资金开销最多降低 60% 大幅降低电力、散热和占地空间需求,并使资源成本降低多达 80%
第 4 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
基础架构服务-虚拟化和聚合硬件资源
基础架构服务可全面虚拟化服务器、存储设备和网络资源,聚合这些资源,并基于业务优先级将资源准确地按需分配给应用程序。
ESXi 5.5 是VMware虚拟架构套件的基础组成部分,是动态、自我优化的 IT 基础结构的基础。VMware ESXi将业界标准的 x86 服务器及其现有的处理器、内存、磁盘和网络连接一起转换到一个逻辑计算资源池中。操作系统及其应用程序则被隔离到安全、可移动的虚拟机中。VMware ESXi是一个强健、经过生产验证的虚拟层,它直接安装在物理服务器的裸机上,将物理服务器上的处理器、内存、存储器和网络资源抽象到多个虚拟机中。通过跨大量虚拟机共享硬件资源提高了硬件利用率并大大降低了资金和运营成本。通过高级资源管理、高可用性和安全功能提高了服务级别。
vSphere基础架构会根据每个虚拟机的需要和优先级,将系统资源动态地分配给它们,从而实现了大型机级的容量利用率以及对服务器资源的控制。虚拟机可以在资源池中的任一
第 5 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
物理服务器上运行,并且无需停机便可在这些服务器之间无缝地转移。因此,虚拟机可动态、自动地分配给资源池中最合适的主机,从而确保软件应用程序的服务级别。通过将硬件资源聚合到资源池中,IT 环境可得到优化,不仅能以动态形式支持不断变化的业务需求,还能确保灵活有效地利用硬件资源。
借助业界领先的虚拟化平台 vSphere 构建云计算基础架构,可提供最高级别的可用性和响应能力。虚拟化平台 vSphere 使用户能够自信地运行关键业务应用程序,更快地对其业务作出响应。
2.2. 运维巡检服务
当用户花费了重大的投资去建设整体的企业虚拟化云计算环境,为了有效帮助企业优化IT投资,确保在虚拟化数据中心内服务器、网络、存储等层面的资源得到最有效充分的利用,以及最重要的可靠性保障,联想的服务器虚拟化平台运维巡检服务,可以帮助企业了解现有的虚拟化环境,并提供最佳的整体健康检查和优化服务。
我们制定了一整套对vSphere 架构的运维巡检服务机制,整体说明如下: 1) 虚拟化平台运行监控
监控虚拟化管理服务器运行状态,虚拟化平台资源利用率,虚拟化平台系统日志。 监控虚拟机的CPU、内存、网卡、磁盘的使用率。 监控虚拟机新建、删除、迁移动作。
每月/每周/每天提供虚拟化平台资源利用率报告。 2) 虚拟化平台日常操作
第 6 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
接受业务部门的虚拟资源申请,开通/提供虚拟资源,配合业务部门测试。并根据
业务部门需求关闭虚拟资源。
根据业务系统运行要求执行虚拟化主机及虚拟机的日常操作任务,包括虚拟化主机
和虚拟机的开机、关机、登陆脚本设置、文件系统管理,存储扩容等。 虚拟机资产和配置管理,及时更新虚拟化配置信息。 3) 虚拟化平台故障处理
虚拟化主机故障时,将虚拟机迁移到其他主机,保障虚拟机的稳定运行。并协调解
决服务器故障。
如遇虚拟机系统需要启用备份系统进行恢复时,应在恢复后和业务检查业务是否恢
复并做好恢复记录。
如遇虚拟机故障,应在协议时间内处理故障,确保虚拟机正常运行。
当发生系统故障需要第三方进行升级,或者当需要第三方进行系统日常维护工作
时,协调第三方的维护工作,确保系统被恢复,并对维护工作进行记录和跟踪。
4) 虚拟化平台安全管理
定期和不定期地进行虚拟化系统的健康检查,包括补丁管理、病毒检查、性能及容
量的检查。
在有紧急补丁推出的时候主动向客户提出补丁安装建议。在对关键系统进行补丁安
装前,将在测试环境中先安装补丁并进行测试。在确认不影响系统及其上的应用系统正常运行后,安装到生产系统。
安装防病毒软件,并至少每月一次检查病毒库版本,在需要的时候进行病毒库的升
级。
第 7 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
根据客户的要求对服务器系统帐号进行管理,防止系统被非法使用。统一授权和账
号管理策略。
记录访问日志和操作日志,定期进行日志分析,制定安全加固和改进措施。 5) 提供性能趋势分析和优化建议报告
定期(每月一次)提供虚拟化系统的利用率、资源使用统计和历史运行趋势分析、
性能分析,提供系统性能优化建议、资源扩容建议。
6) 数据备份与恢复
和客户确定备份策略、备份介质存放/管理方式。
配置备份任务,执行数据备份,并对备份结果进行验证,确保数据备份成功。 根据客户需要,执行数据恢复。 数据恢复演练服务
恢复测试计划:每年两次恢复测试,分上下半年各测一次。 测试目的:检验备份数据的可靠性和完整性 检查数据完整性服务
文件数据:针对最近一次的各服务器的不同磁盘的已备份数据文件,由客户选
取数据文件(建议10M左右)进行恢复,并检验数据的完整性和可靠性。
数据备份监控
监控数据备份的完成进度和时间并记录。 定期检查监控备份空间的容量
监控备份服务器的CPU和内存的使用情况; 协调第三方系统维修维护工作
第 8 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
当发生备份软件故障需要第三方进行维维护,或者当需要第三方进行系统日常
维护工作时,负责协调第三方的维修工作,确保系统被恢复,并对维修工作进行记录和跟踪。
2.2.1. VMWare 健康检查服务
健康检查服务会由通过VMWare 官方认证的联想咨询工程师来进行,他们基于客户现有的环境,提供当前的最佳实践的配置和管理的指导,确定当前的环境和设计指南之间的差距,并提出建议,以优化环境。健康检查服务为客户带来了以下好处: VMware vSphere的性能优化。
最大限度的利用平台资源,以及提供未来的资源优化路线图。 通过最佳实践,发现潜在问题,降低虚拟化平台的风险。
进行交互式的Workshop,以达到VMware vSphere的最佳实践知识转移的目的。
VMware HealthAnalyzer 工具
VMware HealthAnalyzer Tool 是一款用于检测VMWare vSphere平台健康度的工具,它由官方提供。
第 9 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
VMware HealthAnalyzer可以自动化的搜集VMware vSphere资源信息库,包括当前平台的配置,资源使用情况,同时结合最佳的实践经验,给出用户问题分析,以及优化建议。
联想虚拟化优化咨询工程师会帮助用户安装HealthAnalyzer环境,去实地完成这个分析过程,并通过Web界面导出相应的分析数据,问题清单,以及最终的评估分析报告。
VMware HealthAnalyzer 工具是一个基于 Java开发的Web应用,它可以简单的通过OVF 模板方式,快速部署在客户的vSphere虚拟化环境中。
通过使用HealthAnalyzer工具,整体上,包括如下几个步骤: 从VMWare vCenter Server 和 ESXi host上搜集数据 创建一个分析报表,得出分析后的数据现状分析
通过结合VMWare的最佳优化实践,得出平台的优化建议 形成最终的分析报告
图:HealthAnalyzer整体架构
第 10 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
2.2.2. 分时间频率的巡检方案
VMware日常维护巡检工作根据频率可以大致分解为:每天、每周和每月。VMware管理员依照标准的流程和步骤执行日常维护任务。维护工作不仅仅是要维持系统在线,它同样保证用户可以从现有投资中获得最大收益。虽然ESX、vSphere、vCenter都是成熟和稳定的虚拟化技术,但是它们依然需要进行日常维护。
花费一些时间去了解现有的虚拟化架构,然后制定VMware维护计划以满足用户的SLA(service level agreement)级别并尽量减少工作压力。下面的纲要中包含了一些最佳实践,但是每个虚拟化架构各有不同,用户需要根据具体的情况进行适当调整。
1) 每天的维护工作
每天要进行的维护工作如下: 查看报警邮件
邮箱监控是一种持续的、被动的、而且一旦正确设置后不需花费很多精力的监控方式。区分过滤出警报的不同类型,识别哪些是紧急的需要立即处理,哪些是需要逐步去改变的。
比如:某个特定的数据库在每天的固定时间发送CPU占用率过高的警报,那么最好调节一下报警设置的条件和频率,避免因为过多无关紧要的警报而忽略了那些关键问题。
巡视服务器机房
通过对主机机房进行一次快速的巡视可以马上判断出发生了什么,这非常有用,尤其是忽略了某个警报的时候可以补救。通过观察硬件上的指示灯可以获得基本的状态信息。包括:
第 11 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
所有的风扇的运行状况 内存ECC差错
SAN系统中的磁盘驱动器
快速检查一下不间断电源的供电电压,以及现在的运行时间。知道了这些,一旦发生灾难,可以知道有多少时间可用来关闭设备。除了这些快速观察外,还可以使用在宿主机上集成的管理端口来检测硬件状态和温度,尤其在没有物理登陆宿主机或SAN的时候,这么做非常有必要。
检查vCenter和ESXi服务器
通过登录vCenter服务器,监控ESX主机的性能图表,检查各个组件是否正常。如下步骤:
通过vSphere client登录vCenter Server,输入vCenter Server的IP、用户名及密码
第 12 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
进入主机面后,点击主页,进入如图显示的界面
vCenter服务状态巡检,点击主页上的“vCenter服务状态”图标,查看是否有警示或者警告
第 13 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
主机和集群巡检,点击主页上的“主机和集群”图标,查看是否有警报标志(红色的惊叹号)
主机硬件状态巡检,点击主页上的“主机和集群”图标,然后点击物理机,选中\"硬件状态\",查看传感器是否为正常状态
第 14 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
2) VMware每周维护工作 每周我会执行如下动作:
备份vCenter/VirtualCenter数据库
根据现有系统的变情况,一般一周执行一次SQL数据库清理和管理服务器的全备份就可以了。如果系统处于不断地动态变化中,可以频率高一些。依然要强调的老问题:如果您希望将来可以重建,拥有数据库的备份很重要。 3) VMware每月维护工作 每月需要进行如下的管理行为: 清理存储
如果存在过期的快照,需要尽快清理掉。如果无法确定是否存在,可以通过VMware SiteSurvey查看。 检查服务协议
检查用户是否已经升级了售后服务,是否到了做新的预算来购买所需支持服务的时候了?
预想需要做的升级。
目前为止,所有的工作都在围绕保持系统正常工作上。需要思考:随着业务环境的快速变化,当前希望IT系统如何工作?怎样可以改善业务?然后找出一条正确的路线图来实现。
第 15 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
3. 附录
3.1. 联想公司简介
联想集团成立于1984年,是一家以研究、开发、生产和销售自有品牌的计算机系统及其相关产品为主,在信息产业领域内多元化发展的大型企业。联想集团于1994年在香港联合交易所挂牌上市,联想集团有限公司(编号992)的市值达到约900亿港币左右,位居香港股市十大上市公司之列。联想集团有限公司包括两大子公司:联想电脑公司、联想神州数码有限公司。
从一间小平房里起家、仅有11个人的联想集团,目前拥有员工10,000余人;在北京、上海、成都、西安、沈阳、深圳等地设有地区总部,在全国各地建有数千家代理分销网点;在欧洲、美洲、亚太设有海外平台;1999年实现销售收入203亿元人民币,连续二年位居全国电子百强第一名;销售联想电脑125.8万台,连续四年位居中国市场第一,在亚太地区的市场占有率上升到第一;联想集团是国家120家试点大型企业集团之一,国家技术创新试点企业集团之一,成为国内最具影响力的高科技公司。
在过去的十几年里,联想集团始终致力于为中国用户提供最新最好的科技产品,推动中国信息产业的发展。联想集团的业务涉及到个人电脑、服务器、主板、外设、信息家电等INTERNET接入端产品、信息服务、软件、系统集成以及以电子商务为核心的网络局端产品等多方面,各类产品和技术已成为中国政府、金融、交通、邮电、商品流通等许多重要领域必不可少的信息技术手段。
在技术竞争日趋激烈的今天,联想集团积极调整发展策略,提出了\"打破应用甁颈,促进信息产业发展\"的口号。1998年,联想与中国科学院计算技术研究所共建联想中央研究院,
第 16 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
加大前瞻性技术研究;并通过进军软件产业,提高技术附加值;联想集团提出了面向INTERNET的新战略,全面进军数字化领域;全面发展信息服务业,积极开拓宽带网络业务,为发展二十一世纪联想科研开发新体制做充分的准备。
目前,联想拥有已经申请和正在申请的上百项技术和产品的国家专利,开发出包括奔月商用电脑和天禧家用电脑在内的多个系列、一百余种型号的个人电脑产品,以及自有品牌激光打印机、MODEM和其他网络产品,基于LOGOEASY和SECURITYEASY等多项EASY技术的主板产品,基于ACE和POWERLINK技术的集成解决方案,联想还在积极研制开发满足家庭和个人需求的消费类信息产品,1998年,中国第一台中文掌上电脑诞生在联想。
面对INTERNET经济的挑战,联想集团主动应变进行大规模业务重组。从原来的以事业部为核心的体制向以子公司为核心的体制转变,分为:向客户提供全面的INTERNET的接入端产品、信息服务的联想电脑公司和为客户提供电子商务为核心的局端产品及全面系统集成方案为主的联想企业服务有限公司,从而开创了联想集团全面进军网络时代与创造新经济的全新企业格局。
多年来,联想集团的决策层一直致力于制定联想的发展战略、贯彻联想的管理理念、保持并发扬联想的企业文化,力争使联想集团成为一个长久的、有规模的高科技企业。
发展现代高科技是中国面向二十一世纪的必然趋势,为了更好地将先进技术服务于中国信息产业的发展,联想集团将在推进国民经济信息化建设的进程中发挥更加重要的作用。
联想服务器在国内的快速增长,以及服务器GO Big项目, 联想在企业级产品的服务支持能力上,也进行发力建设服务布局和服务能力。在服务器服务能力覆盖布局上, 通过有效整合服务资源,启动了服务器百城计划,即在全国100个主要城市实现服务器产品保修能力的本地化覆盖,一举建立服务器服务覆盖的市场领先地位。
第 17 页 共 18 页
联想服务器虚拟化 – 日常运维巡检方案 联想企业级服务
通过2013年的建设, 服务器城市服务已经从年初的71个城市,快速上升到92个城市(9月底),2013年已经顺利实现100个城市覆盖,一举实现行业的领先。
联想企业级运维服务,提供了标准的服务体系,为用户提供合格满意的端到端运维服务。
第 18 页 共 18 页
因篇幅问题不能全部显示,请点此查看更多更全内容