大数据中心运维服务技术实施方案
第1页
大数据中心运维服务技术实施方案V3.0
目录
1概述 ..................................................................................................................... 3
1.1市级基础环境运维 ................................................................................. 3 1.2区、县级基础环境运维 ......................................................................... 4 2服务器维护 ......................................................................................................... 5 3设备定期预防性保养 ......................................................................................... 6
3.1保持机房的洁净 ..................................................................................... 7 3.2防雷击 ..................................................................................................... 9 3.3保持适当的湿度/温度 ......................................................................... 10 3.4尽量降低电磁干扰 ............................................................................... 12 3.5采取好防静电措施 ............................................................................... 14 3.6防断电 ................................................................................................... 15 4系统维护 ........................................................................................................... 16 5网站维护 ........................................................................................................... 23 6运维服务标准 ................................................................................................... 25
6.1组织保障 ............................................................................................... 26 6.2驻场人员的资格要求 ........................................................................... 28 6.3端口屏蔽 ............................................................................................... 29 6.4驻场服务规范 ....................................................................................... 29 6.5定期跟踪与总结 ................................................................................... 33
第2页
大数据中心运维服务技术实施方案V3.0
1概述
服务方需提供的基础环境维护服务包括:精准教育大数据平台相关的网络设施、主机设备、操作系统、存储设备的维护服务,设备定期的预防性养护,承载软件系统的维护服务以及网站的维护服务等,保证精准教育大数据平台的正常运行,提高整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。
用户信息系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。
服务方需对教育云平台进行监控和管理,及时掌握网络信息系统资源现状和配置信息,反映教育云平台的使用性情况和健康状况,创建一个可知可控的IT环境,从而保证用户的各类业务应用系统的可靠、高效、持续、安全运行。 1.1市级基础环境运维
服务方需组织16人基础环境运维团队,其中配备1位总负责人、1位团队负责人、4位网络工程师,4位服务器维护工程师,2位维修维护工程师和4位系统维护工程师,三班倒工作,
第3页
大数据中心运维服务技术实施方案V3.0
提供7*24小时维护保障工作。需要对部署在市级的服务器、网络、软件系统等方面进行维护服务,保障教育局和学校的日常工作。精准教育大数据平台平台基础运维服务内容包括以下内容:
1. 对部署在市级教育局中心的硬件设备进行现场维护; 2. 对部署在市级教育局中心的设备定期进行预防性保养; 3. 对教育云平台范围内的网络进行监控、现场维护; 4. 对部署在市级教育局中心服务器的软件系统进行现场及远程维护、软件系统升级、迁移;
5. 协助教育局做好精准教育大数据平台的维护和更新; 1.2区、县级基础环境运维
xxx市现辖xxx区、xxx区、xxx经济开发区、xxx高新技术产业开发区、xxxxxx经济开发区、xxx县、xxx县、xxx县、xxx县、xxx县等五县五区。服务方需为每个区、县单独配备基础环境运维团队,每个团队8人,其中包括1位团队负责人、2位网络工程师、2位服务器维护工程师、1位维修维护工程师和2位系统维护工程师,三班倒工作,提供7*24小时维护保障工作。需要对部署在区级的服务器、网络、软件系统等方面进行维护服,保障教育局和学校的日常工作。精准教育大数据平台平台基础运维服务内容包括以下内容:
1. 对部署在区级教育局的服务器硬件进行现场维护; 2. 对部署在区级教育局的设备定期进行预防性保养;
第4页
大数据中心运维服务技术实施方案V3.0
3. 对教育云平台范围内的网络进行监控、现场维护; 4. 对部署在区级教育局服务器的软件系统进行现场及远程维护、软件系统升级、迁移;
5. 协助区级教育局做好精准教育大数据平台的维护和更新;
2服务器维护
服务器监控:对本项目所属的服务器主机运行状态、应用软件的运行状态、日志等进行定时的检查和监控;
服务器配置:服务器主机的应用配置与维护,应用服务设置;
服务器系统更新:定期对服务器进行系统更新; 服务器数据备份:关键应用的备份;
服务器安全:病毒库升级、高危端口监控,保障服务器健康运行。
巡检服务如下图所示:
第5页
大数据中心运维服务技术实施方案V3.0
3设备定期预防性保养
运维服务提供方安排运维工程师对本项目的硬件设备做定期的维护保养。包括:系统诊断,必要的机械、电子部件的调整以及对有潜在问题或已出现问题的备件的更换,并且从湿度/温度、洁净度、防静电、电磁环境、防雷击等方面入手。
第6页
大数据中心运维服务技术实施方案V3.0
3.1保持机房的洁净
网络设备和服务器对机房的环境的洁净度要求很高,因为灰尘对网络设备的运行安全也是一大危害,因为网络设备在工作的时候,会产生一定的静电场、磁场,加上由于风冷散热的电源和风扇运转产生的吸力,会使室内悬浮在空气的灰尘颗粒吸进机体内,造成静电吸附,使金属接插件或金属接点接触不良、绝缘性能下降、霉变、散热不良导致温升过高,不但会影响设备寿命,而且容易造成故障。当室内相对湿度偏低时,更易产生这种静电吸附。除灰尘外,网络设备对空气中所含的盐、酸、硫化物也有严格的要求,因为这些有害气体会加速金属的腐蚀和某些部件的老化过程。所以,洁净度的要求是比较高的。
要达到洁净度的要求,就必须了解灰尘是如何产生的。 ➢ 用于维持整个机房环境的温度和湿度的空调系统,不可避免的会将一部分灰尘带入机房;
➢ 机房在维护过程中,进出的人员会将一部分灰尘带入机房;
➢ 建筑物本身产生的灰尘,机房的门窗(特别是未经防尘处理的普通房间)容易流入大量灰尘。而机房本身的老化,如:墙壁、地面、顶棚等表面产生的表皮脱落形成的灰尘;
➢ 机房设备本身产生的灰尘,如打印机等在运转过程中产
第7页
大数据中心运维服务技术实施方案V3.0
生的纸屑与墨粉颗粒;
➢ 机房处于负压环境,大多数机房在运行时对机房外部都是负压,即外界气压高于机房气压,造成机房内灰尘洁净度严重超标。
知道了灰尘产生的途径,就可以从源头上尽可能杜绝灰尘的产生,具体操作范围如下:
➢ 机房分区控制,对于大型机房,条件允许的情况下应进行区域化管理,将易受灰尘干扰的设备尽量与进入机房的人员分开,减少其与灰尘接触的机会。例如将机房分为三个区域,服务器主机区,控制区,数据处理终端区。并设置专门的参观通道,通道与主机区用玻璃幕墙隔开。 ➢ 定期检查机房密封性。定期检查机房的门窗、清洗空调过滤系统,封堵与外界接触的缝隙,杜绝灰尘的来源,维持机房空气清洁。
➢ 维持机房环境湿度,严格控制机房空气湿度,即要保证减少扬尘、同时还要避免空气湿度过大,设备产生锈蚀和短路。
➢ 严格控制人员出入,设置门禁系统,不允许未获准进入机房的人进入机房。进入机房的人员的活动区域也要严格控制,尽量避免其进入主机区域。
➢ 做好预先除尘措施,机房应配备专用工作服和工作鞋,并经常清洗。进入机房的人员,无论是本机房人员还是
第8页
大数据中心运维服务技术实施方案V3.0
其他经允许进入机房的人员,都必须更换专用工作鞋或使用鞋套。尽量减少进入机房人员穿着纤维类或其他容易产生静电附着灰尘的服装进入。
➢ 提高机房压力,建议有条件的机房采用正压防灰尘,即通过一个类似打气桶的设备向机房内部持续的源源不断的输入新鲜、过滤好的空气,加大机房内部的气压,由于机房内外的压差,使机房内的空气通过密闭不严的窗户、门等的缝隙向外泄气,从而达到防尘的效果。 3.2防雷击
因为我国处于温带和亚热带地区,雷暴活动十分频繁,所以雷暴是我国的主要天气灾害之一,以天津市为例,每年的雷暴期从三月中旬到十一月上旬,长达八个月。虽然在北方,雷暴没有南方强烈和频繁,但是也有网络因为雷击而遭受损害的情况发生。根据一项调查,30%的网络设备故障都与雷击有直接的关系。虽然很多的时候雷击所造成的感应电压并不能一次就把设备彻底损毁,但是即使当时没有造成网络故障,但设备若再经常受到过压冲击,就很容易引起路由器设备零件的老化,大大地缩短了其使用寿命,对于旧的设备来说就更加容易遭受破坏。这样的话,如果没有相应的接地保护措施,设备很容易遭受雷击等自然灾害的破坏,严重影响网络的稳定运行。尽管现在的设备一般都在防雷击方面作了大量的考虑,也采取了必要措施,但是在雷击强度
第9页
大数据中心运维服务技术实施方案V3.0
超过一定范围时,仍然有可能对设备造成损害。为达到更好的防雷效果,要切实做好防雷击措施,可以通过做好设备接地装置和安装有效的防雷保护系统这两种方法来防雷击,具体的措施如下:
保证设备的保护地用保护地线与大地保持良好接触; 保证电源插座的接地点与大地良好接触;
为增强电源的防雷击效果,可以考虑在电源的输入前端加入电源避雷器,这样可大大增强电源的抗雷击能力;
使用无线AP作讯号桥接减少设备外露;
为保护网络信号系统,可考虑使用网络防雷器。网络防雷器则大致上分为空气间隙间隔式和半导体式,目前市面上的网络防雷器多采用不同器件组合成三级方式,第一级由大通流量的气体放电管进行初级保护,以降低残压并把大部分雷电流泄放入大地;第二级采用去耦电阻或PTC进行阻流延时和分压,以配合第一、三级的元件的特性要求;第三级采用TVS进行精细保护,以进一步降低残压,使其达到设备的安全电压要求。例如:捷瑞(JaRa) 3207终端设备防雷器、平宇SJ05FF4H入层防雷器、雷迅(ASP) RJ45-XE系列骨干网防雷器都是不错的选择。 3.3保持适当的湿度/温度
由于网络设备是由许多紧密的电子元件组成的,为保证网络设备正常工作,并延长使用寿命,机房内需维持一定的温度和湿度。若机房内长期湿度过高,易造成绝缘材料绝缘不良甚至漏电、
第10页
大数据中心运维服务技术实施方案V3.0
电路短路,引发火灾事故,还会发生材料机械性能变化、金属部件锈蚀等现象,尤其是网线和电话前的水晶头接触处会霉变、氧化,造成接触不良,导致网络速度减慢;若相对湿度过低,绝缘垫片会干缩而引起紧固螺丝松动,在干燥的气候环境下,还容易产生静电,危害网络设备的 CMOS电路;温度过高危害更大,因为高温会加速绝缘材料的老化过程,使设备的可靠性大大降低,严重影响其使用寿命。
有条件的话,应使用机房专用空调,机房对温度,湿度和洁净度有比较严格的要求,而普通舒适空调不能满足这个要求。相比普通舒适空调,机房专用空调有以下特点:
➢ 在设计上采用严格控制蒸发器内蒸发压力,增大送风量使蒸发器表面温度高于空气露点温度而不除湿,产生的冷量全部用来降温,提高了工作效率,降低了湿量损失,即由于送风量大,送风焓差减小;
➢ 送风量大,机房换气次数高(通常每小时30~60次),整个机房内能形成整体的气流循环,使机房内的所有设备均能平均得到冷却;
➢ 空气循环好,同时因具有专用的空气过滤器,能及时高效的滤掉空气中的尘挨,保持机房的洁净度; ➢ 因大多数机房内的电子设备均是连续运行的,工作时间长,因此要求机房专用空调在设计上可大负荷常年连续运转,并要保持极高的可靠性。舒适性空调较难满足要
第11页
大数据中心运维服务技术实施方案V3.0
求,尤其是在冬季,计算机机房因其密封性好而发热设备又多,仍需空调机组正常制冷工作,此时,一般舒适性空调由于室外冷凝压力过低已很难正常工作,机房专用空调通过可控的室外冷凝器,仍能正常保证制冷循环工作;
➢ 机房专用空调一般配备了专用加湿系统,高效率的除湿系统及电加热补偿系统,通过微处理器,根据各传感器返馈回来的数据能够精确的控制机房内的温度和湿度,而舒适性空调一般不配备加湿系统,只能控制温度且精度较低,湿度则较难控制,不能满足机房设备的需要。 ➢ 不具备安装机房专用空调条件者,冬季在北方可以使用加湿器来保持一定的湿度,防止由于过分的干燥而造成大量的静电积累。 3.4尽量降低电磁干扰
简单地讲,电磁干扰就是设备间无用的电磁作用。过大的电磁干扰会降低网络传输的可靠性,误码率增加,并使网络传输时间延长。电磁兼容性(EMC)是要求设备工作于电磁环境中时,不能对其他设备造成不良影响。在布线中既要考虑外界干扰不能过大,也要考虑布线系统不能过分干扰其他系统。国际上对电磁干扰的评估以欧洲89/336/EEC条例(EMC条例)要求较为严格,所以该条例使屏蔽布线系统在欧洲非常流行。ISO(国际标准化组
第12页
大数据中心运维服务技术实施方案V3.0
织)对相关内容也有要求,但并不严格。EIA/TIA(美国电子/电气工业协会)甚至对EMI/EMC没有加以严格限制,这就使得非屏蔽系统在欧洲以外的地区大量使用。
数据在网线中传输,会受到多方面的影响,电磁干扰就是主要的一个方面,所以进行布线的时候网线就应当避开电磁干扰区域。布好线以后还要进行保养,除了不要时常对网线进行弯曲拉扯以及用重物压以外,例如电动机、音箱和无线电收发装置等也要离网线以及网络设备远一点,确保网络信号不会免受外界辐射影响。在计算机内部的网卡发生干扰的情况也会经常出现,因为网卡和显卡由于插得太近也会产生干扰。干扰不严重时,网卡能勉强工作,数据通信量不大时用户往往感觉不到,但在进行大数据量通信时,可能出现“网络资源不足”的提示,造成机器死机现象。
网络设备使用中可能的干扰源,无论是来自设备或应用系统外部,还是来自内部,都是以电容耦合、电感耦合、电磁波辐射、公共阻抗(包括接地系统)耦合的传导方式对设备产生影响,因此为达到抗干扰的要求,应做到:
➢ 对供电系统采取有效的防电网干扰措施;
➢ 网络设备工作地最好不要与电力设备的接地装置或防雷接地装置合用,并尽可能相距远一些;
➢ 远离强功率无线电发射台、雷达发射台、高频大电流设备;
第13页
大数据中心运维服务技术实施方案V3.0
➢ 必要时采取电磁屏蔽的方法。 3.5采取好防静电措施
静电很容易造成计算机以及外设的硬件损坏,所以,网络设备同样难逃静电厄运。静电是无处不在的。随着网络设备芯片工艺的进步,芯片的速度和功能都得以提升,但芯片却变得更加脆弱。一个不太高的静电放电的电压就能将晶体管击穿,一个不太大的静电放电的电流就能将连线熔断。
尽管现在的网络设备在防静电方面作了大量的考虑,采取了多种措施,但当静电超过一定限度时,仍会对单板电路乃至路由器整机产生巨大的破坏作用。在与网络设备器连接的通信网中,静电感应主要来自两个方面: ➢ 室外高压输电线、雷电等外界电场; ➢ 室内环境、地板材料、整机结构等内部系统。 因此为防止静电损伤,应做到正确的防范措施:
➢ 设备良好、可靠的接地。重点设备应在其外围进行屏蔽和隔离; ➢ 室内防尘;
➢ 保持适当的温度、湿度条件。使用配备专用加湿系统的机房专用空调,如不能配备此空调者,在北方地区,冬季应使用加湿器,防止静电大量积累;
➢ 接触电路板时,应戴防静电手腕,穿防静电工作服;
第14页
大数据中心运维服务技术实施方案V3.0
➢ 将拆卸下的电路板面朝上放置在抗静电的工作台上或放入防静电袋中;
➢ 当观察或转移拆卸了的电路板时,请用手接触电路板的外边缘,避免用手直接触摸电路板上的元器件。
➢ 对于不具备专业防静电手段的用户而言,可先切断电源,并将手放在墙壁或水管上一会儿,以放掉自身静电。 3.6防断电
在供电不足的情况下,市电对企业实施拉闸限电已是常见的现象,而且供电过程中出现电压忽高忽低的不稳定和时断时续问题,会导致局域网中路由器、交换机、服务器等各类设备无法连续正常工作,长期如此会大大缩短设备的寿命。所以要保障网络设备的正常运行,就要为它们配备性能优良稳定的UPS电源系统。UPS电源可以解决电网存在的诸如:断电、雷击尖峰、浪涌、频率震荡、电压突变、电压波动、频率漂移、电压跌落、脉冲干扰等等问题,而精密的网络设备更是不允许电力有间断,故此以服务器、大型交换机、路由器为核心的网络中心要配备UPS更是不言而喻。
网络设备的保护神UPS使用简单但自身却又比较娇气,科学的保养和维护才会延长UPS的寿命。保养的方法包括:尽量不接电感性负载。不宜满载或过度轻载,长期满载状态将直接影响UPS寿命,一般情况下,在线式UPS的负载量应该控制在70%~80%,
第15页
大数据中心运维服务技术实施方案V3.0
而后备式的UPS的负载量应该控制在60%~70%。另外还要保护好蓄电池,虽然表面上它不需要维护,但照顾不周,同样会出毛病,蓄电池是要求在0~30℃环境中工作,25℃时效率最高。因此,在冬、夏季一定要注意UPS的工作环境,温度高了会缩短电池寿命,温度低了,将达不到标称的延时。另外还要定期维护,如果当地长期不停电,必须定期三个月人为中断供电,使 UPS带负载放电。最后还应把UPS放在通风散热良好的地方。
4系统维护
对于项目进行过程中遇到的问题,需根据问题复杂程度选择远程协助或者现场解决等,远程协助主要采取网络协助,电话协助等,现场解决主要将选派技术人员在最短时间内赶到现场用户现场进行指导解决;
1)灾难性事件:由于经过大量的测试,精准教育大数据平台不会出现灾难事件的隐患,如果确因开发工作引起的灾难事件,需立即组织研发队伍对其进行修复(必要的话会到现场对事件进行调研),并尽快赶到现场对原有精准教育大数据平台进行改造升级,同时,通过软件分发渠道对所有使用该版本的精准教育大数据平台免费进行升级。如果系统由于病毒或其他非应用系统原因造成的灾难性事件(包括系统不能启动等),需要恢复到可运行状态,需酌情收取差旅费、服务费进行现场恢复操作。
第16页
大数据中心运维服务技术实施方案V3.0
2)严重程序错误:如果确因系统开发问题而可能造成数据错误(必要的话会到现场对事件进行调研),需立即通知用户暂停使用该平台,并立即组织开发队伍进行修改,并尽快到现场升级原有系统。同时,通过软件分发渠道对所有使用该版本的精准教育大数据平台进行升级,需要现场升级的提供上门服务。
3)一般程序错误:如果程序出现开发上的“笔误”,不会造成严重的数据损失,立即组织开发队伍进行修改,并通过软件分发渠道对所有使用该版本精准教育大数据平台进行升级。
4)属于用户使用不当问题的,通过电话进行指导。当客户的系统发生一个技术问题后,服务体系允许用户按照事件严重程度和委托响应时间,客户可以从以上情况中选择一种:灾难性的,严重的,一般的。 具体服务内容如下: 现场服务
根据用户反映问题复杂程度,提供专门技术服务,如果精准教育大数据平台运行异常并且学校方面处理有难度,提供现场服务经验技术工程师进驻现场,对精准教育大数据平台进行维护,对运行问题及时排查和解决,保证各业务系统正常运行。
电话服务
第17页
大数据中心运维服务技术实施方案V3.0
教育公共云服务平台应用服务采购项目提供7*24小时电话服务支持。以便用户系统出现故障时使用户在任何时候可以得到及时响应。
在用户提出要求及问题后,首先通过电话进行沟通,排除诊断故障,提出建设性维护意见等,如果维护有难度则考虑现场进行技术服务。
现场协调制度
发挥协调管理的优势,调动运维服务部的积极性,使得各项工作能够在协调下有效衔接。利用长期以来所形成的部管理经验进行组织、协调、管理和控制,在计划、工期、质量、物资管理、技术管理、资料管理、合约管理等方面建立了一整套的管理规定,全面考虑实施工过程中的每一个细节,高效及时安排人员进行服务,解决学校使用问题。
远程支持
教育公共云服务平台应用服务采购项目进行远程服务支持,在网络环境下,远程操作解决客户使用过程中的疑问和难点,保证精准教育大数据平台建设能够更好的辅助学校工作,更好的提高教育教学、行政管理等工作。
远程支持服务的主要内容:技术交流、系统功能的优化与扩充,操作指导等。需有完备远程服务人员安排,保证远程服务及时有效解决。
系统跟踪
第18页
大数据中心运维服务技术实施方案V3.0
精准教育大数据平台运行的前三个月内,每两周进行例行的系统运行检查及维护,做到随时跟踪,防患于未然;在系统运行三个月后,每月进行例行的系统运行检查及维护。
管理员应与实施技术人员共同完成实施过程,并在项目正常运转后负责精准教育大数据平台的日常维护工作。
维护提供商派有现场实施经验的技术人员常驻现场,响应最终用户的请求,及时协助最终用户处理有关维护和技术问题,保证精准教育大数据平台各业务系统正常使用。
针对本项目,需设计完善的技术故障应急策略。 当运维服务部门收到项目用户出现技术故障的运行维护与支持服务需求时,立即作出实质性响应,联系项目用户核实故障情况,收集故障信息,并且立即派出运维服务部赶赴项目故障现场,以最快的速度分析故障原因,确定故障点,根据故障类型和项目用户的需求,进行故障排除。
对精准教育大数据平台运行等原因造成的故障,负责免费维护,对非用户原因造成的使用故障,负责免费维护及故障排除。
服务管理
随着教育公共云服务平台建设的使用,应用碎片化时代的到来,产品版本更新速度加快,新技术应用于产品的周期更短,对产品服务进程也有了新的变化。不仅提供传统的运维服务,也时刻关注于产品本身的更新和新技术的运用。因教育公
第19页
大数据中心运维服务技术实施方案V3.0
共云服务平台建设的过程是长期持续的,需要产生的效果也是持续增强、稳定和不断更新的,所以对于产品服务管理更满足于学校的需求和信息化的进阶。
客户关怀 ➢ 电话关怀
为教育公共云服务平台应用服务采购项目提供长期的访问关怀。在精准教育大数据平台安装运行阶段的三个月中,保证每天都有专业技术人员提供7*24小时电话服务。在精准教育大数据平台验收后半年内,技术人员定期通过电话与学校进行沟通,了解学校精准教育大数据平台运行情况,解决运行中遇到的问题,并更新精准教育大数据平台维护日志。在精准教育大数据平台验收半年以后,技术人员将与学校进行电话或者现场沟通,了解精准教育大数据平台运行情况,并提供测试报告及解决方案。 ➢ 日常维护关怀
对教育公共云服务平台建设提供日常维护时间点分为:月检、季检、半年检和年检。
每月、每季度进行定期保养:系统操作系统平台检查,与用户操作、维护人员交流系统运行状况,维护运行记录检查,确认系统运行状况。
在进入维护期半年时,除月检常规工作外,增加如下工作:
检查系统:以保证系统能够按照系统的标准进行;
第20页
大数据中心运维服务技术实施方案V3.0
软件备份:对系统软件进行备份。
在进入维护期一年时,除半年检时进行的工作外,全面排查及调试所有业务系统,确认业务系统及操作数据运行稳定。
主要包括如下工作:
1) 对精准教育大数据平台所有业务系统进行例行测试,以保证正常稳定运行。
2) 对精准教育大数据平台所有业务系统标准性的检查,保证系统及基础数据的兼容性。
3) 性能优化:在每半年的例行测试中,检查设定值并将其与原设计值进行比较,以优化控制系统为目的。检查系统控制参数,重新调整系统参数以达到最佳运行状态。提交系统总体运行状态合格报告并就可能的改进方案提出建议。
4) 软件备份:对精准教育大数据平台业务系统操作源数据进行备份。
每次检修完毕,整个维护过程将详细记录,甲乙双方共同存档备案。
维护调度
➢ 了解问题所在; ➢ 提出解决方案;
➢ 系统使用及操作特性说明; ➢ 技术文件说明;
➢ 协助解决提高性能的要求;
第21页
大数据中心运维服务技术实施方案V3.0
➢ 提供系统性能调整的信息; ➢ 提供待解决问题的状况; 问题解决
运维服务人员将负责客户投诉信息的记录、反馈;督查运维人员实施具体的服务,确认客户服务结果,并阶段性提供分析报告,负责客户服务档案的建立与管理。
日程管理
维修记录,系统的运行状态信息、维护信息自动送入网络系统中,为信息咨询系统提供信息资源。
完整计划
➢ 对系统的数据进行及时、有序的整体维护; ➢ 熟练掌握系统运行及维护方法; ➢ 培养强烈的责任心和工作意识。 知识库
对教育公共云服务平台建设进行资料文档的编写,诸如需求分析,概要设计,总体设计,解决方案编写,测试与维护记录等知识资料库,包含工具,规范,代码库,流程等一系列的综合体系。
为了帮助运维人员及时巩固和更新本项目相关的技术知识,了解并掌握最先进的技术,运维服务部的技术人员将时刻跟踪新的技术领域,收集整理相关资料。根据项目用户的实际情况和需求与项目用户的技术人员进行技术交流,并采用电话、传真、邮
第22页
大数据中心运维服务技术实施方案V3.0
件、网站的方式将最新的信息传送给项目单位的技术人员。对项目单位技术人员提出的技术交流需求,运维服务部的技术人员将会在最短时间内与项目单位技术人员取得联系,详细了解和分析具体需求内容并回答项目单位技术人员提出的问题,以最快速度从技术支持知识库中提取相应内容,或从其他途径获得相应技术资料,反馈给项目单位技术人员,并对知识库进行内容更新。
建立技术支持知识库对保证整个系统稳定运行至关重要。 在本项目的实施过程以及运行维护与支持服务过程中,技术人员将在技术支持知识库中实时统计记录发生的技术问题,同时实时解决出现的技术问题并给出解决方案,协助项目单位在内部服务器上开辟技术支持知识库栏目,及时向各节点的技术人员发布。
在运行维护与支持服务的过程中,技术支持人员还会不断跟踪技术、系统信息,提交给项目单位对知识库进行丰富和更新,以便项目单位技术人员能够掌握技术、系统的最新信息。
5网站维护
精准教育大数据平台公共门户网站是面向学校领导、教师、学生、家长和社会公众的统一访问入口,通过对上层应用服务的请求,调度下层业务逻辑及其相关业务系统的资源,完成以事件为驱动的数据流。精准教育大数据平台专题网站的运行需要后台
第23页
大数据中心运维服务技术实施方案V3.0
部署数据库服务,Web应用服务,Tomcat服务,JDK运行服务,以及其他预览,操作的插件支持。
精准教育大数据平台公共门户网站的目标是为教育局提供一个基于网络的信息交互平台,在先进技术的保证下,营造一个真正安全快捷的教育信息化工作环境,通过数据共享建立精准教育大数据平台平台的“门户12”服务体系,所有用户都可以轻松登录,应用一站完成。
这种基于门户服务架构的平台的特点是: 开放性:即在教育局平台上直接面向各类用户; 交互式:实现管理者和服务对象的在线交互工作; 一站式:能在一个平台集中办理教育局面向不同学校的多项事务,实现了精准教育大数据平台网的流程整合。
基于门户服务架构的公共门户网站的应用优势是打破了时间、空间、部门限制;缩短办事时间,优化办事程序,提高工作效率;增加建设办事的透明度;提高建设管理与服务的规范性。
门户构架如下图所示:
第24页
大数据中心运维服务技术实施方案V3.0
6运维服务标准
➢ 现场支持服务
对于远程支持不能解决的故障,技术人员在SLA规定时间内抵达故障现场,并在规定时间内排除故障现象,现场支持服务完成后为用户提供现场服务报告。 ➢ 巡检服务
根据学校需求,运维以远程或现场的模式定期对精准教育大数据平台及业务系统实施测试检查,及时提交测试结果,并对结果进行评估,分析其可用性、安全性、连续性和性能现状,并就发现的问题或隐患及时派运维工作人员进行处理。调整客户硬件系统的不合理参数,保证精准教育大数据平台整体稳定运行。
第25页
大数据中心运维服务技术实施方案V3.0
➢ 活动保障服务
主要是指高考、中考、自考等大型考试举行期间,或者两会、奥运会等特殊时期,系统的运行状态。服务方需制定完善的技术保障措施和管理措施,以保证系统正常使用。 ➢ 应急保障服务
应急事件是指突发事件,如服务器被攻击、网络出现大面积中断等事件。服务方需制定详细的应急响应运维服务流程,通过各种技术手段、管理措施来避免出现不必要的时间,或者降低突发事件造成的不良影响。 6.1组织保障
针对教育公共云服务平台服务采购项目,组织精锐服务队伍,充分发挥服务方的整体优势和专业化保障,同时成立专门的精准教育大数据平台运维服务部,来确保系统平台的稳定运行。
按照原有成熟的项目管理模式,严格按照国家标准的保证体系来运作,以专业管理和系统平台管理相结合的管理体制,全面推行科学化、标准化、人性化、制度化管理,以一流的管理、一流的技术和一流的服务以及严谨的工作作风,精心组织、精心工作,履行对业务的承诺实现上述目标。
市级教育局驻扎现场设项目经理一名,项目副经理一名,每个区/县级教育局驻扎现场设项目副经理一名,项目经理主管
第26页
大数据中心运维服务技术实施方案V3.0
精准教育大数据平台整体基础环境维护工作,项目副经理主管该区/县精准教育大数据平台基础环境维护工作,同时每个区县单独配备专业技术人员,现场实施人员,由项目经理统一管理。
项目经理必须需具备5年以上基础环境维护工作经验、所有项目副经理必须具有3年以上的经验。另外,现场配备专业运维人员,保证运维具有较深专业理论知识和丰富的实践经验,能随时能解决各种技术问题。
服务方需选派项目技术人员、实施人员进驻现场,按需调整人员变动以及实时解决现场问题,主要保证相关工作实施任务。
组织精锐的服务队伍,成立专门的精准教育大数据平台运维服务部,来确保系统平台正常运行。
为保证用户的利益,向提供用户技术支持,对系统使用和软件的升级全面负责,培训、安装指导、单机调试、系统联调和试验等。
除提供正常的保修服务外,还设立定期用户回访制度,委派专人负责,及时发现问题,及时为用户解决问题,以保障客户利益不受损失。可与用户签订限时反应协议,为用户提供快速技术支持保障。根据用户业务需要,提供人员技术培训,为用户户储备人才。
第27页
大数据中心运维服务技术实施方案V3.0
6.2驻场人员的资格要求
需派驻场的技术支持工程师必须满足如下要求: ➢ 熟悉教育云平台所有的软硬件;
➢ 有丰富的运行维护经验,能对教育云平台的服务器及配套设备进行独立的配置;
➢ 有教育云平台服务项目的工作经验;
➢ 有集成项目的经验,有一定的整体设备系统把握能力; ➢ 具有3年工作经验,能够独立对常见及复杂故障进行维修和解决;
➢ 有1年以上驻场经验,对日常的驻场维护工作内容非常熟悉,并能够针对现场非硬件类故障提供技术支持; ➢ 具备良好的沟通能力。
➢ 除了指定的驻场工程师,服务方需提供备份驻场工程师,以保证驻场服务正常的进行。
➢ 派驻的工程师在驻场期间的行为,需完全按照各学校的规则管理。包括但不限于:考勤、礼仪、安全规则、操作规则等。
➢ 用户有考核驻场工程师的权利,可根据驻场工程师实际表现,要求更换工程师。服务方如需要更换驻场工程,必须经过用户的同意。
第28页
大数据中心运维服务技术实施方案V3.0
6.3端口屏蔽
精准教育大数据平台建设运行在一个开放的网络环境中,所以各种访问数据流通过端口登入精准教育大数据平台中,一些危险的数据流访问会对精准教育大数据平台基础数据或者业务系统进行破坏,影响精准教育大数据平台正常运转,组织专业技术人员对端口进行屏蔽,常用的端口如TCP(135、139、445、593、1025)和 UDP( 135、137、138、445 端口,后门端口TCP(2745、3127、6129),以及远程访问端口TCP(3389)等都是黑客入侵常利用的接入端口,会将不良程序或者数据流入精准教育大数据平台,势必会影响到精准教育大数据平台的正常运转,所以建立端口屏蔽,设置防火墙,并设定一定规则和统一的标准,拒绝危险的访问请求,处理不良数据,对开放端口允许的连接数和请求身份进行严格身份控制,通过端口屏蔽,实现了对系统安全性进行优化控制。 6.4驻场服务规范
驻场工程师需严格遵照甲方的管理规定,不随意更换驻场工程师,工程师每日出勤率达到100%。工程师工作态度端正,问题解答积极有效,保证及时响应各用户的服务请求,完成的驻场服务。
工程师着装规范:
➢ 工程师在工作时间内必须着装整洁、得体、庄重;
第29页
大数据中心运维服务技术实施方案V3.0
➢ 工作时间应穿皮鞋或皮凉鞋,不得赤脚穿凉鞋,不准穿拖鞋;
➢ 工程师应保持仪表端庄,头发修剪、梳理整齐; ➢ 加班原则上以正常上班要求着装,公休日加班可着便装,但仍不得赤脚穿凉鞋、拖鞋,不得穿短裤、以及既无领又无袖的服装。
工作场所纪律:
➢ 工作时间内,工程师应举止端庄,不得在教学、办公区内大声喧哗、追逐嬉戏、聊天进食;
➢ 工程师不得在教学、办公区域内进行娱乐活动; ➢ 工程师不得在教学、办公区玩电脑游戏; ➢ 工程师在指定的区域内吸烟;
➢ 工程师与客户员工要互相尊重,团结协作,珍惜他人的劳动成果,不说不利于团结的话,不做有损于团结的事。
作息:
➢ 工程师必须严格遵守驻场的考勤制度;
➢ 工程师应在自己的工作岗位上认真工作,不得擅自离开工作岗位;
➢ 人员行为规范;
➢ 驻场人员严格遵守甲方各项规章制度;
➢ 驻场工程师与客户的交往要恪守开拓、高效、诚信、求实的宗旨,提供优良服务,接待客户 态度热情、谦和礼貌。
第30页
大数据中心运维服务技术实施方案V3.0
接听电话:
➢ 在教学、办公区域内,个人通讯设备必须置于震动或静音状态。
➢ 工程师接听电话,必须使用标准用语:“您好!我是***(驻场工程师名字)”。
➢ 严禁使用热线电话拨打或接听私人电话。 使用公物:
➢ 工程师应爱护驻场地点的各种设备和物品,如有损坏,需按甲方要求进行赔偿;
➢ 禁止在办公家具上乱刻、乱画、乱写、乱贴。 用餐、饮水:
➢ 工程师饮水应使用个人水杯,接待来客可使用一次性纸杯;
➢ 用餐在指定用餐区内,教学、办公区内严禁用餐。 办公环境:
➢ 工程师应合理使用驻场的办公位,保持桌面和周围环境的整洁;
➢ 办公桌上除个别得奖物品外,不得放置与工作无关的用品;
➢ 办公桌椅、计算机表面不得有灰尘,办公区内物品、材料摆放整齐,个人办公区内不得随意张贴资料,各部门公用办公设备指定专人负责管理;
第31页
大数据中心运维服务技术实施方案V3.0
➢ 工程师使用的毛巾、雨具等私人用品,应妥善处置,不得随意挂靠或搁置在办公区内;
➢ 为保持公共区域和个人办公位的卫生,工程师应按规定处置各类废弃物,将废弃物入篓,剩水、剩茶等倒入卫生间的茶漏或饮水机前水桶;
➢ 驻场办公区域内预留工位,不得随意占用,存放设备、资料等;
➢ 不得在更衣柜、文件柜、饮水机顶部或窗台放置资料、设备、工艺品、奖牌等物品。
安全保卫:
➢ 工程师应自觉维护治安安全,对在办公区内发生的有损安全的行为,工程师都有责任加以指正、制止;
➢ 工程师须妥善保管工作中形成的或使用的各类文件、资料,外出工作或下班时锁好贵重物品和重要文件;
➢ 下班离开办公室时,使用人应关闭不必要的设备电源; ➢ 严禁外来人员进入教学核心区域,如因工作需要进入,需填写相关申请单,由各学校相关负责人批准后方可进入,并进行相应登记;
➢ 工程师须保管好个人用品及其他属个人保管的物品,防止遗失。
消防安全:
➢ 工程师必须遵守防火安全管理规定,确保使用电器设
第32页
大数据中心运维服务技术实施方案V3.0
备的安全;
➢ 未经许可,任何工程师不准把易燃、易爆等危险物品带入驻场办公楼;
➢ 工程师发现办公楼内的安全或火灾事故隐患,应及时报告物业管理部门,并尽可能采取有效措施消除隐患。 6.5定期跟踪与总结
定期派遣技术人员现场回访,提交《回访记录单》,了解设备的运行情况,听取意见和建议,解决存在的问题。
与运维开始后一周内提交《运维计划》,每年底提交《系统运行和维护总结》。
服务方对于系统服务,每天提交《系统维护日志》,每周提交《服务接入日志》和《故障报告》,每月出《系统服务月报》,记录系统运行及空间等情况,每周召开周例会,并安排下一步工作计划,对一周工作进行总结并出具《周例会会议记录》。
服务方对于服务人员,每月出《人员情况统计表》,记录服务人员运维情况。
以上总结报表于下月第一个工作日,连同本月的《运维工作量月汇总》一并提交,年底前需提交《运维工作总结》。
序号 1 文档名称 运维计划 后一周内 第33页
提供频度 运维期开始数量 1 大数据中心运维服务技术实施方案V3.0
每月4次2 3 4 5 6 7 8 总 9
回访记录单 系统维护日志 服务接入日志 故障报告 周例会会议记录 人员情况统计表 运维工作量月汇每次回访 以上 每天 每周 每周 每周 每月 每月 365 53 53 53 12 12 1 运维工作总结 年底 第34页
因篇幅问题不能全部显示,请点此查看更多更全内容