62

入职第一天,出事了!

 5 years ago
source link: http://www.10tiao.com/html/320/201806/2651004812/3.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

点击上方“程序人生”,选择“置顶公众号”

第一时间关注程序猿(媛)身边的故事

2018,毕业整十年。

从西部的无名小城到魔都上海,

从IT专员到运维经理,再到公司IT总监。

李默,今日主人公,

一通电话背后的故事就是一幅


“我是李默,您是哪里?”


“您好,我是集团HR琳达。杭州晓帆服饰有限公司IT总监的职位,陆帆向我推荐了您…….”


本人李默,2008年武大计算机研究生毕业,当时就职于上海某电子商务公司运维部经理。IT这个职业干久了,爹妈认为你不孝,亲人觉得你不亲,朋友认为你很装,已婚的以为你有外遇……其实我们只是没日没夜的忙,要是朋友中有做IT的,那就请他们吃个饭吧,反正他们也去不了!


一个月后的周一,杭州晓帆服饰有限公司总裁办公室里,我第三次见到了CEO陆帆,第一次见还是在两年前集团总部的年会上。“晓帆服饰2006年10月创办,主打轻熟女装品牌,2013年公司上市。而如今我们的股票市值只有三年前的一半,三年前搭建的线上平台目前看来并不成功,我们现在需要尽快上线‘无限项目’(结合线上、门店零售、智能设计和魔镜试衣)提高市场占有率,重新获得更高的盈利能力,开发应用总监蒋风和你直接向我汇报,我需要你们!”说着,陆帆从座位上走到了我跟前。


突然一阵紧急的敲门声,业务部总监刘涛推门而入,“陆总,门店POS系统没有响应!”之后,我和刘涛跟随着陆帆疾步走进了IT部。陆帆对乱成一团的IT部门员工简单介绍了下:“这位是李默,IT总监,这位是江浩负责网络,这位是冯斌负责运维”,然后转身对我说,“请带领你的团队立即修复门店POS系统!”


冯斌走上前汇报“李总,挂在服务器上的存储卷无法写入,POS数据库挂了,初步判断是存储故障。”我拜托刘涛起草一封邮件,通知所有门店经理启用门店POS系统手动备用模式。


一个工程师接了个电话后向冯斌汇报:“戴尔易安信服务经理打来电话,让我们检查存储空间是否满了,说是之前遇到过类似的事情,戴尔易安信服务经理和售前工程师都在赶来的路上。”


我们打开了戴尔易安信存储Compellent的Storage Center管理界面,果然是空间已满和若干个容量报警。转移了备份数据重启了服务器,门店POS系统恢复正常运行。


戴尔易安信服务经理王伟韬和售前工程师吴梅到了,我召开了第一次部门紧急会议,查清了此次事故的原因(核心业务存储空间被大量其它业务系统的备份数据占据,系统告警被忽视),明确了改进日常工作比开展日常工作更重要的思路,并且从两位戴尔易安信工程师那里收集了厂家资源,立即启动基础架构主动式监控项目:


01

规范日常工作内容和步骤,本周内完成初稿,每月讨论一次,不断改进。


02

部署Dell EMC OpenManage组合:


①  安装Dell EMC OpenManageEssentials系统管理控制台,实现发现、设置、部署、配置和监控现有的戴尔易安信机架/塔式/刀片服务器,Powervault、Powconnect和Force 10交换机,导入第三方硬件SNMP MIB管理现有的服务器;


②  安装OpenManage Mobile和OpenManageEssentials结合支持ios和安卓,通过手机随时随地管理数据中心硬件;


③  安装OpenManage Power Center定义物理组或逻辑组监控数据中心能耗和成本,在夜间或周末低负载阶段实施降低此时段内功耗的策略;


④  安装VMware vCenter的OME内嵌插件。


03

启动戴尔易安信主动式预测服务:


①  安装Support AssistEnterprise,结合OpenManageEssentials,在戴尔易安信服务器及受支持的网络和存储设备上发生问题时及时通知戴尔易安信公司;


②  在DSM(DellStorageManager)中启用SupportAssist功能。


通过以上两个工具,使用Dell EMC售后服务中心提供7*24*365的主动式监控,通过通知、自动化故障事件创建和主动式响应,硬件问题自动报修,加快问题解决速度,双保险,防止员工疏漏。


04

启动戴尔易安信月度报告:


戴尔易安信提供月度服务事件和派单分析/业务影响分析/资产管理分析,还包括紧急固件和安全漏洞需要升级更新提醒,提高运行稳定性,降低风险(第二天我拿到月度报告,1个安全漏洞,4台服务器和2台存储将要出保提示)。


05

启动戴尔易安信健康巡检服务:


冯斌配合王伟韬收集了所有设备日志,由戴尔易安信专业团队据此生成设备运行状态总结及建议(一周后我拿到了健康巡检报告)。


①  存储主要对存储空间/读写延迟/IOPS/每秒传输率/控制器状态/硬盘状态/后端连线状态做出了说明,并且提醒了固件升级所需时间和准备工作:


②  每台服务器给出以下的建议,并告知建议使用Dell EMC Repository manager(DRM)协助升级。


戴尔易安信售前工程师吴梅还告诉我,2018年年内会推出Dell EMC OpenManage Enterprise,提供Linux、Microsoft和KVM虚拟设备打包和交付,增强了权限管理和全新的图形用户界面。可以使用菜单项、链接、按钮、窗格、对话框、列表、选项卡、筛选框和页面以在页面和完成设备管理任务之间导航。诸如设备列表、环形图、审核日志、OpenManage Enterprise设置、系统警报和固件更新等功能将显示在多个位置。



上任IT总监的第一天,运气似乎不太好。下班前给陆帆、刘涛发了一封快速状态报告,保证我将不惜一切代价防止此类故障再次发生。


第一周我梳理了业务系统、基础架构、部门员工、可用资源,开了大大小小几个会议,着重关注了戴尔易安信几个监控工具的安装进度,安装完毕一切正常,监控工具里列明了所有设备,各类仪表盘井然有序,我稍稍放下了心。


周日我携妻子和爸妈逛了灵隐寺和西湖,阳春三月,杨柳夹岸,水光潋滟,好久没有这么滋润了。晚上我祭出几样拿手小菜,获得一致的赞赏,我心中默默为自己回杭的决定点了个大大的赞。


第二周的周二,我收到了戴尔易安信公司半年一次的健康检查报告,下午2点我们邀请了王伟韬和吴梅参与讨论会议,对健康检查报告中的风险进行评估,最后决定对一个有可能会引起重启的标注紧急的部件固件进行批量升级。


OpenManage Essentials可以实现批量固件升级,默认情况下,所有的固件信息来源是Dell EMC官方的catalog,但由于网速的原因,我们并不能控制下载的时间,从而没法预估停机的时间,这给更新固件带来了麻烦。


吴梅给出了建议“通过Dell EMC Repository manager(DRM),我们可以预先把固件下载到本地,做成本地目录源,再进行固件更新,做到时间和停机窗口的可控,并且可以形成自己的固件资源库”。



DRM分为Client版本和Datacenter版本,我们这次用到的是datacenter版本:


点击My repositories,选择OME inventory:


输入OME的IP点击connect,DRM会把OME管理的设备信息添加进来:


选择Windows x64版本的bundles后点击Finish:


创建了一个属于OME的repository,例子中有包换R640/R740/R940的三种机型。勾选所有的bundles,点击Create Deployment Tools,用来本地目录源:


选择本地文件存放的目录:


下载结束双击confirmed一下。


通过选取Dell EMC Repository manager(DRM)里稳定可靠的固件版本,对所有的戴尔易安信服务器建立了一个固件基线标准,合标/非紧急不合标/紧急不合标的设备对应绿色/黄色/红色通过一个环形图显示出来,点击环形图可以查看任意一台设备具体的不满足项,评估后进行逐一升级。


下午5点半,会议室里,吴梅翻开了笔记本:“OME还可以建立BIOS/远程管理卡IDRAC/网卡/RAID卡/HBA卡等设置的基线标准。”冯斌略有所思:“的确是个好功能,不过现在我们还用不上,现在还缺一个应用监控平台,你们有吗?”吴梅笑道,“这个我们没有,不过OpenManage Enterprise未来会提供API和客户应用监控平台提供无缝对接。”


送走了戴尔易安信的两位工程师,我打开了吴梅演示的PPT:


总结了Dell EMC OpenManage组合具备如下功能:

  • 查找和管理数据中心环境中的设备。

  • 分组和管理设备。

  • 监测设备的运行状况。

  • 管理设备固件版本,设置固件基线标准,批量升级固件。

  • 创建和部署设备配置模板(仅限服务器),批量升级配置。

  • 批量安装操作系统。

  • 查看和管理系统警报和警报策略(仅限服务器)。

  • 查看硬件资源清册和符合性报告。

  • 监测和报告保修及许可证,自动化报修。

  • 监控能源消耗,节能设置。

  • 可集成到第三方管理平台。

  • 管理方式多样,支持网页管理和手机APP管理。


点开Outlook新邮件提醒▼


收件人:冯斌

抄送:李默


您好!

SupportAssist已检测到您的设备之一报告的硬件问题,并且已就此问题开启支持案例。


SupportAssist主机:SQ-SAE-190-188

问题详细信息:172.16.16.77

03/18/2018(16:25:55 PM UTC)

MEM0001 - 2265 : Multi-bit memory errors detected on a memory device at location.

案例ID:958344309


Support Assist已检测到您的设备之一报告的硬件问题,并且已就此问题开启支持案例。


为了确保该问题得到及时解决和纠正,我们将通过以下方式与您联系:冯斌 15676473736


发件人:Dell EMC SupportAssist

 


Dell EMC OpenManage组合功能强大有效降低数据中心宕机风险,让我安枕无忧,合上笔记本下班!


注:文中人物和故事情节纯属虚构,如有雷同,纯属巧合。


更多精彩内容


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK