欢迎来到Introzo百科
Introzo百科
当前位置:网站首页 > 技术 > 运维难度“更上一层楼”——不存在!

运维难度“更上一层楼”——不存在!

日期:2023-10-08 23:37

如今,数字化时代已经到来,数据中心的规模和容量呈指数级增长,与之相伴的运维管理也变得越来越复杂和困难,从脚本运维、工具运维到平台运维操作和维护。随着维护的演进,人力已经达到极限,智能运维应运而生。 数据中心最怕什么? 停电、网络损坏... 数据中心运维人员最怕什么? 停机、不规则故障、升级和扩展...... 随着数据中心建设规模的不断扩大和新技术的迭代更新,承载数据中心业务的网络变得异常复杂。为了适应数据中心业务的发展,数据中心网络不断更新和变化,给运维工作带来很大难度。数据中心停机事故不可避免地发生,这不仅增加了数据中心运维人员的工作量,更重要的是给数据中心带来巨大的损失。就连全球知名的互联网巨头也常常享受这样的“待遇”。 互联网巨头宕机不断,运维成为难题 3月3日凌晨,阿里云出现宕机,导致购买阿里云服务的企业网站或互联网公司APP无法正常运行。大量的程序员、运维不得不下床工作。针对阿里云宕机事件,58网高级架构师沉健表示,事故持续了约3个小时,事后观察了2个小时。 5月3日凌​​晨3点43分开始,微软Azure在全球范围内出现大规模宕机。整个过程持续了近2个小时,直到5点30分才完全恢复。受Azure停运影响,微软的主要服务包括Microsoft 365、Dynamics和DevOps都出现了使用问题。 6月3日凌晨2点58分开始,谷歌在全球范围内遭遇大面积宕机。许多基于谷歌云架构服务的谷歌服务,包括 Gmail、YouTube 和 Google Drive 均受到影响。用户访问Google服务时会出现各种错误提醒,导致用户无法访问电子邮件、上传YouTube视频等。 据6月25日消息,亚马逊在其官网确认,其云计算服务出现中断,影响了部分网络用户以及多个AWS区域的网络连接。故障节点位于AWS美国东部1区,共有33个服务受到影响,其中9个服务处于完全中断状态。 停机事故频发,运维难度加大。 宕机事件已经证明了数据中心运维工作的重要性,但似乎也无法避免。如今,随着科技的进步和万物互联时代的到来,数据中心作为重要的基础设施发挥着重要作用。数据中心在中国的发展虽然只有十几年,但已经从只有UPS、空调和IT设备的普通机房发展而来。时代进入了一个包含互联网、大数据、AI、云服务等全方位服务的新时代,往往有几万个柜子。自然冷却、风墙、水下数据中心、液冷服务器等新技术不断被创造和应用。 。由此,运维管理面临更大挑战,运维难度也“更上一层楼”。 首先是超大规模数据中心带来的人员、组织和效率的变化。过去,1万平米以内的数据中心人工巡检需要2-4小时。现在有几十万平方米,需要更多的运维人员分布在不同的责任区域,增加了管理难度和成本;其次,电压等级提高,安全风险加大。过去,运维人员经常接触低电压。现在供电设备、发电机、冷水机等均采用高压供电,维护安全要求提高。此外,规模集中导致风险集中、事故影响更大。例如,上述数据中心故障导致全球范围内大规模服务和应用中断,造成重大损失。因此,运维管理的压力提前到来。 减少人为失误,提高运维管理专业技能 根据数据调查,70%的数据中心宕机是由人为错误造成的。因此,随着数据中心规模的不断扩大,运维人员必须提高自身技能和专业素养,以应对数据中心事故的发生。 : 建立完整的人员技能评价体系,从多方面考核运维人员的技能和能力,可以有效帮助运维人员提高运维技能,促进运维人员主动学习和自动提升。 运维经验在线学习,建立运维经验数据库,实现在线运维经验分享和交流平台,为在线实习和学习运维知识提供渠道。 在线模拟实际运行环境,为运维模拟提供实际操作环境,有效隔离运行风险,有助于快速提升运维实际水平。 理论技能在线考核依托海量IT云平台组件题库、定期考核、随机题,实现运维理论能力在线实时自动考核。 实践技能在线考核,构建轻量级在线运维操作和在线编程环境,实现运维操作技能和研发技能在线实时自动考核。 通过自动考核提高效率,实现运维理论技能和实践技能在线科学自动考核,提高考核效率,保证能力的客观公正反映。 为了弥补人工运维的不足,智能运维应运而生。 如今,数字时代已经到来,数据中心的规模和容量呈指数级增长。随之而来的,运维管理的复杂度和难度也变得越来越复杂。从脚本运维、工具运维到平台运维,演变到现在。 ,人力已接近极限,智能运维应运而生。如今,更多的数据中心企业如腾讯、华为、京东等开始加大研发力度,投入智能运维浪潮,将人工智能与运维结合,在现有运维的基础上数据(日志、监控信息、应用信息等),利用机器学习的方法提高运维效率,从而逐步替代人工运维。相信未来数据中心将变得越来越智能化。

关灯