“把大象搬上云端”,腾讯自研上云进展首次披露
你以为996就是互联网人的极致吗?
有这样一个神秘工种,7×24随时随地待命,全年无休,以至于把7.24过成了他们的专属节日——这就是运维。
作为服务数十亿用户的互联网公司,腾讯运营着亚洲最大的网络、服务器集群和数据中心,为亿级用户提供云计费服务和安全保障。运维就融入在这每一环中,保障系统持续运行,产品稳定可用。
为致敬运维人,打造开放的运维技术生态,近日,腾讯云、腾讯技术工程及CODING联合,在深圳举办了首届腾讯运维开放日。来自腾讯和CODING的运维专家,与五百余名运维爱好者一起,分享交流了云计算时代,腾讯运维的技术沉淀和实践经验。
从内部组件到云原生,全力保障自研业务上云
2018年9月,腾讯发动了一场壮阔的技术革新,包括成立技术委员会,开源协同,全力推动自研业务上公有云。腾讯自研上云项目负责人周小军,正是开放日演讲嘉宾之一,他生动地把腾讯海量规模的业务上云形容为“把大象搬上云端”。他介绍,在业务从私有云迁到公有云的过程,分为五个阶段:规划、方案、验证、迁移及运营。其中业务适配云原生和庞大数据搬迁到云上是最大的难点。
“像QQ,所用的就是从私有组件到公有云的迁移方法。”周小军介绍,在2017年所有的QQ用户都还在私有云上,到2019年6月,已经有1亿的QQ在线用户在公有云上了。“我们计划是到2019年底,实现华南、华东和华北三大区域的100%QQ用户全部都迁到云上。”
“在业务层面,研发效率更高,资源利用更高效;在工程师层面,他们能够离开封闭的开发环境和组件,使用到整个业界最标准化的云服务,在客户层面,可以输出内部优秀的工具和服务到云上,给行业输出业务迁移上云的经验。”周小军盘点“自研上云”所带来的诸多收益。
云原生DevOps,助力企业上云
CODING创始人张海龙指出,云原生的时代下,研发团队的组织方式和工作效率会经历巨大的变革。
在张海龙看来,除了服务器的上云,更需要架构的变革,以充分享用云所带来的如扩充能力、监控能力、云的数据库能力、云的缓存能力等的多种能力。“我们现在也在和腾讯一起合作,做很多DevOps的产品,帮助一些企业上云,我们希望是做真的上云,是云原生。”
广泛的使用云厂商提供的 PaaS 及 SaaS 服务,使用工具替代人肉运维,将会大大提升研发团队的发版速度,做到一天数十次的版本发布,以便快速响应市场需求,持续交付高标准产品。从目前的客户案例来看,CODING 和腾讯云为客户提供的 DevOps + 云能力,给客户带来了至少 200% 的效率增长。
腾讯云云函数,小程序云开发的幕后帮手
腾讯云在2017年的时候上线了FaaS产品腾讯云云函数SCF。腾讯云中间件产品经理张远哲表示,Serverless是一个比较新的概念,但使用Serverless对用户来说有着多元的益处。“第一,它会减少服务器集群的数量,从而降低开发和运维的复杂性。第二,它可以缩短业务交付的周期,为用户提高开发的效率。第三,它可以使开发人员专注于业务逻辑的开发,使运维人员专注于业务的运维,从而提升竞争力。”
以腾讯相册小程序为例,这是一个在四周内开发出来的能够支持千万级用户的小程序。“如果按照传统的IaaS模式,至少需要8个星期,这还是最乐观的估计。”张远哲说。而通过Serverless的应用,这个小程序只经过极短的开发周期以及少量的人力投入,便得以上线。经统计,至2018年12月,其累计的用户数已经突破1亿,月活1200万。
在运维层面,张远哲则认为Serverless能从三个方面为用户带来实质性的提升:业务运维的精细化、运维系统稳定性的提高以及能成为集团业务稳定性的保障。
2018年9月,腾讯云联合微信以FaaS加上BaaS的形式,为小程序开发者提供了小程序云开发,在张远哲看来,此举正大大推进了Serverless架构在全国开发者心中的普及程度。
人机协同,数据中心智能化运维实践
数据中心是云计算最重要的基础设施,伴随腾讯云的飞速发展,腾讯数据中心的运维和管理面临着更大的挑战。
业内根据数据中心的智能化运维管理水平,将数据中心的运维分成三个阶段:S1人工阶段、S2半自动化阶段、S3人机协同,自动化、智能化的阶段。“腾讯目前正处在S2向S3演进的阶段。”腾讯数据中心研发总监岳上在会上介绍到。
岳上认为,智能运维的技术方法论,是从传统的纸质表格和对讲机为代表的传统数据中心,通过运维活动的标准化、流程化,积累大量的运维数据,通过数据挖掘、数据分析以及数据洞察的方式,以数据化、场景化及平台化作为抓手,进而建设成智能化、自动化、现代化、数字化的数据中心。
回顾过去三年间腾讯数据中心的数字化转型过程,岳上认为挑战主要来源于三个层面:硬件,协议标准不一,网络区域差异化严重,数据方面,各地方数据难以凝合分析。
对此,腾讯数据中心团队分四个角度逐一突破。“首先我们联合了业界的头部力量,牵头行业标准《互联网数据中心-基础设施监控指标规范》、《互联网数据中心-基础设施监控系统北向接口规范》的制定与推广。第二我们开发了一系列自动化验收的工具,验收厂商的数据准确性和有效性。第三我们搭建了管控网的专网,抹平了各个数据中心不同的网络差异。第四是通过我们的智能化管控平台,把各个数据中心的数据统一上升到智能化管控平台上来,依托腾讯强大的研发实力,进行统一的分析。”
据岳上介绍,至今,腾讯数据中心管理超过80个IDC、100万台服务器,对现场数据进行采集的硬件测点超过600万,存量数据达237T。“特别要指出的是,这个数据还在以每年40%的速度在持续地进行增长。我们也在持续进行技术革新以应对快速的增长。