唐磊的个人博客

他们居然把服务器泡“水”里!| 数据中心参观有感

关于作者:程序猿石头(ID: tangleithu),从十八县贫困农村一路逆袭上清华点这里查看我的逆袭之路),BAT某厂P7,是前大疆(无人机)技术主管。

本文首发于微信公众号,原文链接,转载请全文保留。后台回复关键字 “1024” 获取程序员大厂面试指南。

数据中心入口

背景

大家好,我是石头哥。

本科的时候,有去参观过某个公司的机房,就是一堆机柜服务器那种,对机房的主观视觉概念也就停留在那个时刻。

本科参观过类似的机房,网图

虽说自己作为云计算行业从业者几年了,对数据中心的概念了解得更多了,知道其中不仅仅是服务器摆在机柜那么简单,但始终没有亲眼看到过,比如数据中心到底是怎样的?服务器、机柜、交换机、电源等等都长啥样?

朋友圈日常分享,没加的可添加vx:codershitou

前几天,有了个机会,跟公司申请去参观了阿里云的数据中心,感受了下其中的黑科技(比如把服务器泡在“水”里?),今天就给大家分享一下。

准备工作

提前报备,严格的预约机制,保密流程等,需要另外签署 NDA(Non Disclosure Agreement,保密协议)等。当然本文分享内容不含敏感信息哈,都是从公网(更多的是官方授权的官网)可得到的信息。

本文内容每个敏感点,石头哥都刻意去“官媒”求证了,不含敏感信息。所以,这篇分享不容易啊。大家看到了,还望多多帮忙点赞分享支持。

可以看出,即便是内部员工,要求也挺严格的。进入机房,甚至从机房出来,都需要过安检(虽比不上乘飞机时的安检程度,但比地铁安检口严格得多),穿戴鞋套(回到了小学时候上电脑课)。

还记得小时候穿鞋套上电脑课吗?-网图

包当然不让带,手机可以带(人性化),不过进入机房前都给戴了套,加了锁,拍照是啥也看不到的。

供电

数据中心是能耗的大头。一般一台服务器得几百瓦吧?几万上十万服务器跑着,这功率可想而知。除此之外,还有空调等其他系统。

前两天某券商就发生了故障。事故原因是由于运营商机房电力闪断导致的多机房网络故障。其 CEO 反馈:

供电网络一个几秒钟的电压抖动,IDC一堆网络IT设备跟着关机或重启,实在是难以想象,说好的不间断电源和柴油发电机去哪了?不间断电源和柴油发电机竟然都没能发挥应有的作用,要知道电力保障是一个IDC之所以是IDC的最基础能力。

这里先提一下 PUE 这个概念(后面也会用得着):

PUE: Power Usage Effectiveness,又叫电源使用效率。计算方式为数据中心总能耗/IT设备能耗,评价数据中心能源效率的指标。

IT设备能耗就是指真正产生“实际价值”的服务器、网络等IT设备使用的能源,除此之外,当然还有空调等制冷设备产生的能耗。据百度百科说数据中心的冷却占机房总功耗的40%左右。

当然,PUE 值越接近1表明能效水平越好。

供电局断电了咋办?

但当机房市电供电断掉的时候呢?比如电路被某个施工搞断了。

最近非常严格的各种“限电”政策(别问我怎么知道的,特别惨)。

所以,机房一般会双路供电。即:有2路来自不同的供电系统的市电接入,这两路市电不是同一个发电源,不交叉的供电系统,任何一路市电出问题都不会影响到另一路。

此外,服务器上的电源也得是成对的。供电局不断电,保不齐,电源会坏啊。所以一个电源坏了,另外一个马上续上。

为了高可用,基本都靠冗余,本文后面还有各种设备的冗余。

UPS

UPS(Uninterruptible Power Supply,不间断电源)你肯定听说过。当市电突然断电时,UPS 会把命给续上。

但想想,一个机房能提供的功率多大,UPS 是不是也得尽量提供充足的电力?想想都贵。

电力电池室,来源见水印

搞云计算很难挣钱,是不是大概明白了?

但是,UPS 毕竟是蓄电池,肯定支撑不了多久的。断电了,还得想办法补充电力才行。

市电,你一个私企没法控制的吧,因此得自己有发电机。

柴油发电机

这个时候,柴油发电机,就派上用场了。

柴油发电机,网图

就是类似上面这种玩意,当然这玩意,要你家停电了,提供下照明还是没啥问题的。

要给IDC供电,得是这样的(看到的是升级过后的,这个是网上找的老版):

柴油发电机房,来源见水印

这玩意,一般用不上,一年可能也用不上几回,但没有它,又不行。

等到真正要用的时候,不能坏了,不能用吧?所以也会要有日常演练。

演练虽然烧油有成本,但也是必须的。

柴油跑着跑着没油了呢?“储油罐”不够怎么办,因此输送油的管道链路也得有。

这玩意,比想象中的复杂太多啊。但缺了电,啥也干不了。

所以,业务上层考虑高可用是必须的,不要把业务仅仅部署在一个机房。
所谓的“两地三中心”等等概念不是平白无故来的。

制冷

冷机房,来源见水印

不知道你们的电脑在开发的时候,能同时开几个 IDE,开多个的时候,风扇是不是呼呼转,电脑是不是非常发烫?

对,散热非常重要。

传统的散热方式,就是靠空调。

空调的散热方式,一般两种,即“风冷”和“水冷”。

  • 风冷,用风作为散热介质,就是空气,你家空调基本就是这种。
  • 水冷,就是用的水作为散热介质,效率会高一些。上面图就是水冷机组了。 冷水进,热水出。

估计你之前也看过微软在海底建“数据中心”的这个新闻。

微软海底“数据中心”

阿里也有类似的。

阿里巴巴千岛湖数据中心是国内首个采用自然水制冷技术的数据中心,空调系统采用两路进水,湖水和冷冻水,可以实现同时或单独运行。湖水经过物理净化后,通过密闭管道流经每层为服务器降温,之后直接供市政景观用水,实现了资源最佳利用。

一样,空调也得是“双路”的,主备空调能切换。

各种备用空调坏的时候,物理降温,应急冰块、干冰等等也得准备起来。

物理降温冰块,网图

黑科技 —— 液冷

泡在“水”里的服务器,图片来源见水印

此外,还有黑科技。

基于单相浸没液冷技术,利用绝缘冷却液实现高效散热,无需风扇、空调、冷机等冷却设施,数据中心PUE(Power Usage Effectiveness-能源使用效率,以下同)可低至1.09。

浸没液冷服务器集群,图片来源阿里AIS

全球规模最大的全浸没液冷数据中心,图片来源阿里AIS

浸没液冷服务器采用了3M氟化液液体,全环境无风扇无振动设计,达到卓越散热冷却效果。

据讲解的小姐姐说,使用这种技术的服务器故障率下降了7倍。

不过那玩意应该很贵吧?

后记

参观完,有一个明显的体验就是:虽说大家从官网通过一键就能轻轻松松购买“服务器” ECS,但这背后其实有这么庞大的工程系统在做支持。

所以,也能理解,云计算为啥很难盈利了(你对比下广告)。更能感受到,当初在阿里做云计算有多么不容易(云计算早期中途团队走了不少,差点干不下去)。

搞云计算的真的是挣点辛苦钱呀!

回过头来看看2010年,BAT 大佬们对云计算的看法,这里有个视频:

https://v.qq.com/txp/iframe/player.html?vid=m3040cv8mop

其实就是下面三张图。你说马老师不懂技术,但对于王坚完全信任,很难得的。结果,想必大家也看到了。

你可能感兴趣:

有收获请记得下方点赞、在看、分享,这对我很重要,感谢。

关于作者:程序猿石头(ID: tangleithu),从十八县贫困农村一路逆袭上清华(点击这里查看我的逆袭之路),目前在BAT某厂打工,是前大疆(无人机)技术主管。

欢迎扫码加入互联网大厂内推群 & 技术交流群,一起学习、共同进步。后台回复关键字 “0” 送阿里技术大礼包。

tanglei wechat
欢迎扫码加入互联网大厂内推群 & 技术交流群,一起学习、共同进步