一场春晚抢红包大战,把百度推到了媒体浪尖和大众面前,很多人说百度抓住了一次绝好的营销机会。
但行内人士都知道,这是挑战很大的一次战事,如何让全国各地的十亿人同时拿起手机的瞬间,都是如丝般顺滑的体验?史中老师的爆文《百度的春晚战事》详细还原了一个月的激战场面,呈现出百度从运维、资源、矩阵、业务、系统到网络的综合实力。
赢得了春晚的机会,也扛得住春晚每秒峰值5000万次的数据海啸挑战,面对一次次流量高峰,百度又一次为自己正名。
但有人也质疑只为证明百度而去做这件事儿,真的值吗?跟随“云上百度AI技术硬核揭秘之旅”启程,我再一次来到百度阳泉云计算中心,在这座高(效)(最)大全(能)的数据中心里,每位技术人的纯粹和笃定不由得让人感叹,证明与否可能并不重要。他们那股子劲头令人热血,在也许看起来并不起眼的位置努力夯实基础,用技术撑开梦想,让AI时代正充满无限可能。
以前听杨澜讲过这样一段对话——“人工智能之父”马文·明斯基说:“我们要让机器变得智能,让它们拥有意识。”“鼠标之父”恩格尔巴特回道:“你打算为机器做这些,那你打算为人类做些什么呢?”
没错,技术是使世界变得更好的方式,在过去二十年,互联网改变了我们的生活,在过去十年,云计算影响了更多的企业;未来,人工智能会让更多的企业换挡。
比如最传统的“老黑粗”的钢铁行业,在车间里,温度达1000℃的铁水从高炉出铁口喷涌而出流入炉台下的铁水鑵,即便是在十米之外,钢铁质检工人经得住“烤”验,严格按工艺要求操作,要穿上特制的工作服,时刻监控着炼钢炉内的温度颜色变化,天天面对高温的红钢去取样,然后再送去检验。
现在钢厂开始在引入百度“AI 质检”之后,通过工业级摄像头代替肉眼检测,部署传感器实时监控钢包状态,降低能源成本、时间和人力成本,更大程度上把人力从高危环境中解放出来。
还有我们出行中感受最直接的安检口身份验证,人脸自助登机,诸如这样的AI应用和方案,已经在3大产业,15大行业开始推广应用起来。
回到开头的问题,让智能应用触及融入我们生活的方方面面,百度扛得住春晚流量,其价值就在于AI时代百度可以重新构想企业流程,或者重新构想行业,就是为了实现“科技让世界更简单”。
当应用触达民生,智能和简单便捷的背后却是百度将万物聚合互联的实力,让边缘与中心相融的基础架构创新支撑,百度智能云产业智能化业务负责人李硕试图用一张图来清晰表达之间的关系。
这也说明人工智能经历60多年的潮起潮落后为何现在可以落地,数据的爆炸性增长让人工智能有了基础,算法的革新让很多的图片识别和数据处理有了更快的方法,但人工智能最宝贵的不是数据,是基于数据的技术创新和超强算力的支持。
这个超强算力平台就来自数据中心,如果没有数据中心作为人工智能的底座,所有的人工智能的理论还继续停留在纸上。
而在众多企业智能化升级中,更多的复杂的生产环节需要数字化,需要更强的计算能力,以及能够提供针对性的定制化解决方案。
就拿春晚红包来说,全球观众互动次数达到208亿次,每分钟峰值10亿次的数据流量,单就百度阳泉云计算中心就在一个月内新部署上万台服务器。
《百度的春晚战事》成为大众真正去了解科技公司的敲门砖,顺着一个个鲜活的故事,大家的目光从我们日常APP往深里看,从百度地图,搜索引擎延伸到存储和计算这些数据地方,回答这个问题其实也是从互联网和云计算公司排兵布阵的起点——数据中心开始说起。
现在百度阳泉云计算中心规划服务器装机能力超过28万台,已上线万个CPU核,服务春晚过后的那些服务器将一起承载百度二十余款、用户过亿的产品,继续服务超百万企业客户。
从数据存储容量来看,目前就拥有6EB级存储容量,如果换算的话,百度阳泉云计算中心可存储的信息量相当于30多万个中国国家图书馆——亚洲规模最大的图书馆的藏书总量。
可以说,数据中心是云计算、AI时代的硬核,有了数据中心的支撑,互联网、云计算才得以高速发展,冰冷的数据中心如同高铁之于国计民生,作为云和人工智能的底座,承载着一个时代的使命。
从经济建设来说,从选址、内部建造,数据中心将科技与自然环境融为一体,不仅促进信息经济发展,还促进了当地经济、生态、民生,特别是对于经济欠发达地区,提供了“弯道超车”的可行性分析。
去年跟随“数字中国万里行”参观百度阳泉云计算中心时,狒哥对我说,这里还值得你再来多次。
因为超大规模数据中心一旦落成,意味着会使用十年甚至二十年,从供电、冷却到内部服务器、存储、网络等基础架构,再到环保节能,都用先进的理念和设计,再到智能运维,技术应用代表的不仅仅是现在,还代表未来的趋势,对数据中心本身和传统其他行业都有借鉴意义。
百度阳泉云计算中心2011年按照T3+标准设计,2012年开始建设,已建成投产的是12万平方米的大一期就已经采用了百度400多项数据中心、网络及服务器专利技术。
最经典的PUE值(电力使用效率,即数据中心总能耗与IT能耗之比,PUE值越接近于1,表示效率越高),这是衡量数据中心高能效的指标,效率越高,不仅意味着节约成本,也是企业社会责任的高度体现。
这次“云上百度AI技术硬核揭秘之旅“的参观从大厅监控室开始,2017年百度云计算(阳泉)中心年均PUE是1.1,2018年年均PUE继续降低,达到1.09。(在我参观的当天,ECC监控大厅实时显示数据中心的运行状态,包括PUE、负荷、IT服务,IT容量以及机房电力和热度,单模组最低的PUE为1.062,八个模组平均PUE为1.112。)
这意味着仅在2018年百度阳泉云计算中心比全国数据中心平均1.73的PUE水平,在基础设施能效方面提升了88%,能源效率国内第一,国际上和气候环境明显占优的Facebook、Google不相上下。这样算下来,每年节电量可达2.5亿度,相当于13万户居民一年的用电量。
据百度系统部总监张炳华介绍,从减少制冷过程中消耗的电能开始,百度着眼电气架构和空调末端的改变,另外配合高温服务器和调优等措施使PUE降低。
参观中,可以看到在电气架构上百度如何达到极致,在百度采用五种架构,像市电+UPS、市电+UPS ECO模式、和市电+高压直流在线、市电+高压直流离线的形式,尤其是最后一种,也是世界首例采用了这种供电架构。
2016年百度自研机柜供电技术,北极整机柜采用分布式锂电池技术,取代传统UPS,可以不需要配电室,节电量4200万度/年,建设投资减70%,,节省空间25%(这也意味着同样的面积再装25%服务器)。
基于这些技术使用,百度供电效率由原来传统2N UPS架构的90%,大幅度提高到99.5%的效率。
一般来说,数据中心都会采用架空地板制冷,但走完全程,发现百度在国内最早采用无架空地板、百度自研的OCU空调末端与阈值化结合,利用空气的对流原理,采用了全新性的气流组织,解决了空调末端的功耗。而综合水冷空调,AHU,OCU和间接风侧这四种新老空调末端形式的对比,OCU的耗能为零。
通过创新技术简化制冷系统,在阳泉气候条件没有明显优势的情况下,百度把免费冷却(free cooling)做到极致,全年可利用免费冷却时间达到96%以上。
取消架空地板另外一个原因是百度阳泉云计算中心最早采用整机柜交付模式设计,比如电梯的承载量达4吨。从卸货平台、走廊、电梯到机房全程实现无障碍交付设计使用。
这样百度自研的整机柜模式在出厂之前就完成部署节点,而整个机柜来到数据中心直接推进去就可以进行测试上线,为多年之后的工作都节省了人力、提供了便利。
在百度阳泉云计算中心,每天的最高峰值能达到一万台服务器的安装量,今年春晚战事中,顺义数据中心的整机柜交付再一次验证了这种交付的高效性。
百度阳泉云计算中心成为百度最强的算力平台,包括了天蝎整机柜服务器、“冰山”冷存储服务器、X-MAN超级AI计算平台等多种百度自研计算系统,为百度智能云、百度App、百度地图、智能城市、小度、Apollo等百度内外部的产品和厂商提供强劲的计算能力。
在第7、8模组,我们就见证了AI技术在数据中心的实现,百度AI高密度计算集群,这是第一个AI计算集群,百度率先用了GPU等异构计算,引入了深度的学习和异构的计算集群,成为百度大脑的一个动力引擎。
X-Man的AI计算性能相当于通用服务器几十台,2017年上线,是国内首个采用液体冷却技术的GPU解决方案,已经开始规模应用(如上图左侧一排 机柜),全面实现无冷机运行,助力AI快速落地。
超强算力需要高网速的配套,网络是数据中心的生命线。在业内,百度的网络架构有稳定性最强,传输最快,以及数据量最大的三个特点。
百度阳泉云计算中心使用百度自主研发高性能交换机,提供超大规模的网络吞吐,支持10G、25G的通用计算网络接入和100G的AI高速无损网络互联技术。
在数据中心内部,百度通过大带宽、低时延、无损网络,把数据中心数十万台服务器连接成为一个超级计算机,成为AI时代云上百度最强大的技术硬核。
在数据中心外部,百度网络构建了三个时延圈:从数据中心覆盖用户时延不超过30ms,从POP点覆盖用户的时延不超过10ms,从CDN覆盖用户的时延不超过2ms,确保全国用户的全面覆盖和就近接入。据张炳华介绍,在百度的春晚战事中,百度20天完成了相当于全年50%的带宽建设,涉及26个省43个城市,最终达到让全国各地网络体验一致。
更多的技术创新不一一列举,某种意义上来说,百度虽然不是一家硬件公司,但更围绕需求能制定出一系列的行业标准,其前瞻性引领新技术的行业趋势发展。
往前看8年,百度的服务器机柜就是按40A(8.8KW)规划的,但目前市场上主流供应的机柜基本还停留在20A (4.4KW),很难满足计算需求的快速发展。现在要解决AI时代因算力提升带来的功率密度提升,百度从供电模式、冷却模式继续创新引领。
在参观中,安全冗余设计也是张炳华在参观中提到最多的词,无论是配电还是冷机,还是整机柜供电系统,还是业务系统,这样的设计目标只有一个:保证不宕机,截止4月8日,百度(阳泉)云计算中心已经安全运行1744天。
百度系统部的同事们要做的就是,把百度多个超大规模的数据中心、数十万台服务器、超大规模GPU集群,通过网络高速互联构成强大的算力平台,为百度大脑提供了强大的算力平台。
而算力平台之上的百度大脑,则为百度的AI业务提供了强有力的算法和数据支持,最终AI得以快速落地,普惠各行各业。
作为一家科技公司,你很难想起它会有节能、环保、可持续发展的战略,这似乎都是工业行业所做的事情。
但在百度阳泉云计算中心,从张炳华强调全方位保持创新环保中,你可以全方位感受技术百度的严谨和企业社会责任的高度释放。
百度充分利用了阳泉数据中心机房楼顶的空余地方,安装了清洁能源——光伏发电,太阳能发电直接并网,即发即用,成为国内首个应用光伏发电的数据中心。
2017年百度阳泉数据中心的风力发电将近2600万度,占比整个用电量的16%,2018年风电达到5500万度,也为国家的减排做出了相应的贡献。
除了电,数据中心的水资源是消耗很大,尤其是水,冷却塔每天蒸发散热要消耗几十吨水,水分子蒸发走了,水里的杂质比如钙镁离子会沉淀到冷塔和管路中,如果长时间应用的话,就会造成水质的水硬度、结构、电导率上升。
这必然要进行相应的排污,八个模组在夏天的时候满负荷的时候一天要用3000吨水,百度将这些排污进行超滤分析,通过污水回用装置再回收利用,进行酸碱的释放,把里面的钙镁离子稀释。
现在百度每年的回收能达到48万吨水的量,相当于四千户家庭一年的用水量情况。
2015年,阳泉数据中心获得了国内首家的运行和设计双5A认证、数据中心年度的能效奖和中国企业领导力奖;2016年获得了山西省的五一劳动奖状;AHU、整机柜、OCU和市电+UPS/HVDC供电架构入选工信部的先进技术名录。
而风电、光伏和污水回用等绿色节能技术应用,也使百度成为了唯一一家获得了2017年国际“碳金奖-社会公民奖”的互联网企业。
2017年,阳泉数据中心获得了中华总工会“全国五一劳动奖状“,成为目前国内数据中心唯一获得过此项大奖的数据中心。
作为一家科技公司,在数据中心规划过程中,俨然又成为一家基建公司,阳泉云计算设计中心从2012年建设开始,百度系统部的工作就是和风、冷、水、电、IT和网络交织在一起,2014年9月份第一期投入运行后,这里就多了一批数据中心守望者。
很多人已经将阳泉视作自己的第二家乡,从战国三家分晋到山西解放第一站,他们不仅对阳泉这座“火车拉来的城市”了如指掌,对百度阳泉云计算中心更是情有独钟,他把这里视为百度新技术的需求整理地和新技术、AI落地使用的第一站,并建立标准化的智能运营体系。
现在整个园区的面积达到了360亩,整体的建筑面积达到12万平米,但参与整个基础设施运营的只有几十人,本地人数占三分之二。
CDCC数据中心专家曲海峰称他们是数据中心的守望者,远离大城市的喧嚣和繁华,他们不仅把数据中心基础设施看成IT设备的载体,还反过来运用IT和AI技术去优化数据中心基础设施运维,数据中心运维从人工走向智能。
比如很多的数据中心现在的巡检还是只抄录相关的数据,百度阳泉云数据中心早就摒弃了无纸化的情况,全部采用Pad电脑进行巡检,相关的数据上传到电脑上,每人巡检时要对应相关的数据,这些数据也会有相应的上限值、下限值和报警值。
在智能散热方面,百度把AI技术引入了数据中心,通过建立数据中心深度学习模型,冷水机组会根据室外天气的湿度、温度和负荷的运营,切换成制冷模式、预冷模式和节约模式的情况。
还有通过智能预警可以得知哪台设备出现故障,按照设备使用和磨损量,发出预警要进行大修或者保修了。
这就是数据中心守望者的日常,坚守中不断创新和实践新技术,如果遇到春晚红包这样的年度大事件,他们倍感压力却依然热血沸腾。
从服务器上架到运行、关键设备盘点和补充运维,到协调供电、供水、供油部门和园区消防以及供应商支持,从运行方案调整以及重点区域应急演练,据介绍,备战春晚红包战事时,单个项目演练60人次,优秀率100%。
为了保证所有服务器安全运营,从结婚一周的新郎官到新晋奶爸的工程师,甚至还有一年没回家、已经提前一个月抢到机票回贵州,听说百度获悉央视C位合作品牌后默默的将机票退掉。
除夕夜,每一台机柜变化都成为阳泉云计算中心神经最紧绷的时候,但也成为他们很多人的人生巅峰。
感谢春晚,让人们更有机会感受科技的力量,希望人们从APP继续往深里关注,一座座数据中心不是普通的基建,由内而外,它代表着云计算和互联网公司的创新实力和核心竞争力。
当这一页已经过去,百度敢站能站的心继续等待着AI的磨砺。作为中国科技的中坚力量,在与亚马逊(Amazon)、Google同台竞争时,承载海量企业海量应用的基础设施将成为厚实的基础,从数据中心底层的创新到应用,直到人工智能落地,支撑百度吃撑在AI时代。
|