东数西算工程,是一个平衡需求、算力、电力资源的工程。东部的数据增长快、算力需求大,但土地少、电力资源紧张;西部土地多、电力充沛,而且气温低,有利于降低数据中心的耗电量。因此,贵州、内蒙古等地在六七年前就开始建设大型数据中心。但这些年的发展证明,西部数据中心的利用率一直不够,上架率不足50%,因为上架率不足,能耗优势也体现不到位。
东数西算工程对数据中心的建设是规划加引导,全国八大枢纽节点、十大数据中心集群是规划,企业、行业在建设数据中心时向这些节点汇聚则需要引导,特别是在西部数据中心的利用率不高的情况下,如何让向西部数据中心投资的企业“入股不亏”,是东数西算工程整盘棋的关键。
西部适合进行冷数据处理
中国工程院院士邬贺铨在4月21日举办的“第二届中国IDC行业Discovery大会”上表示,西部数据中心发展的重点是做好冷数据的处理。
通常数据分为冷数据和热数据,冷数据就是调度不那么频繁的数据,冷数据占到整个数据总量的80%。东部数据中心适宜处理对实时性、可靠性要求比较高的一些热数据,即推理服务、视频通话、实验观察、工业互联网、金融证券、实时直播、远程医疗等产生的数据。但是冷热也是相对的,今天的热数据在几个月以后就会变成冷数据。
适合西部处理的冷数据类型包括数据标注、清洗、后台加工、日志分析、月报分析、模型训练、渲染、物理经济学、生物信息计算、生产仓储等历史数据,还包括金融备份数据、按合规要求保存3年的数据、按合规要求存储的医疗影像、DDoS清洗中心、灾备中心等数据。
西部处理冷数据的优势是低碳。在数据中心的能耗构成中,IT设备占45%、供电损耗占10%,散热损耗占43%。邬贺铨表示,冷数据的调度没那么频繁,如果用磁带处理、存储这些冷数据,要比用磁盘存储节省73%的存储成本。
西部应建大型甚至超大型数据中心
在利用率相同的情况下,数据中心越大,效率越高。
西部数据中心的优势是低碳带来的低成本。“从长远来看,能建大型数据中心就不建小型数据中心,能建超大型数据中心就不建大型的数据中心。”邬贺铨说,“可以按需分期建设、分步投入,因为通常数据中心的服务器每三四年就要更新,更新的服务器成本更低、能效更高。”
在高密度的机架中提升上架率,是提升能效的一个重要路径。将来数据中心的机架平均功率为8.5千瓦,与平均功率4.5千瓦的机架相比,每千瓦成本下降68%。上架率高、机架平均功率高,但每千瓦的成本折算下来是明显降低的。在数据中心的能耗构成中,一般是IT设备能耗占45%,供电和散热能耗占53%。同一个西部数据中心,上架率50%,PUE值在1.5到1.6;上架率65%,PUE值能降低到1.3左右。
除了发挥低碳优势,西部数据中心也要注意提升算力网络的性能,降低数据传输中数据包的丢包率。如果丢包,由于丢包引起的数据重新传输会浪费很多算力资源。有资料统计,对重要业务0.1%的丢包率将导致算力损失50%,除此之外还会增加能耗。
发展数据预处理产业或将成为一个机会
邬贺铨认为,西部数据中心要想办法提高市场吸引力,不仅要有运维管理队伍,还要有市场开拓队伍。
尽管企业的数据高速增长,但利用率并不高。有统计显示,企业数据目前只有32%的是被利用、被激活的,发展数据中心,就是要吸引更多的企业数据进入数据中心。
西部市场的拓展可以从完善数据中心的生态入手。大数据的挖掘有很长的产业链,其中数据预处理是劳动密集的环节,数据存储和数据计算是重资产和算力环节,而数据挖掘是智力密集环节,这些环节需要有各种各样的硬件、软件和服务来支撑。
“与东部相比,西部的大数据产业链有明显的短板。数据的存储和计算是重资产和算力环节,投资大,回报长,所以西部如果只注重于此,仅仅依靠财政补贴电费和土地出让金这种方式来吸引数据中心入驻,是很难持久的。”邬贺铨说。他同时表示,发展数据预处理产业可以成为西部的一个机会。
数据预处理产业包括数据的标注、清洗、脱敏,也包括开展本地数据的挖掘服务。邬贺铨提议,可以建设大数据预处理服务基地。
目前70%的数据预处理是由人工来完成的,这是一个知识化的劳动密集型行业,人社部将这一职业命名为AI训练师。预计到今年年底,全国需要500万名AI训练师。在百度(山西)人工智能基础数据产业基地,现有数据标注师超过2300人,这种预处理不仅仅是标注,还含有人工智能的训练。
阿里有600多名AI训练师训练智能客服机器人,在像“双11”这样业务量很大、客服需求量也很大的时候,阿里用智能客服机器人代替了8.5万个客服,完成了97%的在线服务。
邬贺铨表示,西部数据中心可以积极引进服务器组装产业。数据中心的机房,除了IT设备以外,还要有电力设施、制冷系统、防雷系统、安防系统、灾备系统,还有硬件软件以及综合布线和各种工程服务。西部可以发展数据中心机房的服务业,建立工程和运维队伍,提供数据中心机房建设的工程服务。