首页>> 大数据与云计算>>新闻详情

云计算:百年大计从头算

2022-11-11 17:30  《4PS呼叫中心国际标准研究中心》  咨询电话:17317241681(微信同号)  


“50多万年前的关键词是光明与黑暗,50多年前的关键词是数字和模拟,今天的关键词是在线与离线。”这是5年多前,我和阿里云创始人王坚博士交流时他的观点。

在线和离线,区别是什么?

打个比方。就像走路,离线是路不知道谁在走。在线是,不管是谁走的每一步,路都会记下来,让足迹变成数据。

举个例子。离线时代,软件公司开发的软件装在光盘里,上市前的测试方法是,让普通用户进入装着单向玻璃的实验室,通过摄像、问卷等记录其行为,或者到用户办公室,现场观测他如何使用软件。通过观察、统计、分析,找到设计的缺陷,反复修改,再发布。在线时代,无论软件设计人员想了解什么问题,都可以写成代码,通过网络在用户使用时自动把相关数据搜集好,传回软件公司。这样不仅用户的反馈常态化了,且所有行为都是在真实场景中发生的。

顶尖高手总能把高深的东西讲得简明。当时王坚这样向我描述“在线”——

“你的每一次点击,每一次网上购物,每一次网页游览,每一次键盘输入,都已经在线;你的手机有运动传感器,每一次上下晃动都被记录在线,手机的GPS装置让你的位置变动成最新的在线数据;你的眼镜也在线了,谷歌眼镜的推出,意味着你看到的每一个画面都将是在线社会的源头;你的汽车也在线了,车里内置的设备全天候连接着网络;你客厅里的电视机也在线了,你看电视时的所有面部表情、体温征兆、眼球焦点,在不知不觉中被电视自带的摄像头传回去,成为广告投放反馈的数据之一;你的睡眠也在线了,只要将智能手环佩戴在身上,它就能监测你睡觉时到底有多投入以及入睡的时间。”

听着他的描述,我立刻就明白了:由于信息、传感、通信等技术的发展,一切都能在线,一切都靠计算,计算也在改变一切。

就像手机,以前只有通话能力,现在百事可为。因为其背后的计算能力比1969年人类首次登月时阿波罗11号安装的导航计算机要强大百万千万倍;

就像汽车,以前强调“马力”,今天比拼“算力”,因为汽车俨然已是四轮超级计算机。

既然一切力量都和算力相关联,没有强大的算力,在这个数据驱动的时代注定寸步难行。

算力就是国力。建设网络强国和数字中国,本质就是建设算力强国。

2009年,凭着“云计算将取代传统IT设备,成为互联网世界的底层设施”的理念,阿里云成立。它致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。现在阿里云已是全球第三大云服务商,并且是中国经济、数字生活、社会治理的基础设施之一。

人类的离线文明有5000年以上,在线文明只有不到20年,才刚刚开始。一切都在变化之中。

这两天举行的2022年云栖大会上,阿里云智能总裁张建锋提出,云计算正在重构整个IT软硬件体系和终端世界,形成一个全新的计算体系,具体表现在3个方面:整个IT硬件体系的重构;软件研发范式的深刻变革;云和端加速融合,算力从端转移上云,未来万物皆是计算机。

除了在2017年听王坚讲过云计算,我还从来没去过阿里云采访。但“全新的计算体系”这个概念吸引了我。我想弄清楚到底是什么意思。

阿里云的两位技术大咖接待了我,一位是阿里云高级研究员、阿里云基础事业部负责人蒋江伟,一位是阿里云研究员、CIPU&神龙计算平台负责人蒋林泉。

要透彻理解云计算,对我这样的文科生不容易。希望本文能帮助众多和我一样的读者,理解云计算和它带来的变化。

云计算的关键,在于提升两个效率

5年前王坚说,“今天的关键词是在线与离线”。

5年后的关键词是什么?

我得到的答案是:“还是云计算。而且我们越来越感到,云计算是百年大计。”

我问:“我们无法想象没有电的生活,无法想象没有计算的生活,但云计算有电这么重要吗?”

回答:“电网出现前,很多企业自己发电,但现在几乎所有企业接入电网就行了。这个比喻可能更贴近一些。原来一个企业为了获取算力,要去买服务器,然后托管到数据中心。现在一个创业公司只要打开网站,一动鼠标,‘啪啪啪’点完,就会获得服务器的服务,可以立即把代码部署上去,整个过程从原来的几个月缩短到现在的半小时。这样,你获取计算资源的效率就会大幅度提升。”

我问:“像我这样的一般用户,似乎不用云计算也没什么问题吧?”

回答:“你自己觉得没有用云计算,但你享受的很多服务,比如游戏、电商、视频会议、外卖等等,这些公司都把计算部署在云上。你手机里的照片也是存储在云上。更重要的是对整个国家来说,同一份算力资源,在云计算和普通计算的条件下,它被利用的效率完全不一样。云计算环境中,你买了电脑、服务器、交换机等等,然后开展业务。假如半年后业务失败,这些资源并不会报废,而是提供给另一家企业使用。而在没有云计算之前,无论企业还是政府,常见的做法就是投很多资金,然后服务器厂商把你订购的服务器搬到机房,而大部分时间服务器都空着没用,万一企业失败了,IT设备往往被当成废品去卖。”

“在某种意义上,国家与国家的竞争,本质是资源使用效率的竞争,就是你的每吨煤、每吨铁矿石,能产出多少GDP。云计算也是一样,一份算力能解决多少次的逻辑运行。亚马逊、微软、阿里云,以及其他的云,都在竞争。算力也是资源,也要购买,而且价格比煤、铁矿石贵多了,因为它是高度知识化的集成。你希望煤有更高的燃烧值,芯片有更低的功耗,同理,云计算也在追求更快、更强、更安全和更低能耗。”

我问:“所谓云计算能带来更高的效率,具体表现在哪里呢?”

回答:“有两个层面。第一个层面是商业模式,云计算是集中化运营的,资源不会被浪费,A公司不用,可以给B公司。而原来,很多项目一失败,服务器就丢在那里,如果当废品卖,二手服务器是很不值钱的。第二个层面,就是云计算本身的技术能力问题。就像人们在政府服务窗口外排队,云计算每秒钟处理一个人的需求,等于完成了一次逻辑。但如果算力的性能更好,也许每秒钟可以处理1.5次。这就是云计算技术比拼的关键,一份算力,能不能解决更多的问题?或者解决同样的问题,能不能花的钱更少?”

我问:“那怎么才能提高算力的效率呢?”

回答:“有两个因素决定效率。第一个是CPU(中央处理器)决定的,因为你写的代码都是在CPU里跑的。它跑得快还是慢?很关键。比如过去你在电脑上写完一篇文章要保存,有些老电脑会滋滋响一阵,花几秒种才能保存,但今天保存什么你是没感觉的,因为CPU很强大,算得非常快;第二个因素是I/O(输入/输出),比如做完一个表单,保存、提交、传到网上,这就是I/O的工作。所以从根本上说,你的计算要更有效率,要么是CPU的单位成本的算力比别人牛,要么是单位I/O处理的成本比别人低,或者单位成本I/O的处理效率比别人高。本质就这两件事。”

什么是全新的计算体系?

我全神贯注地听,他们尽可能通俗地讲。到目前为止,我的脑子还是清楚的。

接下来就进入到了最重要的问题,全新的计算体系是什么?

前面已经知道,CPU和IO决定运算效率。因此,提高CPU的性能,提高IO的性能,就成为唯二之路。

但问题在这里,变得有些复杂。

“如果按传统思维,一家芯片厂商的CPU最强,所以大家就买它的CPU,做服务器,或者希望造出和它PK的芯片。但今天是云计算时代,很多企业已经习惯了不是自己买服务器、建机房,而是在云平台上,点一下鼠标,获取一台‘虚拟’的服务器,云上的服务器。现在大部分CPU要卖给云计算厂商。在全球,云计算已经提供了超过一半的计算基础设施,且比例还在上升。在北美,5年前亚马逊的AWS就开始做自研芯片,AWS的芯片叫Graviton,其自研芯片的使用量已经占到了一个很可观的比例。”

这意味着什么?意味着在云时代,像PC时代芯片厂商独霸天下的那种局面会终结,既然越来越多计算迁移到了云上,云服务商就会自研具有云特征的CPU。

2017年,几乎和亚马逊同时,阿里云也开始自研跟云紧密结合的CPU,并在去年发布了倚天710芯片,其算力性价比提升30%,单位算力功耗降低超过60%,这也是中国首个云上大规模应用的自研CPU。

“现在的服务器长得就是一台框,里面插两个东西,有内存条,有风扇。但以后不一定是这样。那时的服务器可能不是现在这样一台一台的,而是一堵一堵的服务器墙, 上面可能是一个个格子,把CPU插上去,或者把不同的CPU都插进去,而且所有的运维动作全由机器人自动完成。”

如果说过去的阿里云,本质还是用一套软件(飞天云计算操作系统),弹性化、虚拟化地调配庞大的计算资源。以倚天710芯片和今年6月发布的CIPU(云基础设施处理器)为标志,阿里云正在进入硬件,重构硬件体系。

以CIPU为基础,连接服务器的物理网络可以实现传输能力的倍增,存算分离架构的数据中心,可以提供空前高速的云盘访问能力。CIPU还具有快速接入能力,能通过高效整合,将算力的虚拟化损耗(“虚拟税”)整合降至接近“0”的水平。

两位技术大咖这样解释CIPU:“你已经知道,要让代码跑得快,一靠CPU,二靠I/O。CIPU其实就是一块芯片,可以放到服务器里,也可以抽离出来,让很多服务器共同使用。它最大的作用是对I/O进行了变革。CPU就像抽水机的发动机,功率越高,抽水量越大;I/O就像水管,而CIPU是决定水管粗细的,可以在水管出口处进行加速。同样的代码,进行了I/O加速后,跑出来的性能会更快更强。”

阿里云之所以要做CIPU这样的硬件,也是现实的倒逼。

“云计算的好处不言而喻,但要把几十万、上百万台服务器连起来,变成一台超级计算机。会发现很多瓶颈都在I/O端,也就是这些服务器相互连接的部分。因为CPU擅长计算,但非常不擅长做I/O。而今天的计算有大量工作都需要I/O,绝大多数任务都要跨节点分布式计算才能完成。如果在本地硬盘存一个文件,并不太涉及I/O,但你要存资料到网盘上,就涉及I/O了。单机时代可以以CPU为中心,所有逻辑都让CPU控制。而云计算,要控制很多服务器以及后端的分布式存储一起协作工作,复杂度远远超出一个CPU的能力。所以我们要把协同管理的这部分责任从CPU挪走,将其‘卸载’到CIPU里面,再通过CIPU的加速,让I/O这个瓶颈变得畅通无阻。”

“一个文件包传进来,原来的做法是经过CPU,用CPU去处理I/O。文件包在CPU和内存里转来转去,要很久才能出去。CIPU芯片就是把在CPU里转来转去的这些事情(逻辑)打包,变成一个单独的芯片进行直通。以后,凡是CIPU更合适做的IO链路上的计算任务都由CIPU做,这样CPU就空出来了,可以处理正常的、它善于处理的逻辑,整个程序就会跑得更快。打个比喻,原来是整列火车靠火车头带动,也就是CPU的算力,同时所有轮子的协作也靠CPU。而现在像高铁,用CIPU来控制每一个轮子,各自独立进行协同,这样速度就上来了。”

至此,我大致明白了“全新的计算体系”的含义。

曾几何时,IOE(IBM的小型机、Oracle数据库、EMC存储设备)是谁都不敢撼动的架构,但确实无法满足阿里电商的需求,而且成本高得不可承受,于是阿里坚决进行了系统性的重构,“去IOE”,代之以在开源软件基础上开发的系统,用成本更加低廉的软件MYSQL替代Oracle,用PC Server替代EMC2、IBM小型机,等等。

这一次,阿里云也是要从基本架构上突破,它要将自己的飞天操作系统以软件定义的方式从全部在CPU里跑,到拆出一部分任务到自研的CIPU上跑。

根据在30多个场景中的测试,新架构的效果非常明显。比如缓存的场景,各种互联网业务都涉及到缓存,有一款开源的数据结构存储系统叫Redis,在相同的CPU配置下,通过CIPU加速,其服务吞吐能力可以提升100%,性能翻番,让这个场景的计算成本下降一半,延迟降低,应用体验上升。

另一个例子,是通过CIPU的eRDMA能力,数据库能实现多节点全局一致性读的超高性能。这有什么价值呢?举例来说,电商经常会出现把客户的库存超卖的问题,你得打电话给顾客,说我们超卖了,请你把订单关掉。但有些顾客就是不同意,说我已经买成功了。比如,电商卖一个杯子,准备了100个,打折销售,结果消息传出,涌进几十万人来抢,而库存只有100个。系统的要求非常严格,只能是一个人进来,扣掉他的库存后,再放第二个人进来,以此类推,否则就会大乱。但这样做,一个个人进来,效率很低,必须牺牲性能作为代价。而用CIPU对这段代码加速后,还是一个个人进来,但效率可以提高5到20倍,大幅度降低了这个场景下的计算成本。

今天,阿里云在云上,更多地采用自研CPU+CIPU的完整计算体系架构解决方案,能全方位提升计算效率。

这注定是一条漫长的路,但这种旨在从根本上改变人们习以为常的计算架构的探索,让我充满敬意。

百年大计,到了一个关键时刻

阿里云追求的全新计算体系,不仅发生在硬件上,也发生在软件和终端商。

张建锋说,新兴的软件开发方式正在崛起,软件架构全面Serverless化(无服务器运算)是大趋势;软件开发也不再是程序员的专利,低代码可以让未来80%的应用由业务人员自己直接开发出来;未来所有软件都将是AI化的,大模型开源将加速AI真正普及;在终端,由于云端加速融合,让终端突破了物理限制,不仅推动手机、电脑、汽车、音箱会变成计算机,未来万物皆是计算机。

全新的计算体系带给我们全新的想象,而且很多想象已经化为现实。

世纪联华是最早试水Serverless的新零售代表,促销准备时间从周级缩短到小时级,研发运维提效30%,成本下降40%,真正把促销活动变成常态。

流媒体平台南瓜电影,在Serverless架构下,“云上资源想弹多少弹多少,想什么时候弹就什么时候弹。”峰谷时按需自动缩容,总成本下降40%,运维效率提升10倍,从容应对突发流量。

广西柳钢冷轧厂退火车间的工人张亮,用10分钟就在钉钉上开发了一个危险区域管理应用,只有那些有作业任务的人或设备点修人员,才能在扫脸后进入。

|柳钢集团冷轧厂库位工查看钉钉应用

四川省古蔺县皇华中学的乡村数学老师彭龙,在钉钉上用低代码开发出了43款软件,最快1小时就能搭建一个应用,以极低成本搭起一所数字化校园。

专注于人机交互技术的产品公司Rokid,在推出的AR眼镜中接入了阿里云的“无影”架构,利用云上算力,用户打开85克重量的眼镜,就能在眼前的虚拟现实画面中与人聊天、办公,还能做3D渲染、大数据编程等复杂工作。(注:“无影”架构在本地没有主机,也看不见电脑CPU和硬盘,所有硬件设备都集中在云端的数据中心。)

小鹏汽车与阿里云合作建成了中国最大的自动驾驶智算中心,将自动驾驶核心模型的训练速度提升了约170倍。

……

世界正在迅速云化,也必须云化。

现在,很多企业和机构对云计算的使用,还是作为一种弹性资源,脑子里还是装着“我有多少服务器”等资源概念。而未来的趋势,一定是从购买资源到购买能力。其重要标志就是“按量付费”。就像用电,过去自己买柴油、发电机,一次性买齐设备,自己去发电。但现在没人这么做了,因为电网更稳定、更便宜、更安全。

“这还需要时间。一些政府的采购清单里还没有云计算,只有服务器。他们还是要持有资产。而云计算天然的属性就是你不需要持有资产,用多少,算多少,不用就换,让给别人用。”

“但变化已经很快。以前做电商,都是买很多服务器,构建一个很复杂的分布式系统,招募很多的工程师,给他们的薪酬和对他们的要求都很高。而今天的新电商公司,他的IT就在云上,用云厂商的数据库、缓存、消息系统等等,构建整个电商体系。他的思路是,我就用云计算的服务好了,用户量上来时,你们应该去扩容,而不是要我去买更多服务器扩容。这是新一代创业者普遍的做法。甚至有VC说,如果一家创业公司不选择云计算,绝对不能投资,因为他们还是很老的思维。这是一个趋势。”

阿里云的两位技术大咖最后对我表达了这样的意思:

 1、阿里云能成为中国云计算的领头羊,是整个计算体系和构建方式正在发生深刻变化,而这又是因为整个中国的计算基础设施和互联网在迅速发展。阿里云是时代的产物,最早看到了趋势,顺势而为,事半功倍。

 2、未来的计算形式会有各种变化,但通过云计算这一公共网络服务客户的方式已经成为越来越多人的共识。一切都会数字化、智能化,将来当我们离开会议室,桌子自己会擦干,椅子自己会摆好,黑板会自己擦掉,甚至一张纸也会智能化,把要点整理好传给你。但所有这些动作都需要控制,都需要算力,都需要云计算。这是一个持续演进的过程,我们还在初级阶段。所谓“全新的计算体系”,也只是将第一阶段的技术模式进行了效率提升。

 3、云计算是规模+技术,资金密集、知识密集、技术密集的产业,全球几朵云的竞争将是长期的。竞争的结果,事关国家的数字经济未来。如果我们咬不住,跟不上,创新不了,不仅是自己的挫败,也是对时代的辜负。

5年多前王坚对我说:“大部分人说的趋势不是趋势,只是时髦,就像浮油一样是最容易捞出来的东西。而真正重要的是浮油下面的东西。”阿里云起步后备尝艰辛,屡受嘲讽,靠着死磕的精神走到今天。

“云计算不仅将改变IT产业,也会深刻改变人们的工作和公司经营方式。未来不懂代码就和20年前不会用word一样。”2022云栖大会上,张建锋说。云计算是百年大计,阿里云,为了它所看到的趋势与未来,再出发,从头算。

我还不会低代码,但我愿意说:无论是从数字中国发展的角度,还是从全球算力角逐的角度,百年大计云计算,现在都到了一个关键时刻。



共0条评论网友评论
  • 全部评论
共0条记录(共页)
向您推荐

新闻 按行业分类

厂商 按产品分类


        
总机:021-51601170 直线:021-58307717,17317241681(微信同号) 电子邮件:cct@51callcenter.com  泸ICP备10026114号-4  行业交流俱乐部QQ:2919157212
地址:上海市浦东新区牡丹路60号东辰大厦810室  邮编:201204 上海趋天网络技术服务有限公司 版权所有(2002-2018)