各位亲爱的长江同学们,早上好!非常荣幸,也非常开心重新回到长江的讲台。我从06年离开长江,今天大概算是第一次正式回到长江,再次感谢大家的邀请!
我从99年开始研究互联网,2003年开始做阿里巴巴的战略顾问,2006年正式加入阿里。每一次我觉得对互联网刚有一些了解,就发现很快又困惑了,所以互联网真的是变化非常快。即使经过了14年,我仍然觉得互联网的整个变革才刚刚开始,前面的路很长,但是对大家来说机会依然非常大。所以今天想把这几年的一些心得,跟大家做一个探讨。
互联网到底是什么?大家听得太多了,而且各种各样的名词也非常多。我觉得大家了解互联网,只需要三个词就够了。第一个是“互、联、网”。我越来越觉得这个词翻译的太美丽了,所有关于互联网的本质都讲完了。第二个词是云计算。第三个词叫做大数据。这个大家可能听得都厌了,但实际上互联网的本质就是这三个词。
(一)互、联、网
1、联
互联网最关键的是什么呢?互联网的起步是“联”。英语的互联网是两个词,一个叫Internet,一个叫Web。Internet更多是指类似思科、华为这些企业它们建的互联网基础通讯架构,它指的是真正让人、让世界连起来的网络设施。最早联通的目的就是把互联网基础设施建起来。所以大家要理解互联网第一个关键是“联”,这个联接是整个我们今天这个世界的基础。
1)最早大家说的Internet 1.0,指的是PC有线互联网。PC最早的连接只能通过电话,然后再通过宽带,都需要PC、线。
2)现在比较热门的是Internet 2.0,即无线互联网。最典型的是WiFi、3G、4G这样的通讯网络,与此同时,沟通的重心从PC走向了智能手机。这两年智能手机高速发展,在智能手机上衍生出来了许多服务,大部分人是离不开的,离不开微信、离不开未来的“来往”。
3)真正的Internet 3.0是什么呢?我现在没想到一个更好的词。但有一个同样也被炒烂的词,叫物联网。
如果用一句话来定义互联网的未来,就是“任何人、任何物、任何时间、任何地点,永远在线、随时互动”,这才是未来的互联网。有的研究报告提到,今天我们能连起来的东西还不到1%,如果连接的东西翻100倍的话,这是怎样的概念?
所以未来的互联网是把所有人、所有的物,在任何时间和地点,都能连接在一起,而且让大家有信息和动作的互动,有上传、有下行,这才是互联网的未来。整个互联网的发展,本质也是让互动变得更加高效、更加方便、更加自然。这个互动也包括人机的交互,像iPhone的出现对人机交互也是一个大的突破。
2、互
1)如果我们借用这个架构来讲互动的话,互动1.0就是BBS,我想最早的用户还有印象,当年大家在一个很简陋的技术环境下,以极大的热情参与了这样一个网络社区的建设。
2)互动2.0是类似新浪微博这样的产品,是个互动的社区,它最大的特征是单向的关注。“关注”是它最主要的一个产品形态及互动模式。
3)互动3.0是Facebook、微信这样的产品,它们最大的特点是双向互动,任何人跟任何群体之间,都可以在瞬间发生多维的互动。这是“互动”的一个深入。
3、网
在“连通”的基础之上,有了这样深入的互动,我们可以看到在Internet之上承载的内容与服务的表现形式,即Web。
1)Web1.0,是大家最熟悉的门户概念,像新浪、搜狐、网易。在Web的展现即对互联网的应用,在1.0门户阶段虽然有互动的元素,但最本质的沟通模式还是多对一,还是传播,所以大家把它叫做新媒体。这个时侯新浪、网易涌现,大家对互联网的理解是在“新媒体、新传播”。它是从门户这个中心点出发,向比原来受众大得多的一个凹点持续的传输,它有一个中心点,基本是一个单向的互动。
2)Web 2.0是搜索。到了2.0时代,在搜索界面上还是多对一,每个个体跟搜索引擎发生联系,搜索的后台技术,完全利用了互联网的网状结构。谷歌在搜索技术上最早的知识产权,叫PageRank。如何确定互联网上所有内容的相关性?
PageRank是根据每个网站跟其他任何一个网站的连接,来判断它的重要性。你的连接越多,说明有越多的人关注你,你的相对重要性就高。它是依靠非常复杂的算法,在后台把网络的优先级做一个排序,然后根据每个用户的输入(即每次点击),再进行优化。
所以搜索引擎的核心就两个,第一个是它对网页的Index做的要全,要把全部网页都搜罗过来做一个结构化的处理。谷歌可能有几百亿的网页,并且随时都是在更新的。第二个就是算法,能不能算得出来这么复杂的数据之间的相关性、优先级。所以到了2.0时代,它的后台已经是一个网状的结构了。
3)Web 3.0是SNS,双向互动的社交网络,它是一个多对多,同时包含点对点的天然网络。所以web 3.0是互联网产品进化到今天的一个先进的形态。
这是我想要给大家讲的第一个主要的观点,就是从“互、联、网”三个字来讲互联网的本质,这三个字是共同演进的。只有随着连接的技术不断发展,互动的手段才更加丰富、高效,才会在Web上产生这样先进的内容和服务。
(二)云计算
第二点想跟大家讲的关键词是云计算。
云计算是一个非常形象的词,更学术的词叫utility computing,我们把计算当做一个公共事业来提供。阿里巴巴十周年的时候(2009)我们成立阿里巴巴云计算公司,当时还有人开玩笑说,是不是因为马云才叫云计算公司?我们说也许马云就是符合这个时代的。云计算的确是表达了这样一个远程的、大计算的概念。
我自己对云计算的理解,是通过研究对整个工业史,才理解了云计算的社会地位。最好的对比是第二次工业革命。第二次工业革命本质上是电带来的工业革命。电是1893年爱迪生在曼哈顿,在一平方公里范围内第一次实现了商业化的电的传输跟网络。在一平方公里内,每个街区、每个住家、每个商店都有了电的照明,这是个复杂系统。
大家都很熟悉爱迪生发明电灯泡的历史,以及他的电灯泡公司、发电厂,包括全套设备,以及发电的工艺。所以1893年是电的第一次商业化应用。
当电出现了之后,当时如果工厂需要用电的话,必须雇一个专门的高管,他的责任就是给这个工厂建一个发电厂、要买发电设备、要雇专门的发电运营人员、要买煤。
住家同样也没有这种公共服务,J.P.摩根在新泽西的住宅,是全世界最早用电的民用住宅。他那个别墅被烧过两次,就因为早期用电太不稳定,经常用着用着就烧掉了。当然因为他是通用电气最主要的投资商,也是爱迪生最重要的支持者,所以他自己一直在努力的尝试。
最重要的变化在于1905年,美国在尼亚加拉大瀑布开始建设了第一个大型中央发电厂,然后在尼亚加拉大瀑布跟纽约市之间建了一个高压传输网络。如果没有高压传输的话,电的远程传输损耗很大,于是开始有了电网的概念。到1925年美国通过国家电网供电的比例占到40%。大概到一九三几年这个比例提高到百分之七八十。正是因为国家电网的出现,“电”变成一个公共基础设施,所以很快有了美国在第二次工业革命期间的高速发展。
100年前最重要变化,是电变成一个通用的公共事业,从而带动整个社会生产力的向前发展。电走入各家各户之后,第一个家电产品是电熨斗,因为它对家庭主妇来说帮助最大,技术难度也是最低的。第二个重大的产品是洗衣机,把人们从繁重的劳动解放出来。第三个是收音机,收音机一出来,家电革命真正的开始了,就是我们今天无处不在的电器。这些都是在通用技术达到一定的社会覆盖率之后才产生的。家用电器诞生的核心,是因为有一个标准的建立,即110伏的标准接口。这样所有的电器只要接到110伏标准插口,跟国家电网就接起来了。
所以了解这个大变化之后我们就能理解,七十年代以来,在整个美国任何一家企业的固定资产投资当中,50%以上是投在跟IT相关的地方。现在要创建一家公司最起码得买电脑,雇几个IT人员,还得有几个软件。这就像1900年左右,工厂要开工,得先雇人来建发电厂一样。
现在最大的问题是,绝大部分企业IT投入的实际利用率不到30%,无论是CPU、存储、带宽,还是各种各样的人员投入。所以一方面是越来越重的固定资产投入,另一方面是越来越低的效能。由于技术的积累跟逐步的演进,这个时候云计算诞生了。1946年的第一台计算机,它的计算量还比不上我们今天放“生日快乐”的贺卡的计算量。经过了大型机,小型机,再到PC,笔记本,经过六十多年一步步走到今天,人们终于能够以公用事业的方法来提供计算能力。
所以用一句话来总结云计算,就是在任何时候、任何地点,只要接上互联网,就有计算能力的提供。你要多少用多少,用多少记多少,这就是云计算。
大家可以想想看,当未来再开一个公司,不再需要去雇IT人员,不再去问他们“我们到底要买什么软件”的时候,当你所需要的只是使用你想要的服务的时候,这个世界会发生怎样的变化?因为技术门槛大大降低,所以“创新”以一种前所未有的方式再一次爆发。
回顾一下过去十年的互联网创业企业,最大的一个壁垒是固定资产投入。一个创业企业家,好不容易有一个非常好的想法,然后去融资,要稀释掉30%-40%的股权,还得预先买服务器。为了未来你可能达到、也可能达不到的事业,你用最昂贵的股权,换来的却是最不值钱的IT固定资产投入。而这个规律正在逐步被打破。
我再举两个例子,第一个例子是动漫产业。大家都觉得动漫产业是创意产业,后来接触多了我才明白,创意在动漫产业大概只占1/3左右,动漫产业是一个固定资产投入巨大的产业。为什么只有皮克斯这样的动漫企业才能够制作这样的大电影?很简单,在整个动漫变成电影过程中,最大的一个投入叫渲染,就是把原始的画,变成3D的影像。一个像样的动漫公司,至少需要1000台以上的服务器,才能勉强做渲染工作。越大的企业越有这个优势,小的创业团队根本没有办法把创意变成一个相对高质量的产品。
2009年我们开始做云计算,经过三年的努力,我们给动漫行业提供了一个比较成熟的技术方案。今年上映的一部类似好莱坞的动漫大片叫《昆塔》。如果他们用自己的投资去买服务器做渲染,大概需要两年左右才能完成渲染。但是我们用淘宝的技术,大概两个月时间就把所有渲染都完成了,成本不到原来10%。
淘宝的计算机群的计算量是非常大的,每天有将近一亿的人访问淘宝、有几百万的卖家、几亿的商品,高峰的时候占用资源非常大,但是半夜的时候我们可以把这个计算资源释放出来,给这个动漫公司做渲染。所以一下子就把动漫行业的创新周期缩短了。
第二个例子是双十一,大家都知道去年创造了一个很惊人的数字:191亿。去年双十一是我们第一次给淘宝卖家提供云计算服务。最经典的一个例子是有一个卖家,在双十一的上午系统崩溃了,我们用了不到一个小时的时间,在云计算的平台上帮他重新启动了全套的服务,卖家基本没有什么损失。这就是云计算的最大好处,可以瞬间扩容,你想要多大的空间,就有多大的空间。
去年有个淘宝卖家平时的单量,可能也就一万多单,双十一那天冲到了50万单。50万单是什么规模?是某个电商一天的订单量。而淘宝的一个卖家在没有任何IT投入的情况下,就在淘宝云计算的平台上完成了。大家可以想想看他的成本优势是多大。正是由于这样的一个优势,今年的双十一,80%以上的天猫订单,都会绑在云计算的平台上。去年我们冒着很大的风险做了一个实战演习,有百分之十几的商家用的是云计算的服务,很成功的度过了一个巨大的峰顶。今年我们对于云计算的信心、对它的商业价值都有了根本的认识。
所以再跟大家总结一下,云计算跟传统的IT自营的思维有所不同。
1)首先,传统的IT企业,在IT的投入属于固定资产。云计算作为一个公共服务来说,是一个运营费用,一个可控的运营费用,这个费用对整个资产结构、财务状况的优化,产生的价值是不可估量的。
2)其次,大部分IT设备作为自营的时候,是为了保证最大值时的使用,一定有巨大的浪费,绝大部分企业的平均使用率不到30%。使用云计算的时候,是按照电费的方式每个月结算,实际用了多少计算量,根据账单来付费,这样基本上没有任何的浪费。
3)最后,传统的IT方式,扩容得周期长、门槛高、投资大,技术门槛越往上越高。大部分企业做到一定程度,投了IT就投不了其它方面。但是用云计算可以享受最先进的技术,比如说安全。一方面大家肯定会关心任何一个公共服务平台的安全性;另一方面由于安全性如此重要,一个公共的平台对安全的投入,一定远远超过任何一家企业。
去年一个资源型的网站,发表了对某个IT公司不太有利的言论,结果网站遭到了恶意攻击,两小时就被攻跨下线了。后来这个资源型网站搬到了阿里云计算平台就安全了,因为要攻破阿里整个安全体系,难度就非常大了,但是一个小企业不太可能有这样的安全防护。所以采用这种方式,就不怕顶尖黑客或是这样的恶意攻击了。这就是平台跟一个企业之间的差别。
瞬间扩容,不用为空置去付额外的代价,这是云计算非常大的商业价值。最后总结一下对云计算讨论,还是刚才那句话,将来在任何时候、任何地点,都能够通过接到互联网获得实时的服务,然后根据实际使用支付费用。
当云计算成为这个社会基础服务设施的时候,我觉得人类才真正进入了新的时代。如果不是电变成了公共事业,不是福特在电的基础之上创造了第一条流水线的话,也就没有什么工业时代。同样,只有当越来越多的企业,把他们的运营放在公共的云计算平台的时候,一个新的时代才真正到来。
(三)大数据
第三个我想跟大家讲一下大数据,这可能是近一年来最时髦的词了。大数据真正的本质不在于“大”,而是在于背后跟互联网相通的一整套新的思维。大数据跟传统的数据最大的差别在哪呢?
1)在线。首先大数据必须是永远是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的。不在线的数据不是大数据,因为你根本没时间把它导出来使用。只有在线的数据才能马上被计算、被使用。
2)实时。大数据必须实时反应。我们上淘宝输入一个商品,后台必须在10亿件商品当中,瞬间进行呈现。如果要等一个小时才呈现话,我相信没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消费者,瞬间完成匹配呈现,这才叫大数据。
3)全貌。大数据还有一个最大的特征,它不再是样本思维,它是一个全体思维。以前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部分,我们要的是所有可能的数据,它是一个全貌。其实叫全数据比大数据更准确。
这是大数据的三个本质,在线、实时、全貌。
为了让大家对大数据有更多的理解,我再把它展开跟大家讨论一下。大家做企业,最容易想到的两个数据应用,一个是市场调研,派个市场公司或市场部门做一个调查,去看下各公司什么反馈。第二个就是商业智能BI、数据挖掘,查看数据经营的报表。这是最传统的两个数据应用。这样的数据应用有几个典型特征:
1)要知道准备达成的目标,从而主动收集这些数据。由于每个企业的计算能力跟成本不一样,数据保留多少时间、哪些数据能用,是有所不同的。而大数据是实时的记录数据。原则上,任何人上任何一个网站、做的任何事情,所有事情都会被记录下来,没有人事先做区分。所以大家不再去问,是数据就记录下来,所以这是第一个差别。
2)第二个差别:参与的人不再是有意识的参与,而是无意识的参与,你是为自己的利益在做事情。你用一次搜索,你就参与了谷歌的大数据搜集,因为你的每次点击就是一个数据来源。如果让你参加一个市场调研,80%的情况下你会拒绝,15%的情况下你可能会要求某种意义上的补偿。很少有人愿意主动的参加市场调研,因为对你来说是个负担。
但是线上的大数据对绝大部分人来说,完全是一个无意识的、自利的行为。我上淘宝就是为了买东西,我上微博是为了看新闻,我上百度是为了搜索,你都是为了自己利益而触发的一个无意识的行为,但这个无意识的行为,都为大数据做了贡献。
3)第三个差别,一个是单向,一个是双向。我们以前做的数据分析也好,都是先假定一个目的,然后拿到现成的数据,分析行为,来测试我的猜测。这些都是有一个单向的主导。大数据本质上一定是双向的,就像搜索,你点击搜索引擎点击的时候,你是给它输入了数据,它给你的结果就是它与你的互动,就是它带给你的数据价值。这个大数据本身也在随时为你创造价值,这样的话就变成一个双向互动的正循环,双方都给对方贡献了数据价值。任何大数据应用,如果在设计时就没有这种双向、互利的正循环的话,是跑不起来的,本质上就不是大数据。
最后一点还想强调的是反应速率,大数据的数据价值越大,它的反应速率就要越高。比如说谷歌的搜索,你输入一个关键字看到的结果,跟一个小时以后再输入同样的关键字得到的结果,很可能已经不一样了。因为它已经把一个小时内全球所有的点击重新计算了一遍,然后把信息做了结果优化再反馈给你。
所以大家可以想想看,反馈的速度越快,它创造的价值越大,消费者参与的动机就越大。数据越跑越大、反应越来越快、结果越来越好、用户参与会越来越大,才能变成一个黑洞效应。这是我想讲的大数据的核心概念。
结语
互联网的本质,讲完这三个词基本上已经讲完了。我给大家提供的是一些最基本的思考工具。你怎么用这种思考的方法去解决问题?最重要的是有互联网的思维,你先有了互联网的思维,你才能够去用互联网的技术。