乐逗游戏易伟华:乐逗游戏数据云实践

2019-02-26    来源:多智时代

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

日前,第二届中国云计算用户大会(CCUC 2015)城市巡回系列活动的第三站(深圳站)在深圳威尼斯酒店大宴会厅成功举办。延续上海站和南京站的精彩会议议程,此次深圳站的内容依然精彩。

来自云计算发展与政策论坛用户委员会的部分委员、电子商务、互联网金融和保险等行业的嘉宾齐聚一堂煮酒论道,共同分享各个行业的云计算实践经验。本次大会以强化业界沟通,加强技术交流,增进与用户的直接对话,从而成为促进和推动我国云计算产业健康发展为宗旨。

大会上,乐逗游戏副总裁易伟华发表了题为《7亿用户的数字娱乐--乐逗游戏数据云实践》的主题演讲。易伟华在演讲中重点说了两方面内容,一是大数据时代是什么,二是在数据云时代中,乐逗游戏做了些什么。

易伟华表示,从很早以前传统的人工处理数据,那个时候的数据量非常小。后来是小数据时代,也就是现代化,但其实这个时代属于IOE这三家公司。最近几年我们常常提到大数据,进入大数据时代的时候,这个时代的数据量比前一个时代增长几十倍、几百倍甚至几千倍,用定量来说,如果用软盘时代的时候,1.44M或者1.2M,现在把这个数字乘以10的九次方可能不一定盖的住。

进入大数据时代的时候,这个时代的数据量比前一个时代增长几十倍、几百倍甚至几千倍,用定量来说,如果用软盘时代的时候,1.44M或者1.2M,现在把这个数字乘以10的九次方可能不一定盖的住。给大家分享一个数字,其实乐逗现在每天,包括昨天过去的一天,那要处理的数据都要上T,因为我之前也在腾讯负责过相关的工作,腾讯的数据光是一个游戏在这上面可能还要加一个0,所以这个数据在过去10年、20年当中已经翻了10的N次方倍。这导致一个问题,第一个是说量非常大,只是毋庸置疑的,刚才已经提到了。第二个是说不光是量的问题,如果单说量大,我们通过结构化,通过IOE的结构去不断做集群,关键是量大之后一定会带来多样性,数据的模式发生很大的变化,数据的内容发生很大的变化,数据的格式也发生很多变化。所以在这里面带来很大的复杂性。还有一个原因是说我们对处理的速度要求越来越高,因为量大,量和质都发生变化,所以处理的时候它的计算性能要求更高。因为整个数据有前面三种变化之后,它内涵的价值有时候是我们人没法估量的,所以现在又涌现出来一个DIG DATA,叫深,数据大了之后还涉及数据内部的价值、模式发生质的变化。也就是说以前我们可以通过Excel、笔就把一些隐性的或者明显的信息拿出来,比如可以一看,今天在这个会场男女比例多少,这个是通过统计学。当发展到数据到了每天以T计算,甚至以后会以PB计算的时候,这时候一眼望去是望不到比例的,这个统计规律就发生了变化。其次里面蕴含着有些信息是通过现有的计算找不到的。

在这里有一个小的数据,2020年,离我们现在不远了,只有5年,这时候全球数据会达到40ZB,什么概念呢?我刚才说的PB,TB是10的三次方的TB,我们现在一张硬盘是以TB为主,ZB是10的六次方还是九次方,忘了。对我们提出一个新的挑战,既然有这么大量,样式这么多,这么多样化,同时它的要求的性能、速度、变化越来越快,就可能我们在这里讲的,我看到有的朋友在拍照,其实这些数据融合起来,整个量会发生很大的变化,大家处理的速度要求会更快,每时每刻都会产生大量数据的时候,其实对于这个大数据的处理提出一个要求,不可能在现有的这种基础架构上跑。谷歌在这方面是先行者,它的基础架构已经发生了急剧的变化。其实在过去很多年里也有很多人分享谷歌的实践,其实谷歌的十年已经变成很多互联网公司学习的对象。当然要超越它有一定难度,很多公司在学或者复制,或者做一些创新。这两年交织在一起的时候就有一个要求,其实对云来说,我们很多时候会提到云,云是什么?我问过很多人到底什么是云,包括最早和张志东、Tony聊的时候,对云是似有似无,最后晕就是云、云就是晕。随着时间流逝,会提出来这是比较公认特征,第一个是按需自助服务;第二个是资源池,很多技术手段,包括虚拟化、大G的切割、网络的链路聚合,其实都是把资源的不断整合、切割,其实就是说资源的重新调配;第三个是Rapid elasticity,就是快速适应业务的需求;第四个是可衡量、可度量的服务。和数据结合起来就是数据云。

看乐逗的现状,乐逗现在有7.7亿的累计注册用户,这基本上是一半的中国人都在乐逗上玩过,很恐怖。可能大家不会有这个概念,因为乐逗在很幕后,过去几年乐逗不太做品牌,都是在做游戏,但是我要说几个游戏,可能玩游戏的都知道,神庙逃亡、水果忍者,如果没听到可能真的不玩游戏,还有地铁跑酷,以及最近的果宝三国,还有跑男,就是快跑吧,兄弟,这都是乐逗运营或者自研出来,所以7.7亿用户,这里面包括来自海外的用户。我们每个月有1.1亿用户打开这个游戏去激活一下。每天有1T以上的数据从乐逗的整个基础架构里面流过,每天的消息量也是超过1亿条。我们基本上从2013年到2014年到2015年,这个变化很恐怖,2013年涨了77倍,2014年是一个手游爆发的时代。

刚才说了我们有一个1T的数据在中间流过,怎么办?其实这里面我们在所有的,包括前端数据的来源,包括中间所有的处理,包括后面的一些报表的输出。刚才很多朋友问我,乐逗到底用什么架构、什么云什么的?我说我们其实有各种各样的,我们有用云服务,包括有用过UCloud,也用腾讯云,我们也有一些自己的私有的云的结构,当然还有一些租用的服务器,租用的机房,还有一部分真的非常核心、敏感的,我们会自己买服务器,然后建一些核心的,我们建群,是数据的一种汇总的地方。其实在这里面,这个结构基本上是说我们把历史的、近期的还有现在正在跑的都分成三层,分三层之后基本上也是分三个阶段,把数据源从远端拉回来,然后在各个云当中存储,然后通过机制调度,然后计算,最后呈现给我们的业务,还包括决策层,还有一些数据会输出财务,到财务报表输出,会呈现给美国的SEC,美国最严格的股市。整个链路非常长,从最前端的用户产生的数据,有点类似用超级市场的概念,我们会把它一步一步往后拉,越是到最终的数据加工这部分,其实数据经过了很长时间的洗礼,到数据加工其实数据已经聚合的非常集中。即使到了数据的这块,数据量还是很大,乐逗处理数据的机器不包括前端存储的云那部分,其实差不多有一百台左右。这些机器相互之间要有调度,我们是很想把这部分也能够云化,因为现在对这块的运营提出了很大的要求,我们现在也建一些数据的调度的体系,刚才也有朋友聊了运营、自动化,其实这部分面临挑战,我们现在能够做到3个9、1个5的数据不间断的质量,差不多是99.95的质量体系。刚才讲的比较偏技术,其实很枯燥。

乐逗拿这些数据,为什么要这么复杂,一百台机器,还不包括云端的东西,后端就有一百台机器要跑这些东西?讲几个好玩的case,用户画像,人玩游戏,玩游戏之后就会产生很多点击或者游戏买道具,或者过关,这些数据我们都会记录下来,记录下来我们会根据行为分析出来你是男是女、职业倾向,我们会有算法匹配,很多东西不会直接问你要。最终是干嘛呢?我们为业务定制,业务的走向该是什么样,业务该针对什么样的人群做优化,对什么样的业务做投资。这里其实列的不够全,我们其实对这些信息一部分收集,还有一部分对算法做推测,会算出来。当然这个准确度会有待考证,会有行业的标杆去对,最准的就是付费。包括年龄、性别我们会通过算法去匹配。

这里面有几个很好玩的case,我们很意外的发现,在我们的游戏当中真正最土豪的不是我们北上广深,反而是重庆,很奇怪,我看到这些数据之后我也很奇怪,我们现在专门有人研究重庆人,重庆人为什么这么花钱玩游戏,他的人均付费非常高,很机密的,第一次拿出来秀。广东人最贪玩很好理解,做IT的多,理解的也多,包括人民群众,我的小孩、同事的小孩玩游戏比我还精。从这个图可以看到,沿海城市这边颜色会比较深,其实沿海城市的人相对内陆来讲,包括我们的ARPPU就是人均付费也会非常高。从整体来讲,第二张图最深的地方不是广州,是北京,这其实很正常,按整体收入来讲,最诧异的是河南那个地方,河南那个地方竟然是第二,可能河南人最多。整体来讲,我们会分析出来我们在不同的渠道、不同的合作商,我们赚多少钱,我们拿到多少用户以及有多少用户真正在这上面玩游戏,其实我们很喜欢像腾讯、360、小米这样的渠道,尤其是腾讯,圈越大代表收的钱越多。

纵轴是APP是人均收到的钱,横轴代表付费占的总份额。付费额最高的5%其实是贡献了整个收入的40%多,一半多基本上二八原则。如果把20%算上,前25%基本上占了74%,很有意思,其实也验证了一些想法,很多时候做游戏越来越做精品,烂的游戏做都不要做,真的没活头。从游戏玩家来看,很多人用小米,玩游戏用小米最多,喜欢玩休闲游戏,差不多70%是玩休闲游戏多。中国移动的用户占到一半多,快六成,当然微信和QQ攻占了整个全市场80%,这很顺利成长的。

我们会拿这个数据做什么?通过大量的计算之后又回到刚才说的,一堆云、一百多台机器做出来的,可以感什么?不光看用户干什么、看渠道怎么样,我们还可以做推广。这是典型的怎么做推广,交叉推广或者异业合作,你给我带用户,我给你带用户,分钱,简单说就是这样的模式。乐逗上面的用户特征,从前面几个加上这里就很清晰,年轻人多,传播力强,口口相传,这个游戏好玩,你也来玩,马上就有人来玩。我们公司内的游戏做交叉推广,这个是去年4月份做的,我们在其他游戏里面加推广资源,做完之后发现,对于果宝三国的收入人均付费提升非常明显,一直往上走,这个一直不停,还在一直往前走。其实还有一个游戏,我们跟阅读类,跟其他公司阅读类游戏做交叉,因为美人记是故事性强的游戏,做交叉推广之后把量的带的非常高,这个曲线非常恐怖。不得不提的,这里面我们会和很多合作伙伴做流量的互换以及互相的广告匹配,我们后台有引擎算,通过这个数据怎么匹配最大量的用户、最优质的用户。

这是很新的东西,和信用有关,信用支付,我不知道在座有没有做游戏的,有做游戏的知道一个概念,运营商总是最牛逼的,因为运营商经常做着做着,我们本来记得是一万元,最后收几千元,当然这有很多可能性,运营商经常给理由是这个用户欠费或者怎么样。我们做了这样一个事情叫信用支付,我们把每个用户的付费历史,跟银行类似,把付费历史,运营商对他的限制、银行对他的限制都拉进来,算出来一个额度,追加行为属性和社会属性,综合起来之后分析信用额度是高还是低,然后告诉他可不可以行使这个权利。这里面我们会把社会属性、人脉、偏好等加进来,最后会衡量出来什么呢?这个高信用等级的我们会推荐他用很有效的支付手段,甚至可能不要他先付钱,先玩,玩了之后再收费,就是让他在游戏中很爽。信用等级低的一定要先收钱。信用等级越高的人我们会提供更多便利的支付的通道,也就是说为前20%的用户提供的是最优质的服务。

讲到这里,我要分享的基本是这么多,回过头来,我们做的很多事情是说把大数据和现在基础建设的云结合起来做,在现阶段,如果有的人说只做大数据,没有云支撑,基本上可以说这个人是骗子,因为他没有办法做大量计算,否则他的数据量只有TB级。我们每天要消耗一张硬盘,这种情况要存量一年的数据就要三百多张,这根本没有办法在过去的基础架构上跑动。在这个基础上我们做了混合式,前端量越大,越放到云端处理。我们通过聚合、运营把量逐渐精细化,数据质量会越来越高,质量高之后我们会进入私有的建设里面,包括私有云,甚至最终落地到非常敏感的数据的集群当中去。所以我们其实在干这个事情。

我要分享的就是这些。谢谢大家!

在不久的将来,云计算一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏云计算,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

标签: 大数据 大数据时代 大数据时代是什么 电子商务 服务器 谷歌 互联网 互联网公司 互联网金融 机房 金融 买服务器 推广 网络 云服务 云计算 云计算产业 云计

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:Dimension Data推出业内领先的三层云存储服务

下一篇:微软:云计算可以有效防止盗版