云计算专家访谈:百度系统架构部技术总监 吕厚昌
2013-05-25 18:26:53来源:[标签:来源] 阅读 ()
记者:您能先简单的跟我们介绍一下您这个部门在百度中是一个什么样的角色吗?
吕:百度的数据团队属于基础架构部。顾名思义,这个部门是做数据的。百度对数据的重视在业界里面很突出,因为百度一直讲究让数据说话。用数据支持决策,已经是公司文化的一部分。这个团队成立的最主要的目标是要从技术上把数据的应用推动到更高的层次。百度的数据量很大,所遇到的不少难题业界也清楚。有时,需要做复杂的数据挖掘,但有时又会回到原点改善数据收集。数据收集做的不细做不出好东西。这个团队是一个central的团队,跟所有的业务部门,都有紧密合作互动,大概是这样。
记者:您的团队主要负责数据采集和分析吗?
吕:这个团队的charter很大。我们目前集中在对业务影响力最大的项目上。有三个字总结我们要做的事:第一个字,platform,就是设计开发与数据相关的technologies,这个跟处理什么数据没有太多关系,像Hadoop就是这种技术。我们一直强调平台化方法解决问题。这些技术做好以后,其他场景都可以用。第二个字,就是数据,也就是管理数据,先拿最重要的数据下手,尤其是数据量最大的。最后一个字,是用。一般同行聊的比较多的是机器学习这种复杂的用。实际上,数据应用场景很宽泛,从最基本的到最复杂的。很多有价值的东西也未必一定需要复杂的机器学习算法。Machine learning也不是一个新的东西,学术界已经搞了几十年了。最近非常火。但是如果你认真看对business真正产生重要影响的应用,很多是很基本的,在这里有很多东西要学习。我想说的是,数据这个领域很大,好多东西层出不穷,有的已经对业界产生了颠覆性的影响。
记者:互联网公司应该是典型的数据密集型企业了,目前百度的数据量达到了一个什么规模呢?
吕:目前百度在用户的使用量上,大家都知道是中国最大的。在国际上也是top 5。据Alexa统计,第一是Google,第二是Facebook,第三是Youtube, Youtube是part of Google,第四是雅虎, 第五个就是百度。从数据量级上来讲,百度跟Google和Facebook类似,面临的技术挑战是一样的。考虑到我国网民的增长速度比较快,在不远的将来,百度的用户使用量可能还会超过前面几位。从这个角度看,百度所面对的技术挑战在世界上也是少有的。
记者:大数据处理的主要平台是Hadoop,百度的数据分析有多少运行在Hadoop平台上,还有其它的系统吗?
吕:Hadoop是一个非常成功的改变了业界的技术。我自己它认为简单,好用,能Scale,是一个好东西。百度不是所有的数据都跑在Hadoop上,还有其他的自主开发的技术。但大规模的数据处理基本都是在Hadoop上跑的。百度Hadoop用的不错,而且在Hadoop上又做了很多有自己特色的工作。百度在Hadoop做的改进,让它更稳定,能支持更大的Cluster,做数据处理的效率更高。
记者: Hadoop应该属于偏重离线的数据分析的系统,我们该如何理解数据分析的时效性问题?
吕:谈数据,时效性是必须要考虑的。Hadoop虽然是离线的,但最近Facebook已经是在Hadoop上往实时方面走了,Twitter也推出了storm。我们把Hadoop拿开的话,Map Reduce是一个很基本的理念,也在向前滚动。Open source community很厉害,这些东西还都在往前走。百度在时效方面开展了很多自己的工作。我们也在紧盯业界顶尖公司,Twitter也好,Facebook也好,Google也好。从public已经说出来的东西来看,实效方面改进很多。应该说Hadoop不仅仅是一个离线的东西。任何一个真正的数据的平台,离线,实时成分是必须搭配的。
记者:百度在偏重实时性的云计算做了哪些工作?
吕:百度自己做了不少东西,因为百度的产品没有实时的数据处理玩不转。我们特别关注的业内几家主要的公司,大家也都说海量数据,也都说要做到实时。数据量不一样,技术挑战也不一样。一方面我们自己要做,有很大的投入,另一个方面就是紧盯OpenSource里面的进展。在这方面,百度非常active。
记者:我们传统理解就是,实时的东西还是需要高性能计算,现在来说,实时处理是高性能的特长,离线是云计算的特长,据了解,国外有些公司能够把基于云计算的实时处理做到秒级,那么百度能做到什么程度呢?
吕:根据我的了解,SNS/Search这两个大领域有不是秒级就能解决的数据问题。为了能把数据的loop给close掉,我们需求的是毫秒级的速度。这里,不是盲目讲快,还讲效果。把太大量的数据实时化了,有时反倒会影响效果。百度一直是根据价值来驱动所有的技术发展。
记者:那是不是可以这样理解,在一些比较具体的应用上或是相对规模比较小的数据的计算上,百度这种实时处理已经到了毫秒级。
吕:是的,而且具体的Case不比世界上任何一个方案差。
记者:您认为云计算能取代高性能计算吗?
吕:国内业界对云计算的热情非常高。我自己认为云计算将来会取代传统的高性能计算。以现在的状态,云计算还是个新生事物,我不认为实时计算是云计算不能解决的问题。目前Hadoop的结构,内部的机制是比较粗放的。但业界强大的需求驱动力会改变这一切。
第一,互联网产业的Scale让我们没有选择,必须在云上做。我不认为传统的高级性能计算机可以解决互联网所带来的问题,第二,这种云上的实时计算技术肯定会发展起来。现在技术这么简单,有非常大的空间可以往前走。就Hadoop而言,也有非常大的空间。
我个人认为云计算是可以取代传统的高性能计算的。时间我不确定。感觉比较成熟可靠的用于实时计算的Hadoop应该马上就会发生了。我们看到已经看到了不错的结果,包括Twitter和Facebook。
目前做人口普查一般需要用高性能计算机来做。等到云计算成熟了,我觉得可以用云技术做,应该会更快,效果也会不错。因为人口普查后面的算法都是很basic的。
记者:我们现在使用Hadoop技术的主要是互联网行业,如果其它行业有这方面的需求,就意味着需要把技术产品化。您如何看待云计算技术的产业化?
吕:这方面我想提到的是cloudera。cloudera已经在这方面做尝试,把Hadoop做好打包,把它带给互联网行业及非互联网行业。这里有私有云的概念,也有公有云的服务,公有云是,平台搭好了,用户可以直接拿来用。业内在这方面发展的非常快。
公有云方面,我想大家主要顾虑还是安全。还有服务是否与付款数额相匹配的问题。现在的技术在这方面还无法回答所有人的顾虑。但正像互联网电商的发展一样,共有云服务走的很快。不管用的是opensource还是自主开发。我相信在未来,对任何一个产业来讲,当它简单到了大家都可以用的程度,这些顾虑也会变得不是顾虑。技术就是技术,无所谓只有互联网可以使用这种说法。目前的确还需要有技术积累。
记者:很多的企业的数据量不像互联网企业、电信和银行业这么大,他们需要云计算吗?
吕:国外的很多公司,不管大还是小,它们一般在IT方面的投入都比较大。我们注意到这些公司都在往云上走。说穿了就是能用更方便/更便宜的方法解决他们的问题。如果传统技术能解决他们问题,既便宜效果又好,他们不会需要到云中去。云计算做到位,便宜有效,传统企业当然也会用。用传统技术解决问题,要找人,要买机器,这些花销不小,但它带来的好处是有安全感。“东西在自己家后院能看到不会出事”,安全感,可控制。实际上这个也在改变。现在很多国外的startup公司,都不搞自己的系统了,直接上到云平台就搞定了。今天下单,明天就能用,花钱也不多。方便。我觉得,面对中小企业的云计算服务发展起来,将对传统IT行业产生颠覆性的影响。
记者:现在大家都认为Hadoop还处于婴儿时期。您认为Hadoop将来的发展会更偏重于哪些领域呢?
吕:其实你已经谈到了,包括实时,包括计算模型改善。Hadoop是云计算里大潮里的一个比较出彩的东西。将来它也未必只限于数据处理,storage。可能还会增加复杂的数据库功能。从简单走向复杂,偏重于哪些领域归根结底还是业界需求在驱动。这种驱动力目前很强大。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- 秒针酷宝电商峰会上海场圆满落幕 品效合一助力企业跨入电商2 2015-05-21
- “杨部长座谈会&2015互联网+中国制造业高峰论坛”圆满闭 2015-06-10
- 秒针酷宝电商峰会上海场圆满落幕 品效合一助力企业跨入电商2 2015-05-21
- “杨部长座谈会&2015互联网+中国制造业高峰论坛”圆满闭 2015-06-10
- 秒针酷宝电商峰会上海场圆满落幕 品效合一助力企业跨入电商2 2015-05-21
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash
