Teradata CTO谈数据分析的未来:大数据或消失,公民数据科学家很危险

2018-11-08    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

 

当地时间10月15日,2018 Teradata全球用户大会在美国拉斯维加斯举行。来自15个国家的3000多位数据人参与了本次峰会。

会上,全美排名第四的CTO、天睿公司首席技术官、全球数据仓库技术专家Stephen Brobst发表了名为《数据分析的未来》的演讲,并在会后接受了专访。

 

 

他指出,未来大数据这个词可能会消失,我们将迎来“全量数据时代”;此外,数据分析的统计知识非常重要,只依靠技术工具进行数据分析的业务领域专家非常危险。

Stephen指出,未来的数据分析将呈现以下四个基本特点。

1. 从大数据思维到全量数据思维

Stephen提出的未来数据分析第一个趋势,是从大数据思维向全量数据思维的转变。

 

 

未来,数据的量级已经不再是衡量数据分析的最重要指标,最重要的价值将来自全量数据分析,整体数据的整合。

他指出,“未来,大数据这个词或许会消失,取而代之的是【数据】或者【所有数据】,但数据分析会一直存在。”

无独有偶,在刚刚结束的百度世界大会上,李彦宏也提出了百度的全量数据思维。他指出,互联网时代和人工智能时代最大的不同,就是在数据分析上,到底是用抽样方式还是全量数据获取分析方式。

而显然,后者更加符合当前时代的发展特点,特别是在一些特别的应用场景比如说智能交通领域,用全量实时的数据来感知交通实际情况,城市每一辆车所在具体位置,每一个红绿灯口有多少辆车,这些车移动的方向等等。通过对这些情况进行全局调整,可以大幅度提升城市交通运营效率。

AI思维的智能交通,具备全面感知、全局决策、实时控制的特点,可以大幅度提升城市交通效率,改善人们的生活体验,大大提高人们的幸福感。

2.新的分析技术将拓宽分析界限

斯坦福大学教授李飞飞曾公开表示:人工智能、机器学习仍然是一个进入门槛高的领域,需要大量专业知识和资源,而很少有公司自己能负担得起这些资源。今天,虽然AI能为企业提供无数的益处,但由于资源稀缺,多数企业还无法开发个性化的模型。

 

 

越来越多的数据分析技术在算法自动化上的设置也显然是奔着解决这一痛点而来。从谷歌的AutoML到Teradata最新产品下一代分析平台Teradata Vantage,自动化的分析工具正在让智能分析的门槛变低,界限变广。

那么,高质量的数据分析工具是否会降低使用者对于数据和数据人才的重视程度呢?

“高质量的数据仍然非常重要”,针对这一问题,Stephen告诉大数据文摘,现在尽管分析工具越来越智能,但他们的使用前提依然是没有偏向(bias)的数据,和懂得这些数据的专业人士。

“深度学习算法实际上非常适合处理数据质量问题。很多公司现在用无监督学习的反馈循环来解决数据质量问题,但我们还是希望,在数据搜集的过程中就尽量最小化数据偏见。数据科学没有魔法,它不是一个工具就可以解决的问题。你可以通过一些步骤来测试有偏见的数据,但这是件很微妙的事情。”

“你必须雇用那些知道自己在做什么的人。”Stephen称,业内现在存在很多只懂业务、不懂统计的“公民数据科学家(citizen data scientist),这是非常危险的。他们严重依赖技术工具进行数据搜集和分析,并不知道自己在做什么,“这很可能会导致严重破坏性的结果。”

3.智能分析需要业务场景

的确,统计知识对于数据分析举足轻重,但是这并不代表着可以忽略业务知识。

Stephen指出,未来,智能分析只是决策中非常小的一个部分,端到端的业务分析和场景都至关重要。

 

 

如何我有一小时拯救世界,我会花55分钟定义问题,剩下5分钟寻找答案。(if I had only one hour to save the world, I would spend fifty-five minutes defining the problem, and only five minutes finding the solution)—— 爱因斯坦

只有把系统部署到真实世界中用起来,拿到新的反馈、改进模型,才能获得真实场景下解决问题的思路。Stephen也指出,如何吸取和提炼这种经验也很重要,如果没有总结能力和提取能力的话,换个新问题你还是不会做。

Stephen给出了一系列人工智能和数据分析的应用代表领域,比如很重要的一个应用场景是反欺诈,有了深度学习以后,它可以很大程度上降低欺诈的情况,使欺诈行为发生得越来越少,尤其是考虑到罪犯是变换不同的欺诈手法,因此机器学习迅速的学习速度非常适合这一场景。

还有一部分美国人爱写支票,金融机构需要识别支票上的签字,因为人写字的时候写得乱七八糟,有的写得不清楚,所以识别起来还是挺不容易的。现在有了深度学习,深度学习来识别手写字体,到底是在什么地方、谁写的什么的时候,这些场景下,机器都比人要做得更好。

4.未来属于能将数据转化为产品的企业

“数据挖掘可以产生很多洞察,但只有生产落地才能创造真正的价值”,Stephen认为未来数据分析的第四个趋势,是技术能力必须与产品结合起来。

 

 

“在硅谷,要么你已经是一家数据公司,或者将来会成为一家数据公司,或者已经被彻底淘汰。因为大数据正在变革各个行业认识自己的方式。”

现在,通信行业不再是收取订阅费的行业,而变成了收集数据,并将数据货币化的过程。电信企业把数据收集起来,把信息递交给业务的决策者,他们就会做出更好的决策。

Stephen称,未来属于能将数据转化为产品的企业,现在我们就需要越过商业智能的思考,进入工业生产领域的思考,这样才能真正的让分析产生价值。

标签: 大数据 谷歌 互联网 金融 排名 数据分析 通信 通信行业

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:大数据分布式存储的部署模式:分离式or超融合

下一篇:为什么维护工作让数据中心工作人员夜不能寐?