我是如何建立完美的数据科学团队

2019-10-10    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用

by Jean Georges Perrin 来源:DZone

当我组建第一个数据科学团队时,这个术语在《哈佛商业评论》上几乎没有印出来。我不知道我正在组建一支在大数据和数据科学领域处于先驱地位的团队。现在是反思这个十二年前开始的故事的好时机。

首先,我真的很想为这篇文章冠以“我如何建立一支完美的数据科学团队(不知道如何)”的标题。但是,我不想给人留下我不知道自己在做什么的印象(我认为我做了) 。不过,这是我的故事...

2007年,我创立了GreenIvory。这个想法是为网络营销人员建立一个工具箱。无论营销人员是想要自动化内容分发,内容生成,还是通过情感分析来衡量品牌知名度,我们都有一个解决方案(还有更多解决方案!)。不久之后,该团队开始研究NLP(自然语言处理),并于2011年初发布了首款可进行情感分析的产品。我们解决了许多技术难题,但我们将重点放在人员和组织方面。

“green team”由一群才华横溢的软件工程师组成。每位工程师在系统的各个关键要素上都有自己的强项:UI,数据,爬虫,系统,操作等。我们之前已经推出了几个项目和产品。这是一个工作模型。然而,我们没有足够的科学。 我们需要可以帮助我们将科学知识注入工程团队的人。 那时我们与斯特拉斯堡大学合作,聘请了一位数据科学家(当时他并没有这个头衔)。

时间轴和业务价值

 

 

我们的主要问题是时间表。或更确切地说,数据科学与工程学之间缺乏一致性。那时,我们已经在遵循敏捷方法论。与当时的大多数公司一样,它是本地生产的版本,但它是团队驱动的,我们拥有一个出色的敏捷冠军。运行正常。

每个Sprint都在交付业务价值,我们经常在开发过程中更新工件,面临的挑战就是将科学家的工作在工程组织。

 

 

归结为将他直接整合到开发团队中。我希望他充当灯塔。这并不容易。有点文化冲突。工程师们不明白为什么要花这么多时间来获取东西,以及为什么要花这么多时间来做。在他的身边,这位科学家无法理解为什么他的实验虽然在Mac上取得了成功,但是当我们向他的算法抛出数百万个句子时却无法扩展。

最后,经过无数次结对编程,讨论并建立了更强的团队合作精神,我们得以在产品中利用科学。

反例

 

 

最近,我经历了一个不同的组织,数据科学家被停在一个筒仓中。当时的想法是将科学作为一种面向消费者的产品交付给业务分析师和用户。

不要误会我的意思,他们能够交付,但是筒仓仍然是筒仓。团队积累的知识和智慧并没有渗透到组织的其他部门。

副作用是该团队不断发展,最终与另一个团队合并……您知道发生了什么:他们需要更多的披萨。而且,当您需要更多披萨时,生产率就会下降。如果不在原始的《敏捷宣言》中,则必须在其第一个修订中。

十二年来的数据科学团队

最近,我在Think 2019上参加了Stacey Ronaghan的鼓舞人心的演讲。Ronaghan是IBM的数据科学家。她正在总结自己作为数据科学家的经验,并加入了一个团队。那时我才意识到,十二年前,我们相距不远。

 

 

她将团队定义为成功的关键驱动力。她与之合作的团队在数据科学领域扮演着不同的角色,例如高管发起人,数据库管理员(该公司负责处理数据!),业务分析师,项目经理(在2019年,我们称为Scrum Masters),SME(主题专家) ),解决方案架构师,软件工程师,设计师和设计思维实践者。是的,这是一个非常折衷且具有跨职能的团队。就像软件工程团队一样。

交付基于为组织带来的价值。团队并不是孤立地生活,也不是为了学习而只是在遥远的舒适茧中学习。他们交付。他们解决问题。

解决问题有助于他们带来业务价值。像敏捷团队一样。她的团队工作敏捷。也可以实现两周的Sprint。

像在软件产品组织中一样,她的团队经历了建立MVP(最小可行产品)的过程。那是她的客户可以接管的地方。

结论

 

 

每个利益相关者都有一个角色。科学家可以定义愿景,构思构想,找到正确的算法。然后,工程师可以将其“带回家”,并将其转换为工具箱或平台中的生产代码。最后,应用程序开发人员可以结合现已在平台上工业化的科学技术,以构建出色的产品。这就是我所说的数据科学的工业化。

经过这些经验,并能够与其他人面对一些想法和部分经验,这是我的结论(到目前为止):

♦ 数据科学团队与软件工程团队没有太大区别。

♦ 期望有所不同,因为其中的实验部分更为重要。

♦ 可以应用标准软件方法(Agile, SAFe…),但在研究方面更具挑战性。

♦ 随着TDD成为标准,测试驱动数据科学还不存在。

♦ 存在诸如偏见之类的新挑战,但这难道不是QA的一部分吗?

♦ 模型的治理也是前所未有的挑战。

标签: 数据 蒲哦

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:60多个有用的数据可视化图形库

下一篇:数据科学的专业认证越来越重要