企业应对数据科学家短缺的5种方法

2020-12-04    来源:raincent

容器云强势上线!快速搭建集群,上万Linux镜像随意使用
作者:Ericka Chickowski 翻译:邹铮 来源:TechTarget中国

随着企业以数据为中心的文化,以做出决策和规划,数据科学家对全球企业的重要性日益增加。但是企业无法足够快地聘请数据科学家,因为合格候选人仍然非常有限。

为了应对数据科学家短缺的问题,企业正在采取各种方法,以从他们可以找到和保留的少数数据专业人员中获取最大的收益。

自动化

数据科学家完成的很多工作侧重于数据管理和操作任务,例如识别数据源、合并数据集和验证数据质量。这些任务并不是通常聘用数据科学家的目的,他们应该负责高价值工作。随着更多的自动化工作进入企业,这种情况正在改变。

自动机器学习(ML)软件公司DotData首席执行官兼创始人Ryohei Fujimaki说:“通过自动化,模型开发以及模型操作得到极大简化。新的数据科学自动化平台将使企业只需付出最小的努力,便可在生产中部署、操作和维护数据科学流程,从而帮助企业最大程度地利用其AI和ML投资以及当前的数据团队。”

自动化数据工程软件公司AtScale创始人兼首席技术官Matthew Baird表示,在数据科学自动化领域,最有前景的发展是在自主数据工程领域,该领域实现了数据管理和处理任务的自动化。

Baird 称:“这些进步是以‘实时’数据工程的形式出现,如果具备所有知识并完整地输入数据,自动化就可以像完美的数据工程团队一样工作。这包括了解如何最好地利用各种数据库的基础数据结构,其独特的网络特性、数据位置、本机安全设置和策略。”

自助服务分析

所有这些额外的数据管理和建模自动化功能不仅旨在最大程度地利用高级数据科学家,还可以让公民数据科学家利用数据资源。通过自助服务分析扩展数据探索是解决数据科学家短缺的另一种流行方法。

Baird 称:“自主数据工程技术的进步,再加上自助服务分析带来很多公民分析人员,可让宝贵的数据科学和数据工程资源专注于更高价值的活动,例如构建下一代机器学习或人工智能模型。”

创建跨职能团队

同时,企业开始看到自助服务分析工具和自动化的局限性。

深度学习软件公司Pathmind创始人兼首席执行官Chris Nicholson说:“简化数据科学的工具也限制了用户的灵活性和选择,这意味着某些需要定制的复杂任务不可能实现。” Nicholson认为,这种现实已导致很多公司探索新的团队策略,以从有限的数据专家中获取更多信息。

Nicholson说:“很多公司通过建立跨职能的数据科学团队来应对数据科学家的短缺问题,这些团队可以与企业中的很多业务部门合作,也可以聘用外部顾问。通常,限制企业数据科学价值的不是数据科学家的匮乏,而是企业收集的数据以及企业如何使人们访问和处理数据。”

Nicholson说,跨职能团队可以帮助企业解决因技术和内部政治障碍而造成的零散的数据孤岛问题,只要正确的利益相关者在同一团队中共同努力,就可以克服这些障碍。

这也可以缓解一个常见问题,这个问题看起来像数据科学家短缺,但其实更基础,即太多数据科学项目看起来难以管理,因为它们没有通往业务价值的明确途径。

IT咨询公司More Than Code首席顾问Sten Vesterli说:“太多的项目令人难以置信,企业将大量数据丢给数据科学家,然后说,‘看看你能做什么。’我们已经看到超过80%的数据科学项目无法从实验室转移到生产环境中,而企业需要将其数据科学家分配给最高价值的业务目标。”

更好地定义数据科学角色

图形数据库公司Neo4j的图形分析和AI程序主管Amy Hodler表示,阻碍有效招聘数据科学家的一大问题是,企业正在使数据科学的头衔和职责变得过于广泛。

Hodler称:“这使企业很难找到合适人选,这意味着新员工很难理解和适应业务目标。”

她认为,未来一年,很多企业将开始多样化与数据科学相关的职位,从而创建子类别的工作重点和更加严格的工作要求。

内部培训

Hodler还认为,企业将通过对现有员工进行更多内部培训–这些员工表现出任何潜力或希望转向数据科学岗位,以应对数据科学家的短缺。她说,企业必须战略性地培养潜在数据科学家的特定技能。

Hodler说:“企业必须以长远的眼光来清晰地评估和定义所需的技能,不仅需要考虑当今炙手可热的工具/方法,而且还要投资可在未来数年内建立的核心概念。在未来几年内,初级和高级数据科学家配对将对发展和保留这些员工变得至关重要。”

标签: 数据 蒲Ъ

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点!
本站所提供的图片等素材,版权归原作者所有,如需使用,请与原作者联系。

上一篇:浪潮携手伙伴成立5G联合实验室,并发布首款虚拟

下一篇:中国自研数据库登顶TPC-C的意义