简短的回答是“视情况而定”。在对数据角色进行分类时,有很多方法可以解决这个问题。新角色不断涌现,现有角色之间的界限有时会重叠。
让我们来介绍一下处理公共网络数据的团队中最常见的角色。根据我的经验,数据团队的结构与处理网络数据的过程紧密相关,该过程由以下部分组成:
从源系统获取数据
数据工程
数据分析
数据科学
著名数据科学家 Monica Rogati 在 2017 年发表的文章中介绍了组织中数据科学需求层次结构的概念。该层次结构表明,组织中大多数与数据科学相关的需求都与金字塔底部的流程部分相关——收集、移动、存储、探索和转换数据。
这些任务还为组织创建了坚实的数据基础。顶层包括分析、机器学习 (ML) 和人工智能 (AI)。
然而,对于处理网络数据的组织来说,所有这些层 学生资料 都很重要,并且需要具有特定技能的专家。
数据工程师
数据工程师负责管理用于原始数据采集的流程和工具的开发、实施和维护。他们的目标是生成供下游使用的信息,例如分析或机器学习 (ML)。
在招聘数据工程师时,处理网络数据的整体经验和使用特定工具的专业技能通常是首要考虑的因素。如果您决定从一名专家开始,则在上述场景 2 和 3 中以及在场景 1 中,您需要一名数据工程师。
数据(或业务)分析师
数据分析师主要关注现有数据,以评估业务绩效并提供改进建议。在上述场景 1 和 2 中,您已经需要数据分析师。
公司在招聘数据分析师时寻求的最常见技能是 SQL、Python 和其他编程语言(取决于所使用的工具)。
数据科学家
数据科学家主要负责专注于做出未来预测或洞察的高级分析。如果您使用分析来构建数据模型,则分析被视为“高级”。例如,如果您计划进行机器学习或自然语言处理操作。
假设您想通过分析公司的公开资料来处理公司数据。您想确定数据库中虚假商业资料的百分比。通过多次多层迭代,您想创建一个数学模型,该模型将允许您识别虚假资料的可能性并根据特定标准对您正在分析的资料进行分类。对于此类用例,公司通常依赖数据科学家。
数据科学家必备的技能是数学和统计学,这是建立数据模型所必需的,以及上面提到的场景3中的数据科学家所需的编程技能(Python,R)。