行业内谁是您的典型大数据客户?是 CTO、CIO、CMO 还是特殊数据领导者?
Rajat Venkatesh: 技术领导者取决于用例。
数据工程:通常,团队向首席信息官或工程副总裁汇报。
数据分析或数据科学:通常与营销或销售等部门相关,因此客户是 CMO 或 COO。
虽然各行各业都在寻求了解 萨尔瓦多手机号码列表 如何利用数据,但他们首先是否拥有所需的数据?
Rajat Venkatesh: 虽然许多组织都收集了数据,但这些数据仍是暗数据,而且可能并非全部都易于访问。最近的一份报告显示,90% 的传感器和机器数据都是暗数据,即从未使用过的数据。
虽然组织看到了 DataOps 方法在设计、维护云原生分布式数据架构以准备数据、使数据可用于临时分析和其他下游用例的价值,但许多组织缺乏构建这样一个平台的能力,并在 Qubole ADP 等交钥匙解决方案中找到价值。
此外,不同的公司在捕获和使用数据方面的成熟度阶段不同。
不同的阶段如下:
实验:捕获数据并为特定用例生成有用的见解。
扩展:捕获数据并为大多数部门或团队的多种用例生成有用的见解。
人才与技能
在庞大的大数据领域,技能瞬息万变。您认为哪种技术在 ETL 数据领域占主导地位?
Rajat Venkatesh: Apache Hive 和 Apache Spark 是每天可以处理 TB 级数据的主流数据引擎。ETL 工程师目前面临的挑战已经转移到数据工程的其他方面:
管理 ETL 管道:ETL 管道非常复杂,包含许多步骤。有商业和开源技术,例如 Apache Airflow。一些尚未解决的挑战是更好的警报,尤其是对 SLA 和数据质量的监控。
ETL 管道的变更管理:ETL 管道通常很脆弱。ETL 数据管道不像其他软件系统那样经过 QA 或拥有良好的 DevOps 工具来管理变更。
数据和元数据的一致性:数据由公司中的多个团队生成。数据工程团队与这些团队合作来捕获和管理数据。由于数据工程团队是共同因素,因此他们有责任确保所有团队的元数据保持一致。例如,客户 ID 在所有团队中具有相同的列名和格式。
没有技术能够为数据工程师解决这些问题,因此对于业内专家来说,这是一个激动人心