数据科学的行业准备情况
各行业是否希望了解他们能用数据做什么?他们是否拥有所需的数据?
Raghav Bali: 我认为答案是肯定的。特别是对于那些在各自领域已经存在了相当长一段时间的大型组织来说。大多数大型组织多年来一直在收集和存储大量数据。直到最近,他们才开始利用这些数据将业务提升到一个新的水平。
初创公司或相对较新的组织虽 智利手机号码数据库 然没有大量数据,但具有了解数据力量的优势。因此,大多数现代组织都以数据为中心。我们本土的初创公司,如 Flipkart、Swiggy、Zomato、Paytm 等就是典型的例子。
无论是基于行业还是基于技术领域,数据科学面临的三大挑战是什么?
Raghav Bali: 这个问题很难回答。每个行业或技术领域都有自己独特的问题。但从宏观上看,大多数领域都面临着与以下方面相关的问题(但不限于):
(i) 数据质量:
(ii) 意识:大多数组织才刚刚开始其旅程,因此高层领导有时缺乏接受数据驱动解决方案的意识和动力
(iii) 管理数据科学项目:数据科学项目具有高度迭代性。典型的软件项目管理技术并非开箱即用。
对有志于成为数据科学家的人的建议
您认为数据分析师和数据科学家需要具备哪些最重要的技能,包括技术和软技能?
Raghav Bali: 由于角色的性质,数据科学家/分析师更像是多种技能的融合。典型的数据科学家需要擅长技术技能,例如所使用的算法的基础知识、高效实施的软件工程技能以及讲故事、可视化等软技能,以传达想法。当然,数据科学家还需要自我批评并分析他/她生成的每个输出/报告/模型。
有志于从事数据工作的人士应该在处理混乱、嘈杂的数据时投入多少精力?他们还必须在哪些领域积累专业知识?
Raghav Bali: 100% 就更不用说了。现实世界充满了嘈杂、不干净、非结构化的内容,没有我们在学术界或数据科学竞赛中看到的干净数据集。数据科学家应该做好充分准备来处理不同大小和质量的数据集。
除了处理混乱的数据之外,数据科学家还需要熟悉不同的算法及其假设,并阅读开创性的论文以了解在哪里以及如何以某种方式解决某些问题。