每年的这个时候,数据工程、机器学习和数据运营的领导者、顾问和供应商都会回顾过去,检查趋势并做出预测。在经历了2022年的旋风之后,这一次的任务并不容易。
总体而言,2023年的主要数据演变将围绕以下方面:
- 随着业务的增长和发展,减少数据生产者和数据消费者之间的瓶颈。
- 更好地管理数据和机器学习模型的治理定义。这将与DataOps结合在一起。
- 数据质量将开始受到应有的关注,因为它是数据可靠性和组织信任的必要条件,也是机器学习成功的关键。
考虑到这些概念,让我们深入研究对数据未来的预测:
数据工程将成为主流
去年,多个数据计划受到了糟糕的数据建模、基础设施、对数据工程团队的大量请求,以及业务/数据分析师为纠正工作所需的数据而创建的几个数据竖井的影响。这让企业明白,如果没有一个好的数据工程计划,其他所有项目都将难以成功。
高质量的数据,而不仅仅是更多的数据
当企业更关心收集越来越多的数据,而没有确保其应有的质量时,这已经足够了。确保数据源的高质量可能是在组织中成功使用数据的最佳方式。
产品思维应用于数据和机器学习
所有的数据专业人士都已经看到了表、管道或仪表板,它们要么被弃用,要么就被丢弃了。通过将数据视为一种产品,用户和业务成为开发的中心。数据团队需要确保数据产品适合特定问题,评估用户参与度,确保产品进度和维护,并评估用户是否受过足够的教育,能够充分利用该技术。
数据合约开始获得吸引力
内部系统生成的数据通常通过CDC(变更数据捕获)进入数据仓库。然而,负责这些系统的软件工程师往往不知道数据工程师在CDC过程之上构建的数据依赖性。因此,当他们对服务进行更新,导致模式更改时,数据系统就会崩溃。
正在实施数据契约,以强制执行数据模式、所需的数据访问级别、数据所有权、正在提取的数据、匿名化以及其他系统,如果源代码发生变化,这些系统可能会受到影响。
分布式和面向域的数据体系结构
数据湖将从单片架构发展到面向领域的数据网格,就像应用架构从单片架构演变到领域驱动的微服务一样。
跨数据团队的新角色
我们将开始招聘数据产品经理,以促进采用和货币化,并招聘数据运营工程师,专注于治理和效率。
笔记本已做好成为新Excel的准备
越来越多的商业用户开始熟悉python、SQL和R。编写小代码脚本已经不像10年前那么可怕了。从数据库中快速提取数据或使用streamlight创建简单应用程序的能力非常强大。
大多数机器学习模型(>51%)将成功投入生产
是的,你没听错。在生产中部署机器学习不再是一门秘密科学。确保这种模式会对业务产生积极影响,或者避免它在第一周内崩溃,这将成为新的大问题。
监控和可观测性工具将整合
对数据管道的实时监控、数据仓库中摄入的数据的可观察性和数据沿袭将成为扩展数据操作的关键。
有什么我错过的吗?
最新内容
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week ago
- 1 week 6 days ago
- 2 weeks ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago
- 2 weeks 2 days ago