大数据处理之数据管道技术-Pipeline
数据管道(Data Pipeline)
收集(Collect):
- 数据从数据存储、数据流和应用程序中获取。
- 它可能来自远程设备、应用程序或业务系统。
摄入(Ingest):
- 在摄入阶段,数据被加载到系统中,并在事件队列中组织。
存储(Store):
- 摄入后,组织好的数据被存储在数据仓库、数据湖和数据湖仓中。
- 它也可能存储在数据库和其他系统中。
计算(Compute):
- 数据经历聚合、清洗和操作,以符合公司标准。
- 包括格式转换、数据压缩和分区。
- 使用批处理和流处理,流处理还直接连接到摄入阶段,为许多工作负载提供效率。
消费(Consume):
- 处理后的数据通过分析、可视化、操作数据存储、决策引擎、面向用户的应用、仪表板、数据科学、机器学习、商业智能和自助分析等方式供消费。
参考文献或转载相关:
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 AI-X!
评论