数据管道(Data Pipeline)

  1. 收集(Collect)

    • 数据从数据存储、数据流和应用程序中获取。
    • 它可能来自远程设备、应用程序或业务系统。
  2. 摄入(Ingest)

    • 在摄入阶段,数据被加载到系统中,并在事件队列中组织。
  3. 存储(Store)

    • 摄入后,组织好的数据被存储在数据仓库、数据湖和数据湖仓中。
    • 它也可能存储在数据库和其他系统中。
  4. 计算(Compute)

    • 数据经历聚合、清洗和操作,以符合公司标准。
    • 包括格式转换、数据压缩和分区。
    • 使用批处理和流处理,流处理还直接连接到摄入阶段,为许多工作负载提供效率。
  5. 消费(Consume)

    • 处理后的数据通过分析、可视化、操作数据存储、决策引擎、面向用户的应用、仪表板、数据科学、机器学习、商业智能和自助分析等方式供消费。

alt text

参考文献或转载相关: