一、过去十年大数据架构的三次迭代
第 1 阶段:离线仓库为主
核心技术:Hadoop / Hive / MapReduce / Spark
架构特征:离线批处理为主,T+1,时效慢
消费形态:数据仓库驱动报表,离线指标统计
典型问题:数据孤岛、ETL 重、链路长、数据资产沉淀差
➡ 关键词:批处理、数据孤岛、多层 ETL(ODS → DWD → DWS → ADS)
第 2 阶段:实时仓库补充
核心技术:Kafka / Flink / ClickHouse / Druid / OLAP
架构特征:离线 + 实时并存,链路割裂,数据一致性难保障
消费形态:离线 BI + 实时看板 + 运营监控
典型问题:批流双链路、指标不统一、数据重复、治理分裂
➡ 关键词:实时看板、流计算、OLAP 查询、口径混乱
第 3 阶段:湖仓一体 + 批流一体
核心技术:Hudi / Iceberg / Delta Lake + Flink / Spark + OLAP
架构特征:统一湖仓,统一链路,统一数据资产
消费形态:实时 / 离线统一指标,统一数据出口,统一治理
价值提升:口径统一、资产复用、链路高效、治理闭环
➡ 关键词:湖仓一体、批流一体、数据资产化、治理平台化
二、为什么湖仓一体 / 批流一体成为架构主流
痛点复盘
传统架构问题 | 湖仓 / 批流一体解决方式 |
---|---|
批流分裂,数据不一致 | 批流统一链路,统一存储,统一治理 |
数据孤岛 / 重复存储 | 湖仓统一数据资产,减少冗余 |
口径混乱 / 血缘不清 | 元数据治理融入湖仓 / 批流链路 |
链路臃肿 / 成本高 | 简化链路,减少中间层,提升时效,降低存储成本 |
湖仓一体:统一数据底座,资产沉淀闭环
特征 | 能力 |
---|---|
数据湖 | 支持明细 / 全量 / 增量 / 历史 |
数据仓库 | 支持宽表 / 聚合 / 指标 / 查询 |
元数据 | 表 / 分区 / 血缘 / 生命周期管理 |
事务 | ACID,数据一致性保障 |
👉 冷数据归档、热数据计算、实时增量,统一数据资产治理。
批流一体:统一计算链路,消除数据割裂
批 | 流 | 一体化架构价值 |
---|---|---|
离线 | 实时 | 同一数据模型、同一口径、统一资产 |
Hive / Spark | Kafka / Flink | 消除 T+1 与实时数据差异,减少重复 ETL |
DWD / DWS | 实时维表 / 时态表 | 批流共用维度,共享资产,减少链路维护成本 |
👉 一张表,既支持离线,也支持实时,统一维护口径和血缘。
三、典型架构演进图(文字示意)
【传统架构 - 双轨制】
数据接入:DB → Flink CDC → Kafka → Hudi / Iceberg(统一湖仓表)
计算引擎:
- 离线:Spark SQL / Trino / Presto
- 实时:Flink SQL / Streaming Join / Lookup Join
- OLAP:ClickHouse / StarRocks 查询湖仓表
统一输出:
→ BI / 可视化 / API / 实时大屏 / 数仓 / 算法训练 / 数据服务
问题:重复建模、重复治理、批流割裂、口径难统一
【现代架构 - 湖仓一体 + 批流一体】
sql
复制编辑
数据接入:DB → Flink CDC → Kafka → Hudi / Iceberg(统一湖仓表) 计算引擎: - 离线:Spark SQL / Trino / Presto - 实时:Flink SQL / Streaming Join / Lookup Join - OLAP:ClickHouse / StarRocks 查询湖仓表 统一输出: → BI / 可视化 / API / 实时大屏 / 数仓 / 算法训练 / 数据服务
特点:
数据入湖,实时增量,离线共享
批流统一口径,共享数据资产
数据服务、API 化能力内嵌湖仓
四、行业落地趋势案例
企业 | 架构关键词 | 落地效果 |
---|---|---|
字节跳动 | 湖仓一体 + 实时数据主链路 | 实时 + 离线统一,资产统一,数据交付快 |
阿里巴巴 | OneData / MaxCompute / Hologres | 统一资产,统一治理,实时 / 离线融合 |
京东 | 湖仓统一 / 批流一体 | 统一链路,数据标准化,质量提升 |
腾讯 | Lakehouse + 批流一体 | 统一治理,指标统一,链路降本增效 |
五、未来趋势:数据基础设施平台化、治理化、实时化
趋势方向 | 驱动力 |
---|---|
湖仓一体 | 数据治理 / 存储成本 / 冷热数据统一 / 事务保障 |
批流一体 | 实时化业务需求 / 数据一致性 / 运维成本降低 |
数据服务化 | 数据产品化 / API 化 / 自助服务 / 资产沉淀 |
治理平台化 | 数据血缘 / 元数据 / 生命周期 / 安全 / 质量 |
云原生化 | K8s + 云存储 + 云计算,平台弹性更强、更轻量 |
六、总结:架构重构不是时髦,而是必然
过去:堆工具,拼链路,谁用谁造轮子。
未来:统一湖仓资产,统一批流口径,统一数据治理。
重构大数据平台,核心不是技术炫技,而是:
✅ 降本提效
✅ 数据一致
✅ 快速交付
✅ 治理闭环
✅ 价值转化
数据平台的终局:
数据即资产,架构为能力,平台为底座,治理为保障。