传统的物流数据方案存在各种不足的问题,究其原因是企业自身系统间搭建的数据仓库是离线处理的(T+1),延迟的时效以天计算;数据统计的结果一般仅作为分析使用;在数据决策方面,是被动地等待人为决策,无法做到实时预警、实时决策。
1、实时数仓最佳实践方法论
针对以上情况,跑象对支撑物流业务的数据仓库进行全面升级,通过第三代实时数据平台flashflow 将物流企业实时数仓建设的最佳实践融入到平台使用过程中,此外,flashflow 支持团队已经为多家物流企业数据开发人员持续提供了实时数仓最佳实践方法论。
基于实时数据平台 flashflow 搭建的实时数仓,即使在物流订单量激增的情况下,同样能够做到实时监控所有订单、仓库的物流和作业情况。此外,实时数仓搭建成本降低70%,时效性提升100%,真正做到降本增效。
2、基于 flashflow 搭建实时数仓
物流企业的实时数仓须具备两个重要特性:实时性,稳定性。普通的数据仓库很难满足稳定性需求,flashflow 是一款云原生全链路实时数据平台,支持实时数据采集、流批一体数据处理、实时数据服务等多种数据作业,另外还能够支持开发、调试、发布、运维、诊断、治理等数据作业全生命周期管理,低代码、实时化、易扩展、易整合、领域驱动、全面满足物流企业实时数仓实时性与稳定性需求。
3、实时数仓搭建路径
把 Binlog 数据同步到 kafka,然后使用 flink 从 kafka中消费数据,并把计算结果存储在flashflow中,在访问频率高且数据量大的数据,比如待揽收单量、入库单量、待完成单量等情况下时效性很高。flashflow 进行数据分层处理,ODS层用于存放和加载原始日志、数据,以增量的方式从物流业务系统导入到ODS层;DWD层为数据明细层,对ODS层数据进行清洗;DWS为汇总层,主要存放宽表。
采用 flashflow 流批一体与即席计算查询模式,运用HBase、ClickHouse、Druid等作为实时查询数据库,在flashflow 中多表连接查询能够发挥其最大的作用,采用 flink进行任务实时调度,通过系统界面配置源数据库、目标库、源表、目标表,保存并发布后,即可创建实时数据采集作业,时效可达秒级,充分满足物流企业复杂的业务需求。
flashflow 实时数据平台
flashflow 是支持实时从数据源存储到数据目标存储及数据服务的全链路大数据开发、运维和管理的平台,帮助物流企业从实际需求出发,快速搭建起实时数仓的同时,还能帮助企业解决了大数据应用的痛点问题。
(1)流批一体的实时能力
满足物流企业的实时数仓需求,支持百亿级表与亿级表之间的JOIN,秒级甚至是毫秒级查询响应,同时还支持实时写入、批量数据超高导入性能。例如,实时数据从Binlog解析到ODS层,同时作业任务将分钟级别的统计数据计算到DWS宽表,同时跟离线的数据进行插入更新,就可以得到实时的全量数据表,采取 flink 进行分钟级调度;
(2)平台采用分布式存储(Hbase等)
灵活支持单独扩展计算或者存储,响应快速扩缩容,满足物流业务的动态需求,还支持异构数据源交互分析以及离线数据和实时数据的联动查询。例如,DWD是对ODS层过滤的视图,DWS层是DWD层聚合层的宽表,当查询DWS层时需要将所有表重新查询。但 flashflow 可以轻松做到实时响应,实现毫秒级查询,节省系统调度资源,全面提升了查询的灵活性;
(3)flashflow与Data Mesh思想进行融合
一方面为物流业务自助数据需求响应能力提供了工具引擎;另一方面,也将人月级数据项目开发周期缩短至人日级,大大为物流企业节省投入成本与时间成本,从而让业务在市场变化中主动占领先机;
(4)收获实时的物流数据分析体系成果
实时数仓落地采用 datart+flashflow,整合相关物流系统的运输数据,将物流企业不同系统、不同数据库中进行数据整合,通过实时报表,实时大屏和构建仪表板进行统一数据可视化展现。
物流企业构建起强大的实时数仓有助于消除供应链效率低下,改善需求与供应的匹配度以及提高整个物流管理系统的可见性和连通性,将以前的手动流程转为自动化、实时化、智能化流程。
实时数仓让企业实现实时的揽收、库内可视化操作、中转调拨等实时报表、实时大屏,对物流业务运营提供了非常强有力的实时数据支撑,整体时效较此前大幅提升,也给用户带来更好的物流体验,最大程度地发挥其数据价值。