下秒数据李元佳:湖仓一体带来现代数据栈变革

发布于:2023-01-14 ⋅ 阅读:(381) ⋅ 点赞:(0)

下秒数据李元佳:湖仓一体带来现代数据栈变革

2022年7月12日,在CSDN云原生系列在线峰会第13期“现代数据栈峰会”上,下秒数据联合创始人李元佳分享了现代数据栈的发展现状。下秒数据是一家云原生数据集成平台公司,于2022年5月获得银杏谷资本的天使轮投资。

               1

传统数据架构及问题

受存储成本及计算能力的限制,传统数据架构在处理数据时主要采用分段进行。

数据集成部分主要是采用Oracle及HBase等做ODS;

数据仓库对处理查询的复杂性及性能具有高要求,一般使用MPP或Teradata等计算能力较强、能够实现复杂查询的数据库进行操作处理;

对外提供服务时存在高并发场景,通常采用相对主流的关系型数据库进行处理。

传统数据架构的分段处理方式会使数据应用中产生非常多的问题,架构及链路的复杂性使得前端在想要修改应用指标时,需要回溯整个数据源,不但反应慢且会衍生出更多问题。

对此,银杏谷资本虞扬曾这样分析:“我们从2015年开始投资布局DT,助力政务的数字化和企业的数字化。过程中我们看到,传统大数据项目的建设成本高且周期长,总成本在大几百万元,需要数据科学家、ETL工程师、数据建模人员、数据分析师、业务人员等多方深度参与,但取得的效果甚微。问题的核心是传统大数据平台的技术栈过于耦合,缺乏数据接口的开放性,对客户原本的系统架构过于侵入式,导致每期项目只能针对某个具体应用场景,把客户的业务knowhow融入到平台中,形成一套端到端的解决方案交付给客户,最终必定造成难以产品化。而当计算范式从本地转移到云端后,大数据赛道才能真正进入主战场。”

2

现代数据栈

近年来,云原生对数据处理的架构造成了很大的冲击。云所具有的存储成本低、计算性能高等优势为数据架构的发展提供了新的可能性,现代数据栈(Modern Data Stack,MDS)的生态正在形成。

数据存储及计算:Lakehouse架构

围绕以云原生为主体的数仓,可以衍生出新的数据处理模式和工程实践方式,从而构建成一个全新的现代数据栈。其最核心的驱动力在于数据存储架构,传统ODS数仓的数据存储成本高、处理效率相对较低,所以会分几个框架对数据进行分段处理。

因为云原生的扩展性及计算能力都非常强,所以对于数据来说,无论是生产集成、预处理或是模型抽取,都可以放在同一个大的数仓体系中去做,形成湖仓一体的架构。

湖仓一体架构具有很大的优势:

底层的数据基础设施变得简单,现代数据栈将复杂组件统一到一个整体架构中;

处理性能得到提高,使得数据处理模式会发生很大变化;

灵活性得到提高,较强的计算能力允许处理后置。

在现代数据栈中,存储和计算架构向湖仓一体的演进趋势,为下一阶段的数据集成处理及数据应用带来了更多可能性。

数据集成:从ETL架构转向ELT架构

传统ETL的设计分为三部分,首先从各个不同的数据源中抽取数据到ODS,随后做数据的清洗和转换,最后写入数仓之中。

从整个链路的角度来看,传统架构将大量业务逻辑预置到ETL过程中,这会导致ETL对业务变化的响应灵活性变差,同时由于很多业务代码被固化在ETL流程中,其可重用性和可维护性都较差。

湖仓一体的整体架构能够大幅提高计算能力,从而将带有业务逻辑计算的指标后置、可重用计算逻辑前置,整体链路流程从ETL处理架构演进成为ELT。

数据处理:SQL的模块化处理

传统ETL处理过程中,SQL处理模式难以管理及重用。SQL多数会通过成百上千行的代码来实现业务逻辑,同时会嵌入大量表名或字段名,ETL的处理逻辑难以被重用。同时,ETL过程中大部分数据处理模式是高度个性化的,这会导致数据处理相对低效和困难。

湖仓一体架构为SQL的处理模式带来了很大的灵活性,带来与JavaScript和No Json类似的可以被定义为可重用模块从而实现持续集成及发布的新趋势。同时,中间过程也可以实现对于每一个模块或处理逻辑进行回归测试及文档处理,为数据处理带来数据工程化的可能。

DataOps:数据处理的工程化和敏捷化发展

湖仓一体架构在数据集成和数据转换方面,带来了灵活性和新模式,同时衍生出整体链路的可观测性,可以检测当前数据链路的状态及性能情况。

当前的数据处理都在向着工程化、敏捷化发展。DataOps是最新、最先进的数据管理方法,可以将组织中的技术和流程整合在一起,同时将它们与业务流程和原则相融合,以实现数据的管理和组织的自动化。同时能够促进数据使用的安全,提高数据使用的质量和效率。

数据应用:自动化和标准化

数据的前端应用方面,也发生了极大变化。现在的解决方案中,指标层和使用消费它的BI系统的紧耦合限制了指标数据在更多应用场景发挥价值。

如果能够将指标层和BI解耦开,打造出Single Source of Truth的指标层,那么各类下游系统数据消费的时候,就可以达到真正的口径统一。如下图所示,不同系统都能拿到统一一致的Revenue指标。

当前,新的概念被提出:Headless BI,无头BI实现了砍掉BI的“头”(报表可视化),只保留指标层,其通过提供各类消费接口,满足企业内丰富的消费场景。

“围绕云原生为底座的大数据技术栈,把私有化的大数据平台进行了架构的拆解重构,技术组件松耦合化,让大数据程序具备高度的可扩展性、足够的自动化、数据接口的开放性、SQL first,大幅降低了传统大数据平台的复杂性。在云原生大数据栈中,客户可以根据自己的实际业务需要,把松耦合的任意一块数据能力集成到自己的业务中。以上提到的各个趋势我们都有投资布局。在数据存储环节,我们投资了一家云原生数仓公司来解决大数据在云上的存储问题;在数据集成环节,我们投资了下秒数据来解决数据源的问题;在数据应用环节,我们投资了一家自动化数据探索公司来解决数据分析的易用性问题。”银杏谷资本虞扬道。

小结

现代数据栈(Modern Data Stack)是与数据分析相关的技术栈,具有云原生的特性,对比传统的数据平台,使用它可以大大降低复杂度。

现代数据栈变成一个热门话题的时间并不是很长,但这无疑代表了一个趋势。当前我们国家也在大力提数字化转型和升级,而数字化最重要的是要普惠到更多的中小型企业,而不仅仅是巨鳄才能享受,而现代数据栈正是把数据技术普惠到更多中小型企业的一个生态系统。