Toco x Databend:Databend Cloud 如何满足 Web3 大数据服务的严苛考验?

发布于:2024-06-30 ⋅ 阅读:(13) ⋅ 点赞:(0)

Toco 是一家位于瑞士的 Web3 服务提供商,致力于通过彻底改变全球金融体系的陈旧观念来应对气候变化。他们提供了一种开创性的碳货币 Tocos,每个流通中的 Tocos 代表一吨二氧化碳当量,存储在安全可靠的数字钱包中。用户可以使用 Tocos 应用轻松地将当地货币兑换为 Tocos,然后使用 Tocos 消费、储蓄或交易。每次用户使用 Tocos 进行日常交易时,都在通过推动对更多碳去除的需求来采取积极的气候行动。

业务挑战

目前,Toco 正在慢慢向欧洲扩张,已经开始进入多个国家。在整个行业进入快速增长的背景下,Toco 预计在未来的几个月中会面临较大的增长挑战。而对其技术团队而言,当其市场营销推广不断拓展时,对数据基础设施的考验才真正开始。营销团队想把所有东西都变成数据,以各种方式展现在人们的眼前。

因此,Toco 对大数据和分析平台的要求非常高,他们以数据为核心资产,并要求数据技术栈要具备模块化、自由扩展和变化的能力。Toco 想要的数据库,是一个可以访问 S3 Bucket,也可以使用不同工具从 S3 Bucket 中读取文件的数据库。同时,Toco 还希望这个数据库是一个计算、存储分离的架构,具备真正的灵活性和模块化。这样一来,Toco 对数据库选型的范围就缩小到了极少数。

为什么选择 Databend Cloud?

Databend Cloud 凭借着优秀的存储、计算分离架构和以下功能特点顺利进入了 Toco 的选型:

  1. Databend Cloud 借鉴了 Snowflake 的集群优点,以增强分布式计算能力。Databend Cloud 与 Snowflake 在体验上基本没有任何改变,这对 Toco 而言是极具吸引力的一点。但 Databend Cloud 在资源精细化调度、资源利用率方面都优于 Snowflake,成本也更低;
  2. Databend Cloud 具有业界领先的向量化计算引擎,所有算子都已经实现了向量化,大幅提升单机计算性能和分布式集群能力;
  3. Databend Cloud 完全基于对象存储设计,支持 HDFS、Amazon S3, Azure Blob, OSS, COS 等 20 多种对象存储协议。在对象存储上,真正实现了存储、计算分离,资源控制粒度更细。计算节点可以根据需求弹性扩展,而不受存储容量限制。Databend Cloud 还内置了 Stream(CDC)+ Task 流式运算及任务调度,可以实现流批一体化方案;
  4. Databend Cloud 提供对 STAGE 的原生支持。STAGE 是 Databend Cloud 数据流转的核心,用户可以从 STAGE 中加载数据和向 STAGE 中导出数据,还可以直接在 STAGE 中进行数据查询。用户只需要为 Databend Cloud 创建一个包含数据文件的 STAGE,就可以轻松进行数据查询,无需编写复杂的建表语句或繁琐的数据导入流程。在实际操作中, STAGE 向 Table 流转也非常简单。

Toco 技术负责人表示:“Toco 是一家正在成长中的公司,对大数据和数据分析平台要求非常高,Databend Cloud 基于对象存储设计,在低成本、高性能的同时还提供了完整灵活的数据处理流程,没有多少工具能够提供这样的便利性。”

解决方案

目前,Toco 将 Databend Cloud 作为主要的分析数据库来满足当前需求。应用主要分为几个阶段:

第一阶段:数据获取及处理

这一阶段,Toco 主要从应用程序的 API 和市场营销活动网页中获取数据,然后利用 Mage orchestration 来管理这些数据处理流程。Orchestration 会对端点的多个请求进行协调,以收集数据。然后将其向前推送到 S3 Bucket,Databend 从 S3 Bucket 中读取数据。Toco 还会在数据库中运行 DBT 流程,以转换和准备数据,这构成了一个非常强大的数据仓库。 

第二阶段:数据访问及展示

一旦数据准备好供客户使用,Toco 会通过 Superset 将处理过的表数据推送给客户。对于内部用户,Toco 会提供访问公共的 Superset Dashboard 权限,用户可以直接连接 Databend Cloud 并读取数据。公众也可以通过 Superset 面板访问某些数据。

这种结构化的方式确保了内部和外部客户都能以无缝、高效的方式访问必要的数据,但这个过程还缺乏自动化的流程,Toco 技术团队计划完善和扩展这些流程,以满足未来的需要。

由于平时的广告营销活动并没有存储所有数据,比如 PostgreSQL 和 MongoDB 数据库中的表数据。API 的方式很难满足需求,下一阶段,Toco 决定采用 Airbyte(Airbyte 是一种开源数据集成软件,会将应用程序、API和数据库中的数据同步到数据仓库、数据湖和其他目的地) 替代 API 获取数据,以自动化的方式自动创建源表和 S3 Bucket。开发人员对数据库的任何更改都会自动出现在源表上。

未来探索

目前,Toco 在使用 Databend Cloud 作为其分析数据库后,一切运行平稳顺畅,基本没遇到过什么问题。当后期营销越来越多时,可能会面临用户量激增的局面,届时 Toco 需要做“battle test”,在生产环境中检测系统的稳定性。

同时,Toco 计划把一些数据从 Databend Cloud 推送到用户的 API 端,然后使用 Airbyte 和 CDC ,做实时数据流分析的探索。这部分数据将主要提供给营销人员使用,例如实时确定客户的细分画像,这要求数据库具备准实时的数据分析能力,Databend Cloud 可以提供近实时数据分析,为业务提供时效性更强的业务决策支撑,帮助 Toco 应对日益增长的业务需求。