Kafka 是什么？-EW帮帮网

Kafka 是一个开源的分布式事件流处理平台。它最初由 LinkedIn 开发，后来捐赠给了 Apache 软件基金会，并用 Java 和 Scala 编写。 Kafka 的设计目标是为处理实时数据流提供一个统一的、高吞吐量、低延迟的平台。

从本质上讲，可以将 Kafka 理解为一个高度可靠且可扩展的“日志”或“记录簿”，用于记录在不同系统和应用程序之间发生的“事件”。

Kafka 主要具备三大核心能力：

Kafka 的架构围绕几个关键概念构建：

事件 (Event)： 事件是 Kafka 中最基本的数据单元，记录了发生过的事情。例如，一次用户点击、一个支付订单或者来自传感器的读数都可以是一个事件。
主题 (Topic)： 主题是事件的逻辑分组或类别。你可以把它想象成数据库中的一张表或者文件系统中的一个文件夹。生产者将事件发布到特定的主题，消费者则订阅这些主题来读取事件。
生产者 (Producer)： 生产者是创建并向 Kafka 主题发布事件的应用程序。
消费者 (Consumer)： 消费者是从 Kafka 主题订阅并处理事件的应用程序。
Broker： Kafka 集群由一个或多个服务器组成，这些服务器被称为 Broker。 Broker 负责接收来自生产者的消息，为消息分配偏移量，并将消息持久化到磁盘上。
分区 (Partition)： 为了实现可伸缩性，一个主题可以被分成多个分区。分区允许数据在多个 Broker 上进行水平扩展，从而实现更高的并行处理能力。
消费者组 (Consumer Group)： 多个消费者可以组成一个消费者组来共同消费一个主题。主题中的每个分区只能由组内的一个消费者来消费，这确保了消息被并行处理，提高了消费能力。

虽然 Kafka 可以像传统的消息队列（如 RabbitMQ 或 ActiveMQ）一样用于系统解耦和异步通信，但它们之间存在一些关键区别：

特性	Kafka	传统消息队列 (如 RabbitMQ)
模型	基于拉取 (Pull-based)，消费者主动从 Broker 拉取数据。	通常基于推送 (Push-based)，Broker 将消息推送给消费者。
消息保留	消息在消费后仍会持久化在主题中，可以被多个消费者或应用程序重复消费。	消息在被消费并确认后通常会被删除。
吞吐量	设计用于高吞吐量的场景，能够处理每秒数百万条消息。	吞吐量相对较低。
可伸缩性	通过分区机制实现出色的水平扩展能力。	扩展性相对有限。
适用场景	实时流处理、日志聚合、网站活动跟踪、大规模数据管道。	任务队列、后台作业处理、简单的事件分发。

凭借其高性能和可扩展性，Kafka 被广泛应用于各种场景，超过 80% 的财富 500 强公司都在使用它。常见的应用场景包括：

总而言之，Kafka 不仅仅是一个消息队列，它更是一个功能强大的分布式事件流平台，为构建数据驱动的实时应用程序提供了坚实的基础。

Kafka 是什么？