一、介绍
Kafka是由 Apache 软件基金会开发的开源流处理平台,作为高吞吐量的分布式发布订阅消息系统,采用 Scala 和 Java 编写。
Kafka是一种消息服务(MQ),在理论上可以达到十万的并发。
代表的MQ软件——
kafka 十万并发
RocketMa 百万并发
rabbitMQ 十万并发
zeroMQ 百万并发
二、术语解释
1.Producer(生产者)
- 负责将消息发送到 Kafka 集群的进程;
- 根据消息的 Key 或分区策略,将消息路由到对应 Topic 的分区;
- 支持异步批量发送,提升吞吐量。
2.Consumer(消费者)
- 从 Kafka 集群订阅并处理消息的进程;
- 通过消费者组(Consumer Group)实现负载均衡,同一组内的消费者竞争消费分区消息;
- 通过手动提交偏移量(Offset)精确控制消费进度。
3.Broker(消息服务器)
- Kafka 集群的核心节点,负责存储、管理消息;
- 每个 Topic 被划分为多个分区(Partition),Broker 管理分区的分配、复制和故障转移;
- 支持水平扩展,通过添加节点提升集群容量和性能。
4.Topic(主题)
- 消息的逻辑分组,按业务模块划分;
- 物理上由多个分区组成,消息按追加模式写入分区日志;
- 支持多生产者写入和多消费者组订阅。
5.Partition(分区)
- Topic 的物理分片,每个分区是有序的、不可变的消息日志;
- 单个分区内的消息严格有序,不同分区间消息顺序无关;
- 通过多分区并行读写,提升消息处理吞吐量。
三、作用
用来处理消费者在网站中的所有动作流数据,就是在分布式业务环境,实现不同组件、不同的功能模块的高效通信。
四、优点
1、解耦:允许我们独立的扩展或修改列两边的处理过程;
2、扩展性: 因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的,只要另外增加处理过程即可;
3、流量削峰:高流量的时候,使用消息队列作为中间件可以将流量的高峰保存在消息队列中,从而防止了系统的高请求,减轻服务器的请求处理压力;
4、可恢复性:即使一个处理消息的进程挂掉,加入队列中的消息仍可以在系统恢复后被处理;
5、顺序保证: 在大多使用场景下,数据处理的顺序都很重要。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性;
6、缓冲:有助于解决生产消息和消费消息的处理速度不一致的情况;
7、异步通信:消息队列允许用户把消息放入队列但不立即处理它。
(解耦是降低系统组件间依赖,使其独立运行、灵活扩展的设计方法,常见于消息队列、微服务等场景,可提升系统灵活性与可靠性)
(Partition是分区,在Kafka工作过程中,生产者将消息发送到特定Topic主题中,消费者通过订阅Topic 获取消息,而每个Topic可分为多个分区,分区是Topic的物理分片,如下图所示)
(Kafka设定Topic主题这一概念就是为了确保消息的有序性的,就是确保消息的顺序的)
五、观察者模式
(1)描述
观察者模式(Observer),又叫发布-订阅模式(Publish/Subscribe)
(2)依赖关系
定义对象间一种一对多的依赖关系,使得每当一个对象改变状态,则所有依赖于它的对象都会得到通知并自动更新,一个对象(目标对象)的状态发生改变,所有的依赖对象(观察者对象)都将得到通知。
六、生产者消费者模式
(1)介绍
生产者消费者模式——
即N个线程进行生产,同时N个线程进行消费,两种角色通过内存缓冲区进行通信
生产者——
负责向缓冲区里面添加数据单元
消费者——
负责从缓冲区里面取出数据单元
(2)与传统模式的比较
传统模式——
生产者直接将消息传递给指定的消费者;
耦合性特别高,当生产者或者消费者发生变化,都需要重写业务逻辑。
生产者消费者模式——
通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列(通过FIFO以及阻塞机制来实现)来进行通讯。
(3)数据传递流程
生产者将生产好的数据以数据单元的格式放入缓存区,之后消费者从缓冲区中取出数据单元,而且整个过程一般遵循FIFO先进先出原则,支持多并发。
七、缓冲区
(1)解耦
假设生产者和消费者分别是两个类。如果让生产者直接调用消费者的某个方法,那么生产者对于消费者就会产生依赖,所以缓冲区通过中间容器切断生产者与消费者的直接联系,实现代码、执行流程、故障和扩展的全面解耦,以支持异步处理,增强系统灵活性和可靠性
(2)支持并发
生产者直接同步调用消费者方法时,若消费者处理缓慢会导致生产者阻塞。通过缓冲区的异步处理机制解耦生产与消费流程,允许多线程 / 进程并行读写,结合线程安全保障操作原子性,并通过流量控制实现流量削峰,显著提升系统吞吐量和资源利用率。
(3)支持忙闲不均
缓冲区还有另一个好处。如果制造数据的速度时快时慢,缓冲区的好处就体现出来了,当数据制造快的时候,消费者来不及处理,未处理的数据可以暂时存在缓冲区中,等生产者的制造速度慢下来,消费者再慢慢处理掉。
八、消息系统的核心原理
(1)点对点消息传递
在点对点消息系统中,消息持久化到一个队列中,此时将有一个或多个消费者消费队列中的数据,但是一条消息只能被消费一次,当一个消费者消费了队列中的某条数据之后,该条数据则从消息队列中删除,该模式即使有多个消费者同时消费数据,也能保证数据处理的顺序,基于推送模型的消息系统,由消息代理记录消费状态,消息代理将消息推送(push)到消费者后,标记这条消息为已经被消费,但是这种方式无法很好地保证消费的处理语义。
(2)发布订阅消息传递
在发布-订阅消息系统中,消息被持久化到一个topic(主题)中,消费者可以订阅一个或多个topic,消费者可以消费该topic中所有的数据,同一条数据可以被多个消费者消费,数据被消费后不会立马删除,在发布-订阅消息系统中,消息的生产者被称为发布者,消费者被称为订阅者,Kafka 采取拉取模型(Pol),由自己控制消费速度,消费者可以按照任意的偏移量进行消费。
(点对点模型就好比那邮递员按顺序送信,一封信只能被一个收件人收取,且按发送顺序到达邮箱;而发布订阅模型就类似广播,一条消息被所有人接收,只是顺序可能不一致)
九、消息确认机制
(1)介绍
Kafka 通过消费者手动提交偏移量(Offset)来实现消息确认。
当product发送消息后,leader(主)将消息同步给follower(从),然后返回ack给producter,表示消息已经收到了,此时才可以继续发送下一条消息。
Kafka提供了以下三种ack级别(就是下面的可靠性语义)——
0(异步):leader接受到了消息马上返回ack,此时可能还没有写入磁盘,可能丢失数据。
1(半同步):leader将消息写入磁盘后,马上返回ack,此时可能还没有同步follower,同样可能丢失数据。
-1(all)(同步):leader和follower都将数据写入磁盘后,返回ack。但是如果在写入磁盘后,ack尚未发送,此时leader发生了故障,会导致数据写入重复。
(这三个就是,0先不向从服务器保持同步,直接返回ack确认;1是只要有一台从服务器同步了,就直接返回ack确认;而-1是确保所有的从服务器同步完成后才返回ack确认)
(2)确认流程
消费者从分区拉取消息并处理;
处理完成后,消费者向Kafka提交已处理消息的偏移量;
Kafka记录偏移量,作为消息 “已确认” 的依据。
(3)可靠性语义
至少一次(At-Least-Once):先处理消息再提交,确保消息不丢失(可能重复)
最多一次(At-Most-Once):先提交再处理,避免重复(可能丢失)
(4)优缺点
优点——
精确控制:消费者手动提交偏移量,确保消息处理完成后确认,保障数据一致性;
灵活语义:支持防丢失、防重复的不同功能,适配不同可靠性需求;
异步批量优化:批量提交减少交互次数,提升吞吐量;
高可用性:消费者组内实例独立管理偏移量,故障不影响其他实例。
缺点——
开发难度大:需手动管理偏移量提交逻辑,处理异常场景,易引入bug;
数据风险高:至少一次语义可能导致消息重复,最多一次语义有消息丢失风险;
运维成本高:偏移量存储在内部主题,需额外维护分区和副本;
可见性受影响:延迟确认会使消息未及时标记为已消费,影响可见性。
十、副本机制
就是Kafka接收到消息(数据)会为之创建对应的副本,确保整个服务的高可用性和数据冗余。