Kafka 分区、消费者与消费者组

Kafka架构示意图
（示意图：Kafka生产消费流程）

一、先搞懂Kafka分区机制

很多同学被问到"Kafka如何保证高吞吐"时只会说零拷贝，但分区机制才是真正的性能核心。举个例子：假设你的Topic有3个分区，这相当于开了3条并行的数据高速公路，消息会被均匀分散到不同分区。

分区的三大特性一定要背熟：

常见的面试坑点："为什么建议分区数是消费者数的整数倍？" 这个问题的本质是在问消费负载均衡策略。当消费者数量超过分区数时，多余的消费者会处于闲置状态，造成资源浪费。

消费者拉取消息示意图
（示意图：消费者与分区对应关系）

在实际面试中，经常会被问到这两个场景：

场景1：单个消费者订阅多分区怎么办？
正确答案是消费者会维护多个Socket连接，以轮询方式拉取各分区消息。但要注意当分区数过多时会产生"线程上下文切换开销"的问题。
场景2：消费者offset提交失败如何处理？
这里要区分自动提交和手动提交的区别。建议重点理解enable.auto.commit配置和commitSync/commitAsync的适用场景，考官最爱挖这个坑。

有个真实案例：某电商系统在618大促时出现重复消费，根本原因就是消费者配置了自动提交offset，但处理消息时抛异常导致提交失败。恢复后从上次提交的offset重新消费，产生重复订单。

消费者组（Consumer Group）是Kafka最精妙的设计之一，需要掌握三个核心知识点：

重平衡（Rebalance）机制
这是面试必问题！重点解释触发条件（新消费者加入/旧消费者掉线/订阅Topic变化/分区数变化），以及新版Eager Rebalance和Static Membership优化。
消费进度监控
不要只说用kafka-consumer-groups.sh查看lag，资深工程师会提到通过JMX监控records-lag-max指标，或者使用Burrow等监控系统。
消费并行度控制
这里涉及两个关键公式：
- 最大并行度 = 分区数
- 最佳消费者数 = 分区数 / 单消费者吞吐量