目录
5. 高可用配置:让Checkpoint和Savepoint更可靠
6. 监控Checkpoint与Savepoint:让问题无处遁形
6.2 集成外部监控:Prometheus + Grafana
16. 复杂场景案例:金融实时风控系统的Checkpoint与Savepoint实践
1. 为什么需要Checkpoint和Savepoint?
在分布式流处理的世界里,Flink以其强大的容错机制和低延迟处理能力脱颖而出。但再强大的系统,也得面对服务器宕机、网络抖动、甚至是程序员手一抖删错代码的尴尬场景。Checkpoint和Savepoint就是Flink的“救命稻草”,它们让你的作业在面对意外时能优雅地“死而复生”,而不是直接“game over”。
Checkpoint是Flink的自动容错机制,定期为你的作业状态拍个“快照”,保存在外部存储(如HDFS、S3)。一旦作业失败,Flink会从最近的Checkpoint恢复,尽量减少数据丢失。Savepoint则是手动触发的“存档点”,更像游戏里的“手动存档”,适合计划性操作,比如版本升级或集群迁移。
关键区别:Checkpoint是系统自动触发,偏向故