我把数据复盘了一遍：91在线越用越顺的秘密：先把缓存管理做对

V5IfhMOK8g

2026-03-05

阅读 27

前言我最近对 91 在线的运营数据做了全面复盘，结论比直觉更靠得住：当用户体验在高并发下出现波动，大多数情况下并不是网络或前端“突然坏掉”，而是缓存策略没跟着业务走。把缓存管理做对，用户遇到的延迟、错误和资源浪费都会显著下降。下面把我们的复盘过程、关键策略和落地清单分享给你，方便立刻投入改造。

一、先看数据：症状与根因定位通过日志、指标和链路追踪，我主要观察到这些信号：

P95 响应时间在峰值时段从 300ms 升到 1.2s，P50 相对稳定。
数据库 QPS 峰值上涨 2.5 倍，慢查询和锁等待增多。
缓存（Redis）命中率下滑，缓存穿透/击穿事件在高并发触发。
内存和网络带宽使用爆发，出现频繁 OOM/Eviction。

复盘结论：热点数据、短 TTL、缺乏统一的 key 设计和防击穿机制导致后端被洪水般的请求“轰炸”。要降本提速，先把缓存管理做对。

二、缓存策略的四大核心

1) 分层缓存与职责清晰

CDN / 边缘缓存：静态资源和可公开缓存的 API（冷数据、非强一致）放到靠近用户的位置，减少跨域延迟。
反向代理（Nginx/Varnish）：做短时缓存、压缩与路由优先级控制。
分布式缓存（Redis/Memcached）：存储业务热点、会话、聚合结果。
本地进程缓存：用于极短期、超高频访问（比如同一请求内重复计算）。

2) 设计可复用且稳定的 Cache Key

使用业务语义化前缀：e.g., user:profile:v2:{userId}
把版本号纳入 key（v2、v3），避免复杂的逐条失效。
避免用时间戳或随机数作为 key 的一部分，除非刻意做过期单独控制。

3) TTL 与一致性策略

对于读取频繁但可接受短期不一致的数据，采用较长 TTL（分钟到小时）。
对实时性要求高的业务（支付、余额），走强一致或采用写穿/双写策略，不把关键数据完全依赖缓存。
使用“stale-while-revalidate”模式：当缓存接近过期，继续返回旧值并异步刷新，保证响应稳定。

4) 防止缓存击穿与雪崩

缓存击穿（单 key 突然失效）：使用分布式锁或 singleflight（请求合并）让只有一条请求落到后端。
缓存穿透（恶意或异常查询大量不存在 key）：使用 Bloom filter 或参数校验拒绝非法请求。
缓存雪崩（大量 key 同时过期）：采用 TTL 抖动（在 TTL 上加上随机偏移），分散失效时间窗。

三、落地实现的实用技术点

单点缓存刷新控制：Redis SETNX + 过期，或使用 Redlock 做短时刷新锁，避免并发刷新。
Probabilistic early expiration（概率性提前刷新）：当剩余 TTL 小于阈值时，以一定概率触发刷新，减轻集中刷新压力。
缓存预热（warming）：在发布或流量激增前，批量预加载关键热点到缓存，避免冷启动造成的流量冲击。
大值分块与压缩：超大对象拆分或压缩存储，避免单 key 导致内存占用突增。
Cache metrics：记录 hit/miss、latency、evictions、key-count、memory-usage，设置报警阈值。

四、观测与验证：数据驱动改进复盘中我们做了几轮小规模实验：

基线：命中率 ~ 62%，DB QPS 峰值高。
改进一（优化 key+增加 TTL 抖动）：命中率升至 78%，P95 从 1.2s 降到 600ms。
改进二（加入 singleflight 与预热）：命中率 92%，DB QPS 降 70%，P95 稳定在 180–250ms。这些数据来自 A/B 测试与流量分环实验，能直接量化收益。

五、发布前的检查清单（快速落地）

列出候选缓存对象，标注可缓存性、TTL 建议与一致性要求。
设计统一 key 规范并写进代码规范中。
为可能的热点准备预热脚本与单点刷新逻辑。
实装防穿透（参数校验或 Bloom filter）。
在 Redis 配置合适的 maxmemory-policy（通常选择 volatile-lru 或 allkeys-lru 视场景）。
建仪表盘：hit/miss、evictions、memory、DB QPS、P95 latency，并设置报警。
先在小流量或者灰度环境跑 24–72 小时，再逐步放量。

六、常见误区

把所有东西都缓存：这会导致一致性复杂度暴增。分级、分类型决策更靠谱。
把 TTL 设得过短以“保证新鲜度”：结果是命中率低、后端压力大，恶性循环。
只依赖 LRU 而不控制 key 生成：热点 key 会把其他有价值的数据挤出缓存。

结语复盘教会我们的不是单点优化，而是把缓存当成一套可管理的策略体系：分层、数据驱动、容错与监控并重。91 在线在把缓存管理做对之后，不仅响应速度和稳定性有了显著提升，运维成本和后端资源压力也大幅下降。如果你正为高并发下的体验波动头疼，从缓存策略开始着手，会获得立竿见影的改善。欢迎把你的场景发过来，我们可以一起看哪些缓存策略最合适你当前的痛点。