时间:凌晨2:15
监控指标:
故障定位三板斧:
bashCopy Code
# 快速捕获线程状态
thread --all > thread_dump.log
# 统计阻塞线程
cat thread_dump.log | grep "BLOCKED" | awk '{print $2}' | sort | uniq -c
发现OrderService的库存校验方法有128个线程卡在synchronized锁竞争。
sqlCopy Code
# 实时捕获执行计划
EXPLAIN ANALYZE
SELECT * FROM order_items
WHERE sku_id IN (...5000个参数...);
问题暴露:全表扫描 + 临时表排序,单查询耗时8.3秒。
bashCopy Code
# 百万QPS场景终极配置(64核/256G物理机)
-XX:+UseG1GC
-XX:G1HeapRegionSize=16m # 匹配订单DTO对象平均大小12.8MB
-XX:MaxGCPauseMillis=150 # 平衡吞吐量与延迟
-XX:G1NewSizePercent=45 # 根据Eden区对象存活时间调整
-XX:G1MaxNewSizePercent=70
-XX:InitiatingHeapOccupancyPercent=40 # 提前触发混合GC
-XX:G1MixedGCLiveThresholdPercent=88 # 严格筛选回收区域
-XX:G1HeapWastePercent=5 # 控制碎片率
-XX:G1OldCSetRegionThresholdPercent=15 # 老年代回收比例
bashCopy Code
# 超低延迟场景配置(适用于金融交易系统)
-XX:+UseZGC
-XX:ZAllocationSpikeTolerance=5.0 # 容忍突发内存分配
-XX:ZCollectionInterval=300 # 主动GC周期(秒)
-XX:ZProactive # 启用预测性GC
-XX:ZUncommitDelay=300 # 内存归还延迟
javaCopy Code
// 基于QPS的自动扩缩容算法(核心代码片段)
public void adjustPool(ThreadPoolExecutor executor) {
double loadFactor = executor.getActiveCount() / (double)executor.getMaximumPoolSize();
long avgWaitTime = getQueueAvgWaitTime(); // 自定义监控方法
if (loadFactor > 0.8 && avgWaitTime > 1000) {
int newMax = Math.min(executor.getMaximumPoolSize() * 2, absoluteMax);
executor.setMaximumPoolSize(newMax);
log.warn("线程池扩容至 {}", newMax);
} else if (loadFactor < 0.3 && avgWaitTime < 50) {
int newMax = Math.max(executor.getCorePoolSize(), (int)(executor.getMaximumPoolSize() * 0.7));
executor.setMaximumPoolSize(newMax);
log.info("线程池缩容至 {}", newMax);
}
}
问题:每秒超过50万次的MDC日志参数传递导致性能损耗。
解决方案:
javaCopy Code
// 自定义线程池包装器(减少ThreadLocal复制)
public class MdcThreadPool extends ThreadPoolTaskExecutor {
@Override
public void execute(Runnable task) {
Map context = MDC.getCopyOfContextMap();
super.execute(() -> {
if (context != null) MDC.setContextMap(context);
try {
task.run();
} finally {
MDC.clear();
}
});
}
}
效果:线程切换耗时降低62%。
慢SQL原罪:
sqlCopy Code
SELECT * FROM orders
WHERE shop_id = 123
AND create_date > '2023-01-01'
ORDER BY customer_id LIMIT 100000,10;
优化方案:
sqlCopy Code
ALTER TABLE orders ADD INDEX idx_shop_customer_date
(shop_id, customer_id, create_date);
# 改写查询语句
SELECT * FROM orders
WHERE shop_id = 123
AND customer_id >= (SELECT customer_id FROM orders WHERE shop_id=123 ORDER BY customer_id LIMIT 100000,1)
ORDER BY customer_id
LIMIT 10;
效果:执行时间从12秒→27毫秒。
方案 | TPS上限 | 适用场景 | 风险点 |
XA协议 | 1500 | 强一致性要求 | 死锁检测复杂 |
TCC补偿 | 8500 | 长事务业务 | 补偿逻辑难实现 |
本地消息表 | 12000 | 最终一致性 | 消息积压风险 |
SAGA模式 | 20000 | 复杂业务流程 | 调试难度高 |
javaCopy Code
// 电商商品详情缓存配置
LoadingCache cache = Caffeine.newBuilder()
.maximumSize(20_000) // 基于条目数限制
.weigher((String key, ProductDetail pd) -> pd.getImages().size() + 2) // 自定义权重
.expireAfterAccess(30, TimeUnit.MINUTES)
.refreshAfterWrite(5, TimeUnit.MINUTES) // 异步刷新
.recordStats()
.build(key -> {
ProductDetail pd = redis.get(key);
if (pd == null) pd = db.load(key);
return pd;
});
javaCopy Code
// 基于版本号的多级缓存更新策略
public void updateProduct(Product product) {
// 1. 更新数据库
db.update(product);
// 2. 生成新版本号
long newVersion = System.currentTimeMillis();
// 3. 两级缓存更新顺序
redis.set(product.getId(), product, newVersion); // Redis带版本号
localCache.invalidate(product.getId()); // 本地缓存立即失效
// 4. 异步广播通知其他节点
mq.sendVersionUpdate(product.getId(), newVersion);
}
故障类型 | 注入方式 | 防御验证指标 |
网络分区 | iptables -A INPUT -p tcp --dport 6379 -j DROP | 集群自动切换耗时 < 3s |
CPU爆满 | stress -c 32 --timeout 300 | 线程池拒绝请求数 < 100/秒 |
磁盘IO夯死 | dd if=/dev/zero of=/test.img bs=512M count=4 | 日志写入延迟 < 500ms |
压测指标:
textCopy Code
QPS:1,234,567
TPS:987,654
平均RT:23ms
P99延迟:178ms
错误率:0.0003%
资源消耗:
节点类型 | CPU使用率 | 内存占用 | 网络吞吐 |
应用服务器 | 68% | 72G/128G | 1.2Gbps |
Redis集群 | 41% | 48G/64G | 890Mbps |
数据库 | 63% | 156G/256G | 680Mbps |
附录:工具链全家福
更新时间:2025-06-28
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302035593号