JVM暂停引发接口超时问题：深入排查与解决策略

版权申诉

194 浏览量更新于2024-08-07 收藏 973KB DOC 举报

在IT开发过程中，有时遇到接口偶尔超时的问题，这可能再次指向了JVM（Java Virtual Machine）停顿的影响。作者分享了一次经历，他们系统在解决了JVM长时间停顿问题后，服务仍出现短暂的499超时现象。通过细致的故障排查，他们发现这些问题与JVM的Safepoint暂停相关。首先，Safepoint是JVM进行垃圾回收（GC）时的一个关键点，此时会暂停所有应用程序线程，以确保数据一致性。当应用线程停止运行的时间过长，如文中所示，2022年5月8日的日志记录了在不同时间点，应用线程停止运行的总时间和停止线程所花费的时间，这些时间超过了1秒，表明有显著的性能瓶颈。日志中的"Totaltimeforwhichapplicationthreadswerestopped"和"Stoppingthreadstook"指标揭示了JVM暂停导致的性能损失。而"Safepoint.log"中的"vmop"部分提供了更详细的分析，比如G1 Incolllection Pause，这是一种由JVM执行的垃圾收集算法，它会在特定条件下暂停应用程序线程。在2022年5月8日的记录中，可以看到一个暂停事件，涉及4280个线程，且持续时间较长。结合这些信息，我们可以推断出问题可能源于以下几个方面： 1. **高并发和垃圾回收**：大量并发请求可能导致频繁的垃圾回收，特别是G1算法，其暂停时间较长，影响了服务的响应速度，从而引发接口超时。 2. **内存管理优化**：检查是否存在内存泄漏或内存分配不当，这可能会迫使JVM频繁触发垃圾回收，从而增加Safepoint暂停的频率。 3. **JVM配置**：确认JVM的设置是否恰当，比如堆大小、新生代和老年代的划分、并发级别等，调整参数可能有助于减少Safepoint暂停。 4. **代码性能分析**：检查应用程序中的热点代码或同步机制，可能在某些操作上阻塞了线程，增加了暂停时间。 5. **监控和预警**：实施更精细的性能监控，以便在Safepoint暂停发生时及时发现问题并采取措施，例如使用JConsole、VisualVM等工具。解决这类问题通常需要综合考虑硬件资源、软件配置和代码优化，通过调整策略和优化来提高JVM的并发处理效率，从而减少接口超时的发生。同时，持续关注和学习最新的JVM调优技术也是提升系统稳定性的重要手段。

接口偶尔超时，竟又是 JVM 停顿的锅！

原创：扣钉日记（ID：codelogs），欢迎分享，转载请保留出处。

简介

继上次我们 JVM 停顿十几秒的问题解决后，我们系统终于稳定了，再也不会无故重启了！

这是之前的文章：耗时几个月，终于找到了 JVM 停顿十几秒的原因

但有点奇怪的是，每隔一段时间，我们服务接口就会有一小波 499 超时，经过查看 gc 日

志，又发现 JVM 停顿了好几秒！

查看 safepoint 日志

有了上次 JVM 停顿排查经验后，我马上就检查了 gc 日志与 safepoint 日志，发现如下日

志：

$ cat gc-*.log | awk ‘/application threads were stopped/ && $(NF-6)>1’|tail

2022-05-08T16:40:53.886+0800: 78328.993: Total time for which application threads were

stopped: 9.4917471 seconds, Stopping threads took: 9.3473059 seconds

2022-05-08T17:40:32.574+0800: 81907.681: Total time for which application threads were

stopped: 3.9786219 seconds, Stopping threads took: 3.9038683 seconds

2022-05-08T17:41:00.063+0800: 81935.170: Total time for which application threads were

stopped: 1.2607608 seconds, Stopping threads took: 1.1258499 seconds

$ cat safepoint.log | awk ‘/vmop/{title=$0;getline;if($(NF-2)+$(NF-4)>1000){print title;print

$0}}’

vmop [threads: total initially_running wait_to_block]

[time: spin block sync cleanup vmop] page_trap_count

78319.500: G1IncCollectionPause [ 428 0

2 ] [ 0 9347 9347 7 137 ] 0

vmop [threads: total initially_running wait_to_block]

[time: spin block sync cleanup vmop] page_trap_count

81903.703: G1IncCollectionPause [ 428 0

4 ] [ 0 3903 3903 14 60 ] 0

vmop [threads: total initially_running wait_to_block]

[time: spin block sync cleanup vmop] page_trap_count

81933.906: G1IncCollectionPause [ 442 0

1 ] [ 0 1125 1125 8 126 ] 0

从日志上可以看到，JVM 停顿也是由 safepoint 导致的，而 safepoint 耗时主要在 block 阶

段！

下载后可阅读完整内容，剩余9页未读，立即下载

书博教育

粉丝: 1
资源: 2834

JVM暂停引发接口超时问题：深入排查与解决策略

20道面试官常问的JVM面试题！.zip

JVM的相关概念.doc

Android Studio 安装完后报错Failed to load JVM DLL....If you already have a 64-bit.

echo > jvm - portals.log

improperly specifed vm optionfailed to create jvm.jvm.path:d:\ideaindtall\in

-bash: /usr/lib/jvm/jdk11.0.22/bin/java: No such file or directory

Parameter specified as non-null is null: method kotlin.jvm.internal.Intrinsics.checkNotNullParameter, parameter favicon

java.lang.illegalaccesserror: method 'kotlin.jvm.functions.function1

最新资源