diff --git a/alert-rules.md b/alert-rules.md index 18065dd1e592..205d13a2bf48 100644 --- a/alert-rules.md +++ b/alert-rules.md @@ -425,8 +425,10 @@ aliases: ['/docs-cn/dev/alert-rules/','/docs-cn/dev/reference/alert-rules/'] * 处理方法: - * 检查 store 性能是否异常 - * 调大 TiKV `raftstore.inspect-interval` 参数,提高延迟检测的超时上限 + * 观察 [**TiKV-Details** > **PD** 面板](/grafana-tikv-dashboard.md#pd),查看 Store Slow Score 监控指标,找出指标数值超过 80 的节点,该节点即为被检测到的慢节点。 + * 观察 [**TiKV-Details** > **Raft IO** 面板](/grafana-tikv-dashboard.md#raft-io),查看延迟是否升高。如果延迟很高,表明磁盘可能存在瓶颈。 + * 调大 TiKV [`raftstore.inspect-interval`](/tikv-configuration-file.md#inspect-interval) 参数,提高延迟检测的超时上限。 + * 如果需要进一步分析报警的 TiKV 节点的性能问题,找到优化方法,可以参考[性能分析和优化方法](/performance-tuning-methods.md#storage-async-write-durationstore-duration-和-apply-duration)。 ## TiKV 报警规则 @@ -494,9 +496,9 @@ aliases: ['/docs-cn/dev/alert-rules/','/docs-cn/dev/reference/alert-rules/'] * 处理方法: - 1. 观察 Raft Propose 监控,看这个报警的 TiKV 节点是否明显有比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。 - 2. 观察 Raft IO 监控,看延迟是否升高。如果延迟很高,表明磁盘可能有瓶颈。一个能缓解但不怎么安全的办法是将 `sync-log` 改成 `false`。 - 3. 观察 Raft Process 监控,看 tick duration 是否很高。如果是,需要在 `[raftstore]` 配置下加上 `raft-base-tick-interval = “2s”`。 + 1. 观察 [**TiKV-Details** > **Raft Propose** 面板](/grafana-tikv-dashboard.md#raft-propose),查看这个报警的 TiKV 节点是否明显比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。 + 2. 观察 [**TiKV-Details** > **Raft IO** 面板](/grafana-tikv-dashboard.md#raft-io),查看延迟是否升高。如果延迟很高,表明磁盘可能存在瓶颈。 + 3. 观察 [**TiKV-Details** > **Raft process** 面板](/grafana-tikv-dashboard.md#raft-process),关注 `tick duration` 是否很高。如果是,需要将 TiKV 配置项 [`raftstore.raft-base-tick-interval`](/tikv-configuration-file.md#raft-base-tick-interval) 设置为 `"2s"`。 #### `TiKV_write_stall` @@ -550,8 +552,9 @@ aliases: ['/docs-cn/dev/alert-rules/','/docs-cn/dev/reference/alert-rules/'] * 处理方法: - 1. 检查 Raftstore 上的压力,参考 [`TiKV_channel_full_total`](#tikv_channel_full_total) 的处理方法。 - 2. 检查 apply worker 线程的压力。 + 1. 观察 [**TiKV-Details** > **Raft propose** 面板](/grafana-tikv-dashboard.md#raft-propose),查看这个报警的 TiKV 节点的 **99% Propose wait duration per server** 是否明显比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。 + 2. 观察 [**TiKV-Details** > **Raft IO** 面板](/grafana-tikv-dashboard.md#raft-io),查看延迟是否升高。如果延迟很高,表明磁盘可能存在瓶颈。 + 3. 如果需要进一步分析报警的 TiKV 节点的性能问题,找到优化方法,可以参考[性能分析和优化方法](/performance-tuning-methods.md#storage-async-write-durationstore-duration-和-apply-duration)。 #### `TiKV_coprocessor_request_wait_seconds`