Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

alert rules: update the solution of some rules #13625

Merged
merged 6 commits into from
Apr 12, 2023
Merged
Changes from 5 commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
17 changes: 10 additions & 7 deletions alert-rules.md
Original file line number Diff line number Diff line change
Expand Up @@ -425,8 +425,10 @@ aliases: ['/docs-cn/dev/alert-rules/','/docs-cn/dev/reference/alert-rules/']

* 处理方法:

* 检查 store 性能是否异常
* 调大 TiKV `raftstore.inspect-interval` 参数,提高延迟检测的超时上限
* 观察 [**TiKV-Details** > **PD** 面板](/grafana-tikv-dashboard.md#pd),查看 Store Slow Score 监控指标,找出指标数值超过 80 的节点,该节点即为被检测到的慢节点。
* 观察 [**TiKV-Details** > **Raft IO** 面板](/grafana-tikv-dashboard.md#raft-io),查看延迟是否升高。如果延迟很高,表明磁盘可能存在瓶颈。
* 调大 TiKV [`raftstore.inspect-interval`](/tikv-configuration-file.md#inspect-interval) 参数,提高延迟检测的超时上限。
* 如果需要进一步分析报警的 TiKV 节点的性能问题,找到优化方法,可以参考[性能分析和优化方法](/performance-tuning-methods.md#storage-async-write-durationstore-duration-和-apply-duration)。

## TiKV 报警规则

Expand Down Expand Up @@ -494,9 +496,9 @@ aliases: ['/docs-cn/dev/alert-rules/','/docs-cn/dev/reference/alert-rules/']

* 处理方法:

1. 观察 Raft Propose 监控,看这个报警的 TiKV 节点是否明显有比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。
2. 观察 Raft IO 监控,看延迟是否升高。如果延迟很高,表明磁盘可能有瓶颈。一个能缓解但不怎么安全的办法是将 `sync-log` 改成 `false`
3. 观察 Raft Process 监控,看 tick duration 是否很高。如果是,需要在 `[raftstore]` 配置下加上 `raft-base-tick-interval = “2s”`。
1. 观察 [**TiKV-Details** > **Raft Propose** 面板](/grafana-tikv-dashboard.md#raft-propose),查看这个报警的 TiKV 节点是否明显比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。
2. 观察 [**TiKV-Details** > **Raft IO** 面板](/grafana-tikv-dashboard.md#raft-io),查看延迟是否升高。如果延迟很高,表明磁盘可能存在瓶颈
3. 观察 [**TiKV-Details** > **Raft process** 面板](/grafana-tikv-dashboard.md##raft-process),关注 `tick duration` 是否很高。如果是,需要将 TiKV 配置项 [`raftstore.raft-base-tick-interval`](/tikv-configuration-file.md#raft-base-tick-interval) 设置为 `"2s"`。
Oreoxmt marked this conversation as resolved.
Show resolved Hide resolved

#### `TiKV_write_stall`

Expand Down Expand Up @@ -550,8 +552,9 @@ aliases: ['/docs-cn/dev/alert-rules/','/docs-cn/dev/reference/alert-rules/']

* 处理方法:

1. 检查 Raftstore 上的压力,参考 [`TiKV_channel_full_total`](#tikv_channel_full_total) 的处理方法。
2. 检查 apply worker 线程的压力。
1. 观察 [**TiKV-Details** > **Raft propose** 面板](/grafana-tikv-dashboard.md#raft-propose),查看这个报警的 TiKV 节点的 **99% Propose wait duration per server** 是否明显比其他 TiKV 高很多。如果是,表明这个 TiKV 上有热点,需要检查热点调度是否能正常工作。
2. 观察 [**TiKV-Details** > **Raft IO** 面板](/grafana-tikv-dashboard.md#raft-io),查看延迟是否升高。如果延迟很高,表明磁盘可能存在瓶颈。
3. 如果需要进一步分析报警的 TiKV 节点的性能问题,找到优化方法,可以参考[性能分析和优化方法](/performance-tuning-methods.md#storage-async-write-durationstore-duration-和-apply-duration)。

#### `TiKV_coprocessor_request_wait_seconds`

Expand Down