蛮子哥 蛮子哥
首页
  • linux
  • windows
  • 中间件
  • 监控
  • 网络
  • 存储
  • 安全
  • 防火墙
  • 数据库
  • 系统
  • docker
  • 运维工具
  • other
  • elk
  • K8S
  • ansible
  • Jenkins
  • GitLabCI_CD
  • ArgoCD
  • 随笔
  • 面试
  • 工具
  • 收藏夹
  • Shell
  • python
  • golang
友链
  • 索引

    • 分类
    • 标签
    • 归档
    • 首页 (opens new window)
    • 关于我 (opens new window)
    • 图床 (opens new window)
    • 评论 (opens new window)
    • 导航栏 (opens new window)
周刊
GitHub (opens new window)

蛮子哥

业精于勤,荒于嬉
首页
  • linux
  • windows
  • 中间件
  • 监控
  • 网络
  • 存储
  • 安全
  • 防火墙
  • 数据库
  • 系统
  • docker
  • 运维工具
  • other
  • elk
  • K8S
  • ansible
  • Jenkins
  • GitLabCI_CD
  • ArgoCD
  • 随笔
  • 面试
  • 工具
  • 收藏夹
  • Shell
  • python
  • golang
友链
  • 索引

    • 分类
    • 标签
    • 归档
    • 首页 (opens new window)
    • 关于我 (opens new window)
    • 图床 (opens new window)
    • 评论 (opens new window)
    • 导航栏 (opens new window)
周刊
GitHub (opens new window)
  • 随笔

  • 面试

    • 面试题

      • 20260629面试题
      • 20260704面试题
      • 20260705面试题
      • 面试故障回答案例
      • 面试回答技巧
    • http状态码
    • 高级运维工程需要掌握的技能
    • 2023年6月运维面试问题总结
    • Kubernetes运维方面的项目经验
    • 运维常见故障排查
    • 运维面试题一
    • 个人简历
    • 问题案例展示
    • 运维面试题二
    • kubernetes面试问题总结
    • 发布模式介绍和对比
  • 工具

  • 美食

  • 生活
  • 面试
  • 面试题
蛮子哥
2025-07-05

20260705面试题

# 你们是如何设计 Prometheus 告警规则的?一条好的告警规则应该包含哪些要素?

我们告警设计原则:每条告警必须可操作,有 runbook 链接。

规则结构:expr 写 PromQL 条件,for 设持续时长避免抖动,severity 分 critical/warning 两级走不同渠道——critical 打电话,warning 发钉钉。

真实规则示例:Pod 内存超 85% 持续 5 分钟触发 warning,超 95% 持续 2 分钟触发 critical。

踩过的坑:for 没设,CPU 瞬间抖动就告警,值班半夜被叫醒发现是误报,后来所有规则强制加 for: 3m。
1
2
3
4
5
6
7

# 你们是如何做日志分析的?当线上出现问题时,如何通过日志快速定位根因?

我们的日志体系是victorialog,主要的组件有vmselect负责查,vminsert负责数据输入,vmstorage负责数据存储,flunt服务日志的采集。
使用vm的展示页面快速定位网关接口的状态和接口超时时间,快速排查页面响应慢的问题
之前排查接口慢要登每台机器查日志,平均 15 分钟;用 VictoriaLogs 后直接搜 traceId,2 分钟定位到根因。
踩过的坑:各服务日志格式不统一,有 JSON 有纯文本,查询时无法跨服务聚合,后来统一了结构化日志格式。
1
2
3
4

# 什么是分布式链路追踪?Jaeger 是如何工作的?你们是如何接入的?

链路追踪解决的问题是:一个请求经过 N 个微服务,出了问题不知道卡在哪一跳,traceId 把全链路串起来。
jaeger采集应用端的接口链路,需要应用端加上opentelemery的agent依赖并配置jaeger的服务端的配置,当访问api/v1的接口信息时能够采集的响应时间和响应头
我用过go的微服务配置过jaeger采集订单信息,发现一个订单信息响应6s,通过jaeger能快速排查对应的接口,快速响应和修复。
生产环境不能 100% 采集,性能损耗大,一般设 10%~20% 采样率,只采部分请求。
1
2
3
4

# 你们的监控告警是如何分级的?P1/P2/P3 各自的响应流程是什么?

我们按业务影响范围分三级:P1 核心功能不可用,P2 部分功能异常,P3 潜在风险。

P1 电话+钉钉双渠道,5 分钟内必须响应,502/支付失败直接触发;P2 钉钉通知 30 分钟响应,接口超时 2 秒以上触发;P3 邮件通知工作时间处理,内存 85% 触发。

真实 P1 案例:订单页面 502,5 分钟内通过 Jaeger 定位是数据库连接池耗尽,扩连接池后恢复。

踩坑:P2 告警太多导致值班疲劳,合并后只保留真正需要快速响应的。
1
2
3
4
5
6
7
微信 支付宝
上次更新: 2026/07/05, 13:37:39

← 20260704面试题 面试故障回答案例→

最近更新
01
helm管理java微服务
07-05
02
victorialogs配置关键字告警
06-03
03
kubernetes部署jaeger
05-30
更多文章>
Theme by Vdoing | Copyright © 2019-2026 | 点击查看十年之约 | 鄂ICP备2024072800号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式