Observe And Troubleshoot
Safe recovery
根据状态、日志和诊断摘要选择重试、修复或回滚。
安全恢复
优先选择可重试操作。只有在状态说明需要人工处理时,才修改服务器、凭据、代理或域名配置。
安全恢复的目标是先保住可解释性:确认失败发生在哪一步、哪些资源已经改变、是否存在可回滚对象,然后再做下一次操作。
警告:不要在不知道当前状态的情况下同时重试、手动改服务器、改 DNS 和替换 secret。一次只处理一个变量,恢复路径才可验证。
重试策略
临时网络、拉取和执行失败通常可以重试。输入、凭据、DNS 和证书材料问题需要先修复。
| 信号 | 推荐动作 |
|---|---|
retryable 错误、健康检查偶发失败 | 直接重试,观察是否进入同一失败点。 |
| 输入缺失、路径不存在、构建命令错误 | 修复部署输入后重新部署。 |
| 凭据、SSH、registry、DNS 或证书错误 | 修复外部配置后重新验证连接。 |
| 新版本已经接管流量且不可恢复 | 回滚到最后一个可用版本,再处理失败原因。 |
读取当前状态
先打开资源状态、最近部署状态、事件时间线和健康摘要。记录最后一个失败阶段、错误代码、是否给出 retry 建议,以及访问地址是否已经切换。
判断是否可重试
临时网络、镜像拉取、命令超时、健康检查偶发失败通常可以重试。缺少 secret、无效域名、SSH 不可用、证书材料错误和输入配置错误通常需要先修复。
修复最小输入
只修改和错误代码直接相关的输入,例如一个 secret、一条 DNS 记录、一把 SSH key 或一个构建目录。修复后保留原失败记录,方便比较下一次结果。
选择回滚
如果新部署已经影响访问地址或运行时状态,并且短时间内无法修复,优先回滚到最后一个已验证版本。回滚后继续保存失败部署的日志和诊断摘要。