跳至正文

灾难恢复计划

状态: 活跃 日期: 2026-02-26


执行摘要

本文档定义了 KYRA AI MDR 平台的恢复时间目标(RTO)、恢复点目标(RPO)、灾难恢复程序和回滚标准。DR 策略优先保护客户数据、服务可用性和所有支持服务等级的合规要求。

关键要求:

  • CUSTOM 等级: RTO 15 分钟或更短,RPO 5 分钟或更短
  • PRO 等级: RTO 30 分钟或更短,RPO 15 分钟或更短
  • MDR 等级: RTO 60 分钟或更短,RPO 30 分钟或更短
  • 季度 DR 演练 并提供文档化操作手册
  • 租户配置、事件和审计日志的零数据丢失

恢复目标

按服务的 RTO/RPO

服务企业 RTO企业 RPO专业 RTO专业 RPO标准 RTO标准 RPO
客户门户 / API5 分钟0 分钟10 分钟5 分钟15 分钟10 分钟
事件采集5 分钟1 分钟10 分钟5 分钟20 分钟15 分钟
AI 分析10 分钟0 分钟15 分钟5 分钟30 分钟15 分钟
分析与报告15 分钟30 分钟30 分钟60 分钟60 分钟2 小时
主数据库10 分钟0 分钟15 分钟1 分钟30 分钟5 分钟
缓存层2 分钟5 分钟5 分钟10 分钟10 分钟30 分钟
事件处理8 分钟1 分钟15 分钟5 分钟25 分钟15 分钟

综合服务可用性目标

服务等级总体 RTO总体 RPO月度 SLA年度停机时间
企业15 分钟5 分钟99.95%4.38 小时
专业30 分钟15 分钟99.9%8.76 小时
标准60 分钟30 分钟99.5%43.8 小时

关键路径恢复顺序

租户访问的最小服务恢复顺序:

  1. 主数据库(租户认证和数据)
  2. 缓存层(会话管理)
  3. 身份提供商或紧急管理员绕过
  4. 客户门户 / API
  5. 事件采集(恢复数据收集)
  6. 事件处理流水线
  7. AI 分析
  8. 分析和报告

基础设施弹性

多区域架构

  • 主区域 多可用区部署
  • DR 区域 备用基础设施
  • 按租户数据驻留 合规执行
  • 关键服务的跨区域数据复制

高可用性

  • 关键服务跨可用区最少 3 个副本
  • 反亲和规则防止单点故障
  • 基于负载指标的水平自动扩展
  • Pod 中断预算在维护期间保持可用性

数据库弹性

  • 多 AZ 部署,同步备用
  • 主区域和 DR 区域的只读副本
  • 自动每日备份,7 天时间点恢复
  • 自动故障切换(60-120 秒)

跨区域故障切换

自动触发条件

  • 所有主区域端点的健康检查失败超过 3 分钟
  • RTO 违约即将发生,在 SLA 违约前手动触发
  • 云提供商确认的区域范围停机

故障切换程序(30 分钟目标)

  1. 将 DR 区域数据库副本提升为主数据库
  2. 更新 DNS 路由到 DR 区域
  3. 扩展 DR 区域服务
  4. 更新身份提供商回调 URL
  5. 验证所有组件的服务健康

回切程序

  1. 确认主区域所有服务的健康状态
  2. 从 DR 到主区域重新同步数据(如需要)
  3. 逐步转移流量(20% / 40% / 60% / 80% / 100%)
  4. 24 小时监控后缩减 DR 区域

季度 DR 演练

计划与范围

频率: 每 90 天(3 月、6 月、9 月、12 月) 时长: 4 小时计划窗口 影响: 无生产服务中断(测试环境模拟)

演练类型(轮换):

  • Q1: 区域故障切换模拟
  • Q2: 数据库损坏和时间点恢复
  • Q3: 安全事件响应(模拟入侵)
  • Q4: 完整基础设施重建

部署回滚标准

自动回滚触发(5 分钟内)

  • 超过 50% 的服务实例健康检查失败
  • 错误率持续 2 分钟超过 5%
  • 数据库迁移失败或超时
  • 身份提供商集成中断(成功率 <90%)

性能回滚(15 分钟内)

  • API P95 延迟持续 10 分钟超过基线 2 倍
  • 事件采集率低于 50% 容量
  • 超过 20% 的 AI 工作流超出 SLA

相关文档