灾难恢复计划

状态： 活跃 日期： 2026-02-26

执行摘要

本文档定义了 KYRA AI MDR 平台的恢复时间目标（RTO）、恢复点目标（RPO）、灾难恢复程序和回滚标准。DR 策略优先保护客户数据、服务可用性和所有支持服务等级的合规要求。

关键要求：

CUSTOM 等级： RTO 15 分钟或更短，RPO 5 分钟或更短
PRO 等级： RTO 30 分钟或更短，RPO 15 分钟或更短
MDR 等级： RTO 60 分钟或更短，RPO 30 分钟或更短
季度 DR 演练 并提供文档化操作手册
租户配置、事件和审计日志的零数据丢失

恢复目标

按服务的 RTO/RPO

服务	企业 RTO	企业 RPO	专业 RTO	专业 RPO	标准 RTO	标准 RPO
客户门户 / API	5 分钟	0 分钟	10 分钟	5 分钟	15 分钟	10 分钟
事件采集	5 分钟	1 分钟	10 分钟	5 分钟	20 分钟	15 分钟
AI 分析	10 分钟	0 分钟	15 分钟	5 分钟	30 分钟	15 分钟
分析与报告	15 分钟	30 分钟	30 分钟	60 分钟	60 分钟	2 小时
主数据库	10 分钟	0 分钟	15 分钟	1 分钟	30 分钟	5 分钟
缓存层	2 分钟	5 分钟	5 分钟	10 分钟	10 分钟	30 分钟
事件处理	8 分钟	1 分钟	15 分钟	5 分钟	25 分钟	15 分钟

综合服务可用性目标

服务等级	总体 RTO	总体 RPO	月度 SLA	年度停机时间
企业	15 分钟	5 分钟	99.95%	4.38 小时
专业	30 分钟	15 分钟	99.9%	8.76 小时
标准	60 分钟	30 分钟	99.5%	43.8 小时

关键路径恢复顺序

租户访问的最小服务恢复顺序：

主数据库（租户认证和数据）
缓存层（会话管理）
身份提供商或紧急管理员绕过
客户门户 / API
事件采集（恢复数据收集）
事件处理流水线
AI 分析
分析和报告

基础设施弹性

多区域架构

主区域 多可用区部署
DR 区域 备用基础设施
按租户数据驻留 合规执行
关键服务的跨区域数据复制

高可用性

关键服务跨可用区最少 3 个副本
反亲和规则防止单点故障
基于负载指标的水平自动扩展
Pod 中断预算在维护期间保持可用性

数据库弹性

多 AZ 部署，同步备用
主区域和 DR 区域的只读副本
自动每日备份，7 天时间点恢复
自动故障切换（60-120 秒）

跨区域故障切换

自动触发条件

所有主区域端点的健康检查失败超过 3 分钟
RTO 违约即将发生，在 SLA 违约前手动触发
云提供商确认的区域范围停机

故障切换程序（30 分钟目标）

将 DR 区域数据库副本提升为主数据库
更新 DNS 路由到 DR 区域
扩展 DR 区域服务
更新身份提供商回调 URL
验证所有组件的服务健康

回切程序

确认主区域所有服务的健康状态
从 DR 到主区域重新同步数据（如需要）
逐步转移流量（20% / 40% / 60% / 80% / 100%）
24 小时监控后缩减 DR 区域

季度 DR 演练

计划与范围

频率： 每 90 天（3 月、6 月、9 月、12 月） 时长： 4 小时计划窗口 影响： 无生产服务中断（测试环境模拟）

演练类型（轮换）：

Q1： 区域故障切换模拟
Q2： 数据库损坏和时间点恢复
Q3： 安全事件响应（模拟入侵）
Q4： 完整基础设施重建

部署回滚标准

自动回滚触发（5 分钟内）

超过 50% 的服务实例健康检查失败
错误率持续 2 分钟超过 5%
数据库迁移失败或超时
身份提供商集成中断（成功率 <90%）

性能回滚（15 分钟内）

API P95 延迟持续 10 分钟超过基线 2 倍
事件采集率低于 50% 容量
超过 20% 的 AI 工作流超出 SLA

相关文档

安全指南 — 平台安全架构和控制措施
数据保留策略 — 数据生命周期和合规
ISMS-P 合规 — KYRA MDR 如何映射到 ISMS-P 控制