災害復旧計画
ステータス: 有効 日付: 2026-02-26
エグゼクティブサマリー
このドキュメントは、KYRA AI MDRプラットフォームの復旧時間目標(RTO)、復旧ポイント目標(RPO)、災害復旧手順、ロールバック基準を定義します。DR戦略は、すべてのサービスティアにわたる顧客データ保護、サービス可用性、コンプライアンス要件を優先します。
重要要件:
- Enterpriseティア: RTO 15分以下、RPO 5分以下
- Professionalティア: RTO 30分以下、RPO 15分以下
- Standardティア: RTO 60分以下、RPO 30分以下
- 文書化されたランブック付きの四半期DRドリル
- テナント設定、インシデント、監査ログのデータ損失ゼロ
復旧目標
サービスごとのRTO/RPO
| サービス | Enterprise RTO | Enterprise RPO | Professional RTO | Professional RPO | Standard RTO | Standard RPO |
|---|---|---|---|---|---|---|
| カスタマーポータル / API | 5分 | 0分 | 10分 | 5分 | 15分 | 10分 |
| イベント取り込み | 5分 | 1分 | 10分 | 5分 | 20分 | 15分 |
| AI分析 | 10分 | 0分 | 15分 | 5分 | 30分 | 15分 |
| 分析&レポート | 15分 | 30分 | 30分 | 60分 | 60分 | 2時間 |
| プライマリデータベース | 10分 | 0分 | 15分 | 1分 | 30分 | 5分 |
| キャッシュレイヤー | 2分 | 5分 | 5分 | 10分 | 10分 | 30分 |
| イベント処理 | 8分 | 1分 | 15分 | 5分 | 25分 | 15分 |
複合サービス可用性目標
| サービスティア | 全体RTO | 全体RPO | 月次SLA | 年間ダウンタイム |
|---|---|---|---|---|
| Enterprise | 15分 | 5分 | 99.95% | 4.38時間 |
| Professional | 30分 | 15分 | 99.9% | 8.76時間 |
| Standard | 60分 | 30分 | 99.5% | 43.8時間 |
クリティカルパス復旧順序
テナントアクセスのための最小サービス復旧順序:
- プライマリデータベース(テナント認証とデータ)
- キャッシュレイヤー(セッション管理)
- IDプロバイダーまたは緊急管理者バイパス
- カスタマーポータル / API
- イベント取り込み(データ収集の再開)
- イベント処理パイプライン
- AI分析
- 分析とレポート
インフラストラクチャレジリエンス
マルチリージョンアーキテクチャ
- マルチアベイラビリティゾーンデプロイメントのプライマリリージョン
- スタンバイインフラストラクチャのDRリージョン
- テナントごとのデータ所在地コンプライアンス強制
- 重要サービスのクロスリージョンデータレプリケーション
高可用性
- アベイラビリティゾーンにまたがる重要サービスに最低3レプリカ
- 単一障害点を防ぐアンチアフィニティルール
- 負荷メトリクスに基づく水平オートスケーリング
- メンテナンス中の可用性を維持するポッド中断予算
データベースレジリエンス
- 同期スタンバイによるマルチAZデプロイメント
- プライマリおよびDRリージョンの読み取りレプリカ
- 7日間のポイントインタイムリカバリ付き自動日次バックアップ
- 自動フェイルオーバー(60〜120秒)
外部依存関係
| 依存関係 | 目的 | フォールバック戦略 |
|---|---|---|
| IDプロバイダー | SSO認証 | 緊急管理者アクセス |
| プライマリAIプロバイダー | AI脅威分析 | セカンダリプロバイダーにフォールバック、次にセルフホスト |
| セカンダリAIプロバイダー | バックアップAI分析 | プライマリプロバイダーにフォールバック、次にセルフホスト |
| セルフホストAI | エアギャップAIフォールバック | 外部依存なし |
| 暗号化キー管理 | キー管理 | クロスリージョンキーレプリケーション |
| 可観測性プラットフォーム | モニタリング | オンプレミスモニタリングインスタンス |
バックアップスケジュール
| データタイプ | 頻度 | 保持 | 復旧方法 |
|---|---|---|---|
| データベース(継続) | 継続 | 7日 | ポイントインタイムリストア |
| データベース(完全) | 日次 | 30日 | 完全リストア |
| キャッシュスナップショット | 日次 | 7日 | スナップショットからインポート |
| 分析データ | 日次 | 90日 | バックアップからリストア |
| アプリケーション設定 | 変更時 | 90日 | 設定再適用 |
| シークレット | 日次 | 30日 | シークレットマネージャーリストア |
クロスリージョンフェイルオーバー
自動トリガー
- 3分以上すべてのプライマリリージョンエンドポイントでヘルスチェック失敗
- SLA違反前の手動トリガーによるRTO違反の可能性
- クラウドプロバイダーが確認したリージョン全体の障害
フェイルオーバー手順(目標30分)
- DRリージョンデータベースレプリカをプライマリに昇格
- DRリージョンへのDNSルーティング更新
- DRリージョンサービスのスケールアップ
- IDプロバイダーのコールバックURL更新
- すべてのコンポーネントのサービスヘルスを検証
フェイルバック手順
- すべてのサービスにわたるプライマリリージョンヘルスの確認
- DRからプライマリへのデータ再同期(必要な場合)
- 段階的なトラフィック移行(20% / 40% / 60% / 80% / 100%)
- 24時間のモニタリング期間後にDRリージョンをスケールダウン
四半期DRドリル
スケジュールとスコープ
頻度: 90日ごと(3月、6月、9月、12月) 期間: 4時間の計画ウィンドウ 影響: 本番サービスへの中断なし(テスト環境シミュレーション)
ドリルタイプ(ローテーション):
- Q1: リージョンフェイルオーバーシミュレーション
- Q2: データベース破損とポイントインタイムリカバリ
- Q3: セキュリティインシデント対応(シミュレートされた侵害)
- Q4: 完全なインフラストラクチャ再構築
ドリル検証チェックリスト
- すべてのAPIサービスが目標RTO内で利用可能
- データ整合性確認(データ損失ゼロ)
- AI分析ワークフローが20分以内に再開
- イベント取り込みが10分以内に復旧
- 分析処理が25分以内に再開
- 顧客影響が5分未満のサービス劣化
- すべてのモニタリングアラートが2分未満の検出で正しく発火
- ランブック精度が文書化された手順から10%以内の偏差
デプロイメントロールバック基準
自動ロールバックトリガー(5分以内)
- サービスインスタンスの50%以上がヘルスチェック失敗
- 2分間持続でエラーレートが5%超
- データベースマイグレーション失敗またはタイムアウト
- IDプロバイダー統合の破損(成功率90%未満)
- メモリ使用量が90%超で上昇傾向
- クリティカル依存関係が利用不可
パフォーマンスベースロールバック(15分以内)
- API P95レイテンシが10分間ベースラインの2倍超
- イベント取り込みレートが容量の50%未満
- AIワークフローの20%以上がSLA超過
- データベース接続プール使用率が80%超
- 分析処理ラグが30分超
手動ロールバック決定マトリクス
| 重大度 | 検出時間 | 決定権限 | ロールバックウィンドウ |
|---|---|---|---|
| P0 - サービス停止 | 0〜2分 | オンコールエンジニア(自動) | 5分 |
| P1 - 劣化 | 2〜10分 | エンジニアリングマネージャー | 15分 |
| P2 - パフォーマンス | 10〜30分 | プロダクトオーナー+エンジニアリング | 30分 |
| P3 - 軽微な問題 | 30分以上 | スケジュールされたメンテナンスウィンドウ | 計画通り |