本文にスキップ

災害復旧計画

ステータス: 有効 日付: 2026-02-26


エグゼクティブサマリー

このドキュメントは、KYRA AI MDRプラットフォームの復旧時間目標(RTO)、復旧ポイント目標(RPO)、災害復旧手順、ロールバック基準を定義します。DR戦略は、すべてのサービスティアにわたる顧客データ保護、サービス可用性、コンプライアンス要件を優先します。

重要要件:

  • Enterpriseティア: RTO 15分以下、RPO 5分以下
  • Professionalティア: RTO 30分以下、RPO 15分以下
  • Standardティア: RTO 60分以下、RPO 30分以下
  • 文書化されたランブック付きの四半期DRドリル
  • テナント設定、インシデント、監査ログのデータ損失ゼロ

復旧目標

サービスごとのRTO/RPO

サービスEnterprise RTOEnterprise RPOProfessional RTOProfessional RPOStandard RTOStandard RPO
カスタマーポータル / API5分0分10分5分15分10分
イベント取り込み5分1分10分5分20分15分
AI分析10分0分15分5分30分15分
分析&レポート15分30分30分60分60分2時間
プライマリデータベース10分0分15分1分30分5分
キャッシュレイヤー2分5分5分10分10分30分
イベント処理8分1分15分5分25分15分

複合サービス可用性目標

サービスティア全体RTO全体RPO月次SLA年間ダウンタイム
Enterprise15分5分99.95%4.38時間
Professional30分15分99.9%8.76時間
Standard60分30分99.5%43.8時間

クリティカルパス復旧順序

テナントアクセスのための最小サービス復旧順序:

  1. プライマリデータベース(テナント認証とデータ)
  2. キャッシュレイヤー(セッション管理)
  3. IDプロバイダーまたは緊急管理者バイパス
  4. カスタマーポータル / API
  5. イベント取り込み(データ収集の再開)
  6. イベント処理パイプライン
  7. AI分析
  8. 分析とレポート

インフラストラクチャレジリエンス

マルチリージョンアーキテクチャ

  • マルチアベイラビリティゾーンデプロイメントのプライマリリージョン
  • スタンバイインフラストラクチャのDRリージョン
  • テナントごとのデータ所在地コンプライアンス強制
  • 重要サービスのクロスリージョンデータレプリケーション

高可用性

  • アベイラビリティゾーンにまたがる重要サービスに最低3レプリカ
  • 単一障害点を防ぐアンチアフィニティルール
  • 負荷メトリクスに基づく水平オートスケーリング
  • メンテナンス中の可用性を維持するポッド中断予算

データベースレジリエンス

  • 同期スタンバイによるマルチAZデプロイメント
  • プライマリおよびDRリージョンの読み取りレプリカ
  • 7日間のポイントインタイムリカバリ付き自動日次バックアップ
  • 自動フェイルオーバー(60〜120秒)

外部依存関係

依存関係目的フォールバック戦略
IDプロバイダーSSO認証緊急管理者アクセス
プライマリAIプロバイダーAI脅威分析セカンダリプロバイダーにフォールバック、次にセルフホスト
セカンダリAIプロバイダーバックアップAI分析プライマリプロバイダーにフォールバック、次にセルフホスト
セルフホストAIエアギャップAIフォールバック外部依存なし
暗号化キー管理キー管理クロスリージョンキーレプリケーション
可観測性プラットフォームモニタリングオンプレミスモニタリングインスタンス

バックアップスケジュール

データタイプ頻度保持復旧方法
データベース(継続)継続7日ポイントインタイムリストア
データベース(完全)日次30日完全リストア
キャッシュスナップショット日次7日スナップショットからインポート
分析データ日次90日バックアップからリストア
アプリケーション設定変更時90日設定再適用
シークレット日次30日シークレットマネージャーリストア

クロスリージョンフェイルオーバー

自動トリガー

  • 3分以上すべてのプライマリリージョンエンドポイントでヘルスチェック失敗
  • SLA違反前の手動トリガーによるRTO違反の可能性
  • クラウドプロバイダーが確認したリージョン全体の障害

フェイルオーバー手順(目標30分)

  1. DRリージョンデータベースレプリカをプライマリに昇格
  2. DRリージョンへのDNSルーティング更新
  3. DRリージョンサービスのスケールアップ
  4. IDプロバイダーのコールバックURL更新
  5. すべてのコンポーネントのサービスヘルスを検証

フェイルバック手順

  1. すべてのサービスにわたるプライマリリージョンヘルスの確認
  2. DRからプライマリへのデータ再同期(必要な場合)
  3. 段階的なトラフィック移行(20% / 40% / 60% / 80% / 100%)
  4. 24時間のモニタリング期間後にDRリージョンをスケールダウン

四半期DRドリル

スケジュールとスコープ

頻度: 90日ごと(3月、6月、9月、12月) 期間: 4時間の計画ウィンドウ 影響: 本番サービスへの中断なし(テスト環境シミュレーション)

ドリルタイプ(ローテーション):

  • Q1: リージョンフェイルオーバーシミュレーション
  • Q2: データベース破損とポイントインタイムリカバリ
  • Q3: セキュリティインシデント対応(シミュレートされた侵害)
  • Q4: 完全なインフラストラクチャ再構築

ドリル検証チェックリスト

  • すべてのAPIサービスが目標RTO内で利用可能
  • データ整合性確認(データ損失ゼロ)
  • AI分析ワークフローが20分以内に再開
  • イベント取り込みが10分以内に復旧
  • 分析処理が25分以内に再開
  • 顧客影響が5分未満のサービス劣化
  • すべてのモニタリングアラートが2分未満の検出で正しく発火
  • ランブック精度が文書化された手順から10%以内の偏差

デプロイメントロールバック基準

自動ロールバックトリガー(5分以内)

  • サービスインスタンスの50%以上がヘルスチェック失敗
  • 2分間持続でエラーレートが5%超
  • データベースマイグレーション失敗またはタイムアウト
  • IDプロバイダー統合の破損(成功率90%未満)
  • メモリ使用量が90%超で上昇傾向
  • クリティカル依存関係が利用不可

パフォーマンスベースロールバック(15分以内)

  • API P95レイテンシが10分間ベースラインの2倍超
  • イベント取り込みレートが容量の50%未満
  • AIワークフローの20%以上がSLA超過
  • データベース接続プール使用率が80%超
  • 分析処理ラグが30分超

手動ロールバック決定マトリクス

重大度検出時間決定権限ロールバックウィンドウ
P0 - サービス停止0〜2分オンコールエンジニア(自動)5分
P1 - 劣化2〜10分エンジニアリングマネージャー15分
P2 - パフォーマンス10〜30分プロダクトオーナー+エンジニアリング30分
P3 - 軽微な問題30分以上スケジュールされたメンテナンスウィンドウ計画通り

関連ドキュメント