TestForge | Aidevops | 📊 Plogger ✍️ Blog 📚 Docs
plogger

AI DevOps Korea

AI 서비스 개발, 운영, 성능개선을 하나의 루프로 연결합니다

aidevops.kr에서 LLMOps, RAG, AI Agent, 관측성, 평가, 비용-성능 최적화를 실전 운영 관점으로 정리합니다.

온콜 팀을 위한 Runbook 품질 기준

· 수정 4월 28일

대부분의 runbook은 평온한 순간에 작성되고 스트레스가 높은 순간에 소비됩니다. 그래서 기술적으로 맞는 runbook도 실제 장애에서는 자주 실패합니다.

좋은 runbook은 판단 부담을 줄여준다

장애 상황에서 대응자는 최소한 다음을 즉시 알아야 합니다.

  • 가장 먼저 볼 체크 항목
  • 어떤 신호가 현재 장애 유형을 확인해주는지
  • 어떤 조치가 안전하고 어떤 조치는 위험한지
  • 언제 escalation 해야 하는지

문서가 순서를 대응자에게 추론하게 만든다면 운영용으로는 약합니다.

구체성이 핵심이다

약한 runbook은 “로그를 확인하고 필요하면 재시작”이라고 씁니다. 강한 runbook은 다음처럼 씁니다.

  • 어느 대시보드나 쿼리를 먼저 열지
  • 정상과 비정상의 기준이 무엇인지
  • 어떤 명령을 실행할지
  • 어떤 임계치를 넘으면 rollback 또는 mitigation할지

구체성은 긴급 상황에서 곧 속도와 명확성입니다.

blast radius도 같이 보여줘야 한다

강한 runbook은 다음도 설명합니다.

  • 사용자 영향
  • 관련 서비스 의존성
  • 조치의 부작용
  • 조치 이후 확인해야 할 검증 단계

그래야 한 증상을 해결하다가 다른 곳에 새 문제를 만들지 않습니다.

실전 장애 이후 반드시 갱신해야 한다

좋은 runbook은 한 번 써놓고 끝나지 않습니다. 실제 장애를 겪은 뒤 다음을 묻고 갱신해야 합니다.

  • 어떤 단계가 모호했는가
  • 어떤 신호가 부족했는가
  • 어떤 판단이 암묵적 지식에 의존했는가

운영용 runbook의 가치는 시스템 설명서가 아니라, 경험을 반복 가능한 대응 절차로 바꾸는 데 있습니다.

Continue Reading

다음으로 읽기 좋은 글

다음 탐색

이 주제를 시스템 관점으로 더 이어서 보기