온콜 팀을 위한 Runbook 품질 기준
대부분의 runbook은 평온한 순간에 작성되고 스트레스가 높은 순간에 소비됩니다. 그래서 기술적으로 맞는 runbook도 실제 장애에서는 자주 실패합니다.
좋은 runbook은 판단 부담을 줄여준다
장애 상황에서 대응자는 최소한 다음을 즉시 알아야 합니다.
- 가장 먼저 볼 체크 항목
- 어떤 신호가 현재 장애 유형을 확인해주는지
- 어떤 조치가 안전하고 어떤 조치는 위험한지
- 언제 escalation 해야 하는지
문서가 순서를 대응자에게 추론하게 만든다면 운영용으로는 약합니다.
구체성이 핵심이다
약한 runbook은 “로그를 확인하고 필요하면 재시작”이라고 씁니다. 강한 runbook은 다음처럼 씁니다.
- 어느 대시보드나 쿼리를 먼저 열지
- 정상과 비정상의 기준이 무엇인지
- 어떤 명령을 실행할지
- 어떤 임계치를 넘으면 rollback 또는 mitigation할지
구체성은 긴급 상황에서 곧 속도와 명확성입니다.
blast radius도 같이 보여줘야 한다
강한 runbook은 다음도 설명합니다.
- 사용자 영향
- 관련 서비스 의존성
- 조치의 부작용
- 조치 이후 확인해야 할 검증 단계
그래야 한 증상을 해결하다가 다른 곳에 새 문제를 만들지 않습니다.
실전 장애 이후 반드시 갱신해야 한다
좋은 runbook은 한 번 써놓고 끝나지 않습니다. 실제 장애를 겪은 뒤 다음을 묻고 갱신해야 합니다.
- 어떤 단계가 모호했는가
- 어떤 신호가 부족했는가
- 어떤 판단이 암묵적 지식에 의존했는가
운영용 runbook의 가치는 시스템 설명서가 아니라, 경험을 반복 가능한 대응 절차로 바꾸는 데 있습니다.
Continue Reading
다음으로 읽기 좋은 글
플랫폼 관측성과 인시던트 대응 시스템 설계
관측성을 대시보드 수집이 아니라 인시던트 대응 시스템으로 보는 관점에서, 메트릭·로그·트레이스 상관관계, 경보 품질, 런북, SLO, 대시보드, 포스트모템 피드백 루프를 정리합니다.
🚀 DevOpsKubernetes 심화 — HPA, Resource 관리, Pod Scheduling
Kubernetes 운영을 설정 모음이 아니라 자원 배치와 장애 복원력의 관점에서 정리합니다. requests/limits, HPA, affinity, taint, PDB, probe를 언제 어떻게 써야 하는지 실무적으로 설명합니다.
📚 IT 이야기컨테이너와 쿠버네티스는 어떻게 배포의 감각을 바꿨나
한때 배포는 늘 불안한 행사처럼 느껴졌지만, 컨테이너와 쿠버네티스는 그것을 더 반복 가능하고 더 자동화된 일상으로 바꾸려 했습니다.
🔧 ToolsDocker Desktop 실전 가이드: 개발 환경 운영 기준
Docker Desktop을 단순 실행 도구가 아니라 개발 환경 표준화 수단으로 쓰기 위해 Compose 설계, 볼륨 전략, 리소스 튜닝, Dev Container 활용 기준을 정리합니다.
다음 탐색