2026.03.20I·02장애 대응 프로세스: 포스트모템 작성과 인시던트 관리
장애는 언젠가 반드시 일어난다. 중요한 건 얼마나 빨리 복구하고 무엇을 배우냐다. 인시던트 심각도 분류부터 포스트모템 작성, 실행되는 액션 아이템까지 SRE 실무를 정리했다.
Incident ManagementPostmortemSRE
→2025.09.18I·16SRE란 무엇인가: 운영을 엔지니어링으로 바꾸는 구글의 철학
서비스를 운영하다 보면 장애는 피할 수 없다. 구글의 SRE 책을 읽으면서 '운영'이 단순 노가다가 아니라 고도의 엔지니어링 문제임을 이해했다. SLI, SLO, Error Budget 개념을 통해 소방관에서 건축가로 사고방식이 바뀌는 과정을 정리해본다.
SREDevOpsReliability
→2025.08.29F·167멱등성(Idempotency): 중복 요청 안전하게 처리
멱등성의 개념과 구현 방법을 경험을 통해 이해한 과정
idempotencyapidistributed-systems
→