DevOps Metrics

날짜: 2025-11-05 (Asia/Seoul)

TL;DR

측정이 곧 개선의 시작: 배포 속도, 품질, 안정성을 수치화하면 병목을 빠르게 찾아 리드타임↓, 실패율↓, 복구시간↓.
핵심은 DORA + 품질 지표: 배포 빈도, 변경 리드타임, 변경 실패율, MTTR에 테스트 플레키니스(Flakiness), 코드 철(Churn), 사건(Incident) 지표를 더해 전주기 가시성 확보.
행동을 유도하는 계기 설계: 지표는 목표보다 행동을 바꾸게 설계해야 함. 리더보드·보너스 연동보다 가드레일/알림/회고 루프가 효과적.
90일 도입 로드맵: 2주 내 계측 → 6주 내 대시보드 → 12주 내 개선 실험(가설·검증) 정착.

1. Executive Summary

본 문서는 개발 조직이 **배포 속도(Throughput)**와 시스템 안정성(Resilience), **코드 품질(Quality)**을 동시에 향상시키기 위한 측정 체계를 제시합니다. DORA 핵심 지표를 중심으로, 현장에서 자주 간과되는 테스트 Flakiness와 Code Churn을 정식 시민권을 가진 지표로 편입하여, 신뢰 가능한 CI/CD와 지속 가능한 코드베이스를 구축하는 방법을 다룹니다.

2. 왜 메트릭인가(Why Metrics Matter)

효율 측정: 프로세스가 계획대로 동작하는지 확인하고 병목을 식별.
품질 개선: 결함률·배포 성공률 모니터링으로 신뢰성 향상.
의사결정: 데이터 기반 우선순위와 자원 배분.
진척 추적: 목표 대비 현재 위치를 투명하게 공유.

원칙: 측정은 팀을 심판하는 도구가 아니라, 시스템을 개선하는 피드백 루프다.

3. 좋은 지표의 조건

행동가능성(Actionable): 지표가 나빠지면 누가 무엇을 바꿀지 명확해야 함.
지연시간(Latency)이 낮음: 주기적으로(일/주 단위) 관찰 가능.
왜곡 저항성(Anti-gaming): 단순 최적화로 조작되기 어려움(예: PR 사이즈, 플레키니스율).
맥락성(Context): 서비스 성숙도·도메인에 맞는 기준치.

4. 핵심 DevOps 지표(DORA)

4.1 Deployment Frequency (배포 빈도)

정의: 주/일 단위 프로덕션 배포 횟수.
목표: 기능팀은 최소 주 1회, 플랫폼/웹은 일일 다회까지 지향.
개선 레버: 작은 PR, 자동화 배포, 기능토글.

4.2 Lead Time for Changes (변경 리드타임)

정의: 첫 커밋(혹은 PR 오픈) ~ 프로덕션 반영까지의 시간 중앙값.
개선 레버: 작은 배치, 코드리뷰 대기시간 단축, 테스트 파이프라인 가속.

4.3 Change Failure Rate (CFR, 변경 실패율)

정의: 배포 중/직후 롤백·핫픽스·심각 사고로 분류된 배포 비율.
개선 레버: 릴리스 검증 강화, 카나리/블루그린, 자동 회귀 테스트.

4.4 Mean Time To Recovery (MTTR)

정의: 사고 발생 ~ 정상화까지 평균 시간(또는 중앙값).
개선 레버: 알림 품질, 런북/자동화, 피쳐토글/롤백 버튼.

5. 품질 & 안정성 지표

5.1 Incident Frequency (사고 빈도)

정의: 배포 이후 일정 시간 창구(예: 24~72h) 내 P1~P3 사고 건수.
권장: 심각도별 SLO 연계(에러율, 지연시간, 가용성).

5.2 Automated Test Coverage (자동화 테스트 커버리지)

종류: 라인/브랜치 커버리지 + Mutation Score(권장).
주의: 커버리지는 필요조건이지 충분조건이 아님 → Flakiness, 테스트 가치 평가 병행.

5.3 Test Flakiness (테스트 비결정성)

정의: 코드·테스트·환경 변경 없이 동일 조건 재실행 시 통과/실패가 오락가락하는 현상.
지표: flake_rate = 실패횟수 / 반복횟수, 또는 flip 발생 비율.
목표 예시: 핵심 스위트 flake_rate < 0.5%; 신규 테스트는 도입 전 20회 무플립 기준 통과.
탐지:
- pytest --flake-finder --flake-runs=20 / pytest --reruns 3 --reruns-delay 1
- Jest: jest.retryTimes(3) + N회 반복 워크플로우.
감소 전략: 비동기 조건 대기(임의 sleep 금지), 시드 고정, 가짜 시간/네트워크 목킹, 테스트 간 상태 격리, 컨테이너화로 환경 고정.

5.4 Code Churn (코드 철/재작업)

정의: 기간 내 추가·수정·삭제된 라인수(LOC)의 총량/비율. 재작업·불안정의 간접 신호.
지표 예시: 지난 14일에 작성한 LOC 중 수정/삭제된 비율 → churn%.
해석 가이드:
- 초기 스파이크는 자연스러움(요구사항 변동/리팩터링).
- 릴리스 임박 고 churn은 위험 신호(안정화 부족).
- 핫스팟 파일(지속적으로 높음)은 설계 문제 단서.
계산 스니펫(Git): # 최근 14일 추가/삭제 합계 git log --since="14 days ago" --shortstat --pretty=tformat: | \ awk '/files? changed/{a+=$4; b+=$6} END{print "added:",a,"deleted:",b}' # 파일별 변경량 상위(핫스팟) git log --since="30 days ago" --numstat --pretty="%H" | \ awk 'NF==3{f[$3]+=($1+$2)} END{for (i in f) print f[i], i}' | sort -nr | head
주의: 포매터/대규모 자동 변경은 제외 필터(경로/커밋 태그)로 분리.

6. 흐름 & 생산성 지표

PR Size: 변경 라인/파일 수. 권장: 평균 PR < ~300 LOC.
Review Latency: 최초 리뷰까지 대기시간, 승인까지 총 소요.
Cycle Time: 작업 시작~배포까지(코딩·리뷰·대기 구간 분해).
Flow Efficiency: 유효 작업 시간 / 총 경과 시간.
Rework Rate: 배포 전 동일 영역 재수정 비율(Churn과 연계).

7. 계측(Instrumentation) 설계

7.1 데이터 소스

VCS: Git(커밋/PR/머지).
CI/CD: Jenkins/GitHub Actions/GitLab CI(빌드, 테스트, 배포 결과·시간).
테스트 러너: pytest/Jest/JUnit(통과·실패·재시도·플립 이벤트).
옵저버빌리티: Prometheus/Tempo/Loki/APM(에러율, 지연, 가용성).
Incident 관리: PagerDuty/Opsgenie/Jira(사고 시작·종료·심각도).

7.2 이벤트 스키마(핵심 필드)

org_id, repo, service, env, commit_sha, pr_id, actor, started_at, ended_at, status, duration_ms, tags{branch,component,severity}

7.3 파이프라인

수집: CI/CD Webhook → 큐(Kafka/SQS) → ETL(dbt/Airflow) → DWH(Postgres/BigQuery).
저장 모델: Fact 테이블(배포·테스트·인시던트) + Dim(서비스·팀·컴포넌트).

8. 레퍼런스 구현

8.1 GitHub Actions — Flakiness 샘플 워크플로우

name: flake-check
on: [pull_request]
jobs:
  pytest-flakes:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - uses: actions/setup-python@v5
        with: { python-version: '3.11' }
      - run: pip install -U pytest pytest-flakefinder pytest-rerunfailures
      - name: Run tests N times
        run: |
          set -e
          N=20
          FAILS=0
          for i in $(seq 1 $N); do
            pytest --maxfail=1 --flake-finder --flake-runs=1 || FAILS=$((FAILS+1))
          done
          echo "flake_runs=$N" >> $GITHUB_OUTPUT
          echo "flake_fails=$FAILS" >> $GITHUB_OUTPUT

8.2 Jenkins — 배포 이벤트 계측 예시

post {
  success { sh 'curl -X POST $TELEMETRY/deploy -d "status=success&sha=$GIT_COMMIT"' }
  failure { sh 'curl -X POST $TELEMETRY/deploy -d "status=failure&sha=$GIT_COMMIT"' }
}

8.3 CFR/MTTR 계산용 SQL(예시: Postgres)

-- 배포 실패율(CFR)
SELECT date_trunc('week', deployed_at) AS wk,
       100.0 * SUM(CASE WHEN status='failure' OR rollback=true THEN 1 ELSE 0 END) / COUNT(*) AS cfr_pct
FROM fact_deploy
WHERE env='prod'
GROUP BY 1
ORDER BY 1;

-- MTTR(중앙값)
SELECT date_trunc('week', started_at) AS wk,
       PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY EXTRACT(EPOCH FROM (resolved_at-started_at))) AS mttr_sec
FROM fact_incident
WHERE env='prod'
GROUP BY 1
ORDER BY 1;

8.4 Prometheus 알림 룰(예시)

groups:
- name: reliability
  rules:
  - alert: FlakinessSpike
    expr: increase(test_flips_total[1h]) > 5
    for: 15m
    labels: { severity: warning }
    annotations:
      summary: "Test flakiness spike"
      description: "최근 1시간 플립 > 5건"

9. 대시보드 레이아웃(권장)

배포 & 안정성 요약(경영 대시보드): DF, Lead Time, CFR, MTTR, 가용성, 주요 서비스 상태.
품질 대시보드: 테스트 성공률, Flakiness 추이/상위 불안정 테스트, 커버리지, 뮤테이션 스코어.
코드베이스 건강: Churn 추이, 핫스팟 파일, PR Size/리뷰 대기, 린팅/정적분석 경고.
Incident 운영: 주별 사고 건수/심각도, MTTA/MTTR, 재발 비율, 상위 원인 카테고리.

10. 목표치 & 가드레일

Baseline → Stretch: 현재 분포를 측정해 백분위 기반 목표 설정(예: Lead Time 중앙값 7d → 4d).
R/A/G 임계값: 예) CFR <2%(Green), 2~5%(Amber), >5%(Red).
안티-게이밍:
- 배포 횟수만 늘리려 PR을 쪼개는 행위 방지 → PR Size 상한 + 의미있는 변경 비율 체크.
- 커버리지 수치만 올리는 무가치 테스트 방지 → 뮤테이션 스코어와 페어링.
- Flakiness를 재시도로 덮는 행위 방지 → Quarantine + 이슈화 정책.

11. 90일 도입 로드맵

0~2주(계측): 이벤트 스키마 확정 → CI/CD, 테스트 러너에 태깅 → DWH 적재.
3~6주(가시화): v0 대시보드(DF, Lead Time, CFR, MTTR, Flakiness, Churn). 알림 룰 초안.
7~12주(개선 실험): 가설 예) “PR Size 500→300 LOC로 줄이면 Lead Time 20%↓” → 실험 설계/검증.

12. 간단 케이스 스터디(가상)

상황: 웹서비스 A, 주 1회 배포, Lead Time 8일, CFR 6%, MTTR 4h, Flakiness 2.1%.
개입: 테스트 flake 근본원인 제거(비동기 대기/시드 고정), 카나리 도입, 리뷰 SLA 24h.
8주 후: DF 주 3회, Lead Time 3.5일, CFR 2.2%, MTTR 45m, Flakiness 0.3%.

13. FAQ

Q. 커버리지가 높은데도 사고가 납니다.
A. 커버리지는 충분조건이 아닙니다. 뮤테이션 스코어·E2E 가설 커버리지를 병행하고, Flakiness 제거로 신호 품질을 높이세요.
Q. Churn이 높은데 항상 나쁜가요?
A. 아닙니다. 대규모 리팩터링/마이그레이션 시기는 오히려 건강 신호일 수 있습니다. 지속 고churn 파일만 경계하세요.

14. 용어집(Glossary)

DORA Metrics: Deployment Frequency, Lead Time for Changes, Change Failure Rate, MTTR.
Flakiness: 동일 조건에서 테스트 결과가 불안정한 현상.
Code Churn: 일정 기간 코드 변경량(추가·수정·삭제) 지표.
SLO/SLA: 서비스 목표/계약 수준 지표.
MTTA/MTBF: 평균 확인 시간 / 평균 고장 간격.

부록 A. 현장 스니펫 모음

A.1 PyTest/Jest 실전

# PyTest 기본
pytest -q --maxfail=1

# 플레키니스 탐지(20회)
pytest --flake-finder --flake-runs=20

# 임시 완화(재시도)
pytest --reruns 3 --reruns-delay 1

// Jest 재시도
jest.retryTimes(3);

A.2 Git Churn 측정(요약)

# 14일 합계
git log --since="14 days ago" --shortstat --pretty=tformat: | \
  awk '/files? changed/{a+=$4;b+=$6}END{print a,b}'

A.3 체크리스트(도입 전/후)

데이터 소스 연결(VCS/CI/테스트/APM)
이벤트 스키마 검증
대시보드 v0 릴리스
알림/런북/회고 루프 연결
분기별 목표치 재설정