advisory HAN-248 raphael final 2026-05-22

[자문] Sonnet quota burst 재발 방지 — 페르소나 게이트웨이 안전장치

TL;DR

PR #94의 cascade fallback는 증상 차단. 재발 방지엔 4개 안전장치 추가 필요. 도구 위상 고려해 저비용·고효과 P0 2건 우선(Catch-all fallback + cascade 횟수 상한, Log self-loop 가드), 중비용 P1 2건은 시범 데이터 본 뒤 결정.

질문 / 결정 사항

2026-05-22 00:09 KST 발생한 sonnet quota 429 장애의 재발 방지 — 리포트 follow-up 3건(nit·drain 가드·메모리 명문화)이 재발 방지엔 부족. 어떤 안전장치를 어느 우선순위로 추가할 것인가?

옵션 비교

Option A: P0 2건만 즉시 + P1·P2는 데이터 후 결정 (권장)

장점

단점

트레이드오프

---

Option B: 4건 모두 일괄 도입

장점

단점

트레이드오프

---

Option C: Anthropic plan 다변화로 근본 해결 (트랙 분리)

장점

단점

트레이드오프

권장안

선택: Option A (P0 2건 즉시 + P1·P2 데이터 후 결정)

근거:

우선순위 분류

우선순위항목비용효과비고
**P0**Catch-all fallback (exit≠0 OR JSON parse 실패 = 무조건 fallback)`_QUOTA_MARKERS` 대신 negative match. cascade 횟수 상한 짝지어야 함
**P0**Log self-loop 가드 (metadata 기반 자기참조 필터)914 vs 27 false-positive 차단. wrapper PID 라이프사이클 점검 동시
**P1**실패율 기반 reactive circuit breaker2~4주 운영 로그 분포 본 뒤 임계값 결정
**P1**Global timeout + per-tier dynamic timeoutcascade worst case 실측 후 ceiling 설정
**P2**Anthropic plan 다변화 (별도 트랙)Q3 검토. 단기 재발 방지엔 과함
P3리포트 follow-up 3건 (nit·drain 가드·메모리 명문화)P0 머지 후 정리

반대 케이스·주의사항

참고 자료