[리서치] 다른 AI 개발자들은 얼마나 고수준으로 쓰고 있나?

Summary

대다수 개발자는 claude/codex raw CLI 수준(Level 3-4)에 머물러 있다. 멀티 에이전트 오케스트레이션은 전체의 5% 미만 태스크에 적용되며, Pantheon 같은 셋업(Level 6-7)은 공개된 사례가 거의 없다. 단, 고수준 셋업이 무조건 좋은 것은 아니다 — 관리 비용 대비 비대칭 이득이 명확해야 정당화된다.

배경 / 질문

"다른 AI를 활발히 사용하는 개발자들은 claude code나 codex를 쓰는지, 아니면 저희 같이 좀 더 고수준에서 사용하는지 궁금해졌어요."

우리 셋업(Pantheon: 멀티 페르소나 + Slack 상주 + persistent memory)이 일반적인지, 아니면 frontier인지 파악하기 위한 조사.

AI 개발 도구 사용 레벨 스펙트럼

Addy Osmani의 8레벨 AI 코딩 성숙도 모델을 기반으로 정리:

레벨  이름                   주요 특징                           해당 규모
─────────────────────────────────────────────────────────────────────────
 1    직접 코딩               AI 전혀 안 씀                        일부
 2    자동완성               Copilot, Cursor 인라인 제안           대다수
 3    단일 에이전트 CLI      claude/codex CLI, 대화형 코딩          ← 대다수 시작점
 4    플랜 모드 + 컨텍스트   /plan, CLAUDE.md, custom instructions  ← 대다수 최대치
─────────────────────────────────────────────────────────────────────────
 5    커스텀 서브에이전트    hook, skill, worktree 격리             활발한 사용자 일부
─────────────────────────────────────────────────────────────────────────
 6    비동기 디스패치        Agent Teams, GitHub Agent HQ           소수 frontier
 7    외부 컨트롤 플레인     자체 Slack 오케스트레이션              공개 사례 희귀
─────────────────────────────────────────────────────────────────────────

        ↑ Level 3-4                               ↑ Level 6-7
        [대다수 개발자]                            [Pantheon 위치]

세 가지 신호

신호 1 — Anthropic 공식 보고서

Anthropic 2026 Agentic Coding Trends Report 직접 인용:

"Multi-agent is not a fit for 95% of tasks."

즉 Anthropic 스스로도 멀티 에이전트는 특수 케이스라고 명시. 대다수 사용은 단일 에이전트로 충분한 태스크.

신호 2 — Addy Osmani 성숙도 모델

Level 3-4 (단일 에이전트 + 수동 시퀀싱): 개발자 대다수
Level 6+ (오케스트레이션): 극소수, 별도 인프라 필요

신호 3 — 실제 frontier 사례

사례 A: Bun 창시자 Jarred Sumner
├── 방식: dynamic workflow + adversarial review (에이전트가 서로 검토)
├── 성과: 6일 만에 Bun을 Zig → Rust로 포팅
└── 레벨: Level 6-7 (비동기 dispatch + 자동 리뷰 루프)

사례 B: fsck.com "Superpowers" 셋업
├── 구성: skill + persona + self-learning
├── 특징: 에이전트가 실패에서 학습하는 자기학습 루프
└── 레벨: Level 5-6

이 두 사례가 공개된 고수준 사례의 거의 전부. 그만큼 Level 6+ 셋업은 희귀.

Pantheon 위치 비교

구성 요소                      대다수 개발자    frontier 일반    Pantheon
─────────────────────────────────────────────────────────────────────────
raw CLI (claude/codex)              ✅               ✅              ✅
custom instructions (CLAUDE.md)      일부             ✅              ✅
멀티 에이전트 dispatch               ✗               ✅              ✅
비동기 외부 컨트롤 플레인            ✗               일부             ✅
persistent persona identity          ✗               ✗               ✅  ← 고유
ambient Slack listening              ✗               ✗               ✅  ← 고유
세션 간 메모리 연속성                ✗               ✗               ✅  ← 고유

"고유" 두 축이 핵심이다:

Persistent persona identity — 세션이 끊겨도 Jini, Raphael, Jarvis가 같은 정체성을 유지하고 이전 맥락을 기억. 일반 Agent Teams는 매 세션 초기화.
Ambient Slack listening — 에이전트가 채널에 상주하며 이벤트를 능동 감지. 일반 셋업은 항상 사용자가 호출자.

Anthropic Agent Teams가 같은 방향으로 개발 중이나 현재 experimental + 기본 disabled 상태.

카운터 질문: 고수준이 항상 좋은가?

frontier 셋업
    ↓
관리 비용 발생
    ├── ledger 확인 (HAN-509, 오늘 논의)
    ├── 페르소나 충돌 해소 (HAN-268)
    ├── dispatch 중복 방지 (HAN-376)
    └── 메모리 시스템 유지 (HAN-47)
    ↓
이 비용을 정당화하는 비대칭 이득이 있는가?
    ├── YES → frontier 유지
    └── NO/모호 → "고수준=좋다" 프레이밍 자체를 의심

오늘 ledger 논의도 같은 질문의 변형이다. 비용이 보이는 만큼 이득도 명시적으로 측정해야 한다.

결론

항승님 직관이 맞다. 우리 셋업은 정량적으로 frontier(Level 6-7)다.
대다수 개발자는 raw CLI + CLAUDE.md 수준(Level 3-4)에서 활발히 쓰고 있다.
Pantheon의 진짜 차별점은 멀티 에이전트가 아니라 persistent identity + ambient listening이다.
단, frontier = 좋음이 아니다. 관리 비용 대비 비대칭 이득의 명시적 측정이 필요하다.