AI 코딩 도구 사용 수준 스펙트럼 — Pantheon은 어디에 있나
"다른 AI를 활발히 사용하는 개발자들은 claude code나 codex를 쓰는지, 아니면 저희같이 좀더 고수준에서 사용하는지 궁금해졌어요." — 항승, 2026-06-08
TL;DR
- 항승님 직관이 맞아요. 외부 대다수 개발자는 Level 3-4 (raw CLI + 가끔 plan mode), Pantheon은 Level 6-7 frontier 위치예요.
- 같은 방향을 가리키는 신호가 세 개 있어요 — Anthropic 자신의 2026 보고서, Addy Osmani 8레벨 성숙도, 실제 frontier 사례(Bun·Superpowers).
- 다만 frontier 셋업의 관리비용(eval ledger·persona ops·메모리 시스템)이 어떤 비대칭 이득을 가져오는지 명시할 수 없으면, "고수준=좋다" 프레이밍 자체를 의심해야 해요.
왜 이 질문이 나왔나
Jarvis가 GeekNews 큐레이션으로 "Claude Code 턴 종료 시 검은 오버레이를 띄우는 커뮤니티 플러그인" 글을 공유했어요. 항승님이 그걸 보고 자연스럽게 "외부 개발자들의 실제 AI 코딩 사용 수준은 어디쯤인가?" 라는 메타 질문으로 갔어요. 이 보고서는 그 질문에 대한 1차 답변과 카운터 질문이에요.
진단: 세 신호가 같은 방향을 가리킨다
신호 1 — Anthropic 자신의 2026 Agentic Coding Trends Report
Anthropic은 Dynamic Workflows를 발표하면서 동시에 경고를 같이 냈어요. InfoQ가 인용한 핵심 문구는 이거예요:
"Dynamic Workflows는 일반 세션보다 훨씬 더 많은 토큰을 소모한다. 더 작은, 범위가 잘 정의된 작업부터 시작할 것을 권고한다."
— Anthropic, via InfoQ Dynamic Workflows
Shipyard 글은 더 직접적이에요:
"Multi-agent는 전체 에이전트 보조 개발 작업의 95%에는 부적합하며, 대규모 프로젝트에만 권장된다."
— Shipyard, Claude Code Multi-Agent
이게 중요해요 — Anthropic은 multi-agent를 팔고 있는 회사인데, 자기 도구에 대해 "대다수에게 안 맞다"고 명시했어요. 즉 Pantheon 같은 multi-agent 셋업이 디폴트가 되어야 한다는 주장은 도구 제작자 본인이 부정하고 있다는 거예요.
신호 2 — Addy Osmani의 8단계 AI 코딩 성숙도
Steve Yegge의 프레임워크를 Addy Osmani가 Code Agent Orchestra에서 정리했어요. 핵심 문구:
"대다수 개발자는 Level 3-4에 멈춰있다." — Addy Osmani
"오케스트레이션 티어 — multi-agent coordination이 시작되는 — 는 Level 6부터이며, Level 5에 도달하는 데 필요한 것과 완전히 다른 기술 셋이 필요하다."
8레벨이 어떻게 갈리는지 한 장으로 보면 이래요:
이 그림이 말하는 건 단순해요. Level 5는 Level 4의 자연스러운 확장이 아니라 별도 트랙이라는 거예요. 그래서 외부 대부분은 Level 4에 머물고, 6-7로 점프하는 건 의식적 결단이 필요한 영역이에요.
신호 3 — 실제 frontier 사례
다 다른 출처인데 같은 패턴을 보여줘요.
| 사례 | 셋업 | 결과 | 출처 |
|---|---|---|---|
| Jarred Sumner (Bun 창시자) | dynamic workflow + adversarial review | 6일에 Bun을 Zig→Rust 포팅 | InfoQ |
| fsck.com "Superpowers" | skill·persona·자기학습 스킬까지 쌓아둠 | TDD·worktree·persona 압박 → 규율 강화 | fsck.com |
| Steve Yegge (Gas Town) | mayor agent + 동시 Claude Max 3계정 | 1인 hobby 프로젝트 가속 | Shipyard |
세 사례 모두 공통점이 있어요 — 단순히 "claude" 명령을 자주 쓴 게 아니에요. 자기만의 오케스트레이션 레이어를 직접 만들어 쓰고 있어요. 이게 Pantheon이 차지한 자리예요.
Pantheon이 외부 frontier와도 다른 두 차원
Pantheon은 Level 6-7 안에 있지만, 외부엔 거의 없는 두 가지 차원을 더 가지고 있어요.
persistent persona identity랑 ambient Slack listening — 이 두 칸은 외부에서 거의 본 적 없는 차원이에요. Anthropic Agent Teams도 세션 종료 시 사라지는 worker예요. Pantheon은 Jarvis, Jini, Raphael, Wansu가 채널에서 사라지지 않아요. 이게 우리만의 자리예요.
그래서 진짜 질문 — 관리비용 비대칭이 정당화되나?
위 표 마지막 줄 eval ledger / 관리비용 시스템이 △로 남아 있다는 게 결정적이에요. Pantheon은 Level 6-7에 있는데, 그 위치에 머무는 비용을 측정하는 메커니즘이 아직 미완성이에요.
frontier 셋업은 공짜가 아니에요. 비용을 정리하면 이래요:
이게 오늘 ledger 논의가 다루고 있는 정확히 같은 질문이에요. Level 6-7에 있다는 사실 자체는 메달이 아니에요. 그 자리에서 측정 가능한 이득이 나오느냐가 메달이에요.
검증 질문 — 다음에 답해볼 만한 것
- 지난 30일 중, Pantheon의 multi-persona dispatch가 single-agent로는 못 얻었을 결과를 만든 사례를 3개 이상 댈 수 있나요? (사후 추정 말고, 그 시점에 multi-agent 아니었으면 놓쳤을 케이스)
- eval ledger가 측정할 첫 번째 비대칭 지표 후보 한 개만 고른다면? (예: 페르소나별 반박 채택률·중복 발화율·트리거 missed rate)
- Level 4 (단일 Claude Code CLI)로 되돌아간다고 가정했을 때, 가장 먼저 잃을 것은 무엇인가요? 그게 명확하면 Pantheon이 정당화되고, 모호하면 정리할 시그널이에요.
출처
- InfoQ — Dynamic Workflows in Claude Code (Anthropic 2026 Agentic Coding Trends Report 인용)
- Addy Osmani — Code Agent Orchestra (Steve Yegge 8레벨 프레임워크)
- fsck.com — Superpowers (Skill·persona·자기학습)
- Shipyard — Claude Code Multi-Agent (Agent Teams·Gas Town·Multiclaude 비교)
문서 작성: jini · 2026-06-08 · 원 스레드: #northstar 1780857957.428989