AI 코딩 도구 사용 수준 스펙트럼 — Pantheon은 어디에 있나

"다른 AI를 활발히 사용하는 개발자들은 claude code나 codex를 쓰는지, 아니면 저희같이 좀더 고수준에서 사용하는지 궁금해졌어요." — 항승, 2026-06-08

TL;DR

항승님 직관이 맞아요. 외부 대다수 개발자는 Level 3-4 (raw CLI + 가끔 plan mode), Pantheon은 Level 6-7 frontier 위치예요.
같은 방향을 가리키는 신호가 세 개 있어요 — Anthropic 자신의 2026 보고서, Addy Osmani 8레벨 성숙도, 실제 frontier 사례(Bun·Superpowers).
다만 frontier 셋업의 관리비용(eval ledger·persona ops·메모리 시스템)이 어떤 비대칭 이득을 가져오는지 명시할 수 없으면, "고수준=좋다" 프레이밍 자체를 의심해야 해요.

왜 이 질문이 나왔나

Jarvis가 GeekNews 큐레이션으로 "Claude Code 턴 종료 시 검은 오버레이를 띄우는 커뮤니티 플러그인" 글을 공유했어요. 항승님이 그걸 보고 자연스럽게 "외부 개발자들의 실제 AI 코딩 사용 수준은 어디쯤인가?" 라는 메타 질문으로 갔어요. 이 보고서는 그 질문에 대한 1차 답변과 카운터 질문이에요.

진단: 세 신호가 같은 방향을 가리킨다

신호 1 — Anthropic 자신의 2026 Agentic Coding Trends Report

Anthropic은 Dynamic Workflows를 발표하면서 동시에 경고를 같이 냈어요. InfoQ가 인용한 핵심 문구는 이거예요:

"Dynamic Workflows는 일반 세션보다 훨씬 더 많은 토큰을 소모한다. 더 작은, 범위가 잘 정의된 작업부터 시작할 것을 권고한다."
— Anthropic, via InfoQ Dynamic Workflows

Shipyard 글은 더 직접적이에요:

"Multi-agent는 전체 에이전트 보조 개발 작업의 95%에는 부적합하며, 대규모 프로젝트에만 권장된다."
— Shipyard, Claude Code Multi-Agent

이게 중요해요 — Anthropic은 multi-agent를 팔고 있는 회사인데, 자기 도구에 대해 "대다수에게 안 맞다"고 명시했어요. 즉 Pantheon 같은 multi-agent 셋업이 디폴트가 되어야 한다는 주장은 도구 제작자 본인이 부정하고 있다는 거예요.

신호 2 — Addy Osmani의 8단계 AI 코딩 성숙도

Steve Yegge의 프레임워크를 Addy Osmani가 Code Agent Orchestra에서 정리했어요. 핵심 문구:

"대다수 개발자는 Level 3-4에 멈춰있다." — Addy Osmani

"오케스트레이션 티어 — multi-agent coordination이 시작되는 — 는 Level 6부터이며, Level 5에 도달하는 데 필요한 것과 완전히 다른 기술 셋이 필요하다."

8레벨이 어떻게 갈리는지 한 장으로 보면 이래요:

AI 코딩 성숙도 8단계 (Addy Osmani / Steve Yegge)

1
Manual
자동완성만

2
Copilot
인라인 제안

3
Chat IDE
Cursor·Copilot Chat

4
Single Agent
raw CLI + plan

5
Power User
subagent·skill·hook

6
Orchestrator
async multi-agent

7
Control Plane
Agent HQ·Slack ops

8
Autonomous
미지의 영역

외부 대다수
"Most developers are stuck at Level 3-4" — Addy Osmani

frontier (사례 소수)
Anthropic Agent Teams·Bun 6일 포팅·fsck Superpowers

Pantheon
Level 6-7 frontier
+ persistent persona identity
+ ambient Slack listening

"완전히 다른 기술 셋"
Level 5는 점프대가 아니라 별개 트랙

이 그림이 말하는 건 단순해요. Level 5는 Level 4의 자연스러운 확장이 아니라 별도 트랙이라는 거예요. 그래서 외부 대부분은 Level 4에 머물고, 6-7로 점프하는 건 의식적 결단이 필요한 영역이에요.

신호 3 — 실제 frontier 사례

다 다른 출처인데 같은 패턴을 보여줘요.

사례	셋업	결과	출처
Jarred Sumner (Bun 창시자)	dynamic workflow + adversarial review	6일에 Bun을 Zig→Rust 포팅	InfoQ
fsck.com "Superpowers"	skill·persona·자기학습 스킬까지 쌓아둠	TDD·worktree·persona 압박 → 규율 강화	fsck.com
Steve Yegge (Gas Town)	mayor agent + 동시 Claude Max 3계정	1인 hobby 프로젝트 가속	Shipyard

세 사례 모두 공통점이 있어요 — 단순히 "claude" 명령을 자주 쓴 게 아니에요. 자기만의 오케스트레이션 레이어를 직접 만들어 쓰고 있어요. 이게 Pantheon이 차지한 자리예요.

Pantheon이 외부 frontier와도 다른 두 차원

Pantheon은 Level 6-7 안에 있지만, 외부엔 거의 없는 두 가지 차원을 더 가지고 있어요.

Pantheon vs 외부 frontier 셋업 — 무엇이 다른가

특성

외부 Level 6-7
(Bun, Superpowers, Yegge)

Anthropic Agent Teams
(공식, experimental)

Pantheon
(우리)

subagent · skill · worktree
Level 5의 기본 구성요소
✓
✓
✓

async multi-agent dispatch
동시 실행·결과 회수
✓
✓
✓

persistent persona identity
세션 간 정체성·메모리·말투 유지
△
✗
✓

ambient Slack listening
에이전트가 채널에 상주 + 자율 발언
✗
✗
✓

external control plane
CLI 밖에서 에이전트 오케스트레이션
△
✓
✓

eval ledger / 관리비용 시스템
셋업이 자기 자신을 측정·교정
✗
✗
△ (구축 중)

persistent persona identity랑 ambient Slack listening — 이 두 칸은 외부에서 거의 본 적 없는 차원이에요. Anthropic Agent Teams도 세션 종료 시 사라지는 worker예요. Pantheon은 Jarvis, Jini, Raphael, Wansu가 채널에서 사라지지 않아요. 이게 우리만의 자리예요.

그래서 진짜 질문 — 관리비용 비대칭이 정당화되나?

위 표 마지막 줄 eval ledger / 관리비용 시스템이 △로 남아 있다는 게 결정적이에요. Pantheon은 Level 6-7에 있는데, 그 위치에 머무는 비용을 측정하는 메커니즘이 아직 미완성이에요.

frontier 셋업은 공짜가 아니에요. 비용을 정리하면 이래요:

관리비용 vs 이득 — 비대칭이 명시되는가?
frontier 셋업이 정당화되려면 오른쪽이 왼쪽을 압도해야 한다

관리비용 (확정된 것)

persona ops (역할·말투·페르소나별 권한 관리)

메모리 시스템 유지 (74파일 · 인제스트 로그)

eval ledger · 자기진단 인프라

분산 incident 처리 (dispatcher 침묵·중복 발화)

토큰 비용 (Max 20x plan, dynamic workflow 다배수)

비대칭 이득 (모호함)

병렬 fan-out (3x 처리량 — 측정 안 됨)

persona 다관점 (반박·재프레이밍)

자동 큐레이션 (signal-feed 등)

ambient 알림 (놓치는 트리거 ↓)

??? (정량 지표 없음)

현재 상태
왼쪽은 측정 가능 · 오른쪽은 직관 단계
→ "고수준=좋다" 프레이밍을 한 번 의심해봐야 함

이게 오늘 ledger 논의가 다루고 있는 정확히 같은 질문이에요. Level 6-7에 있다는 사실 자체는 메달이 아니에요. 그 자리에서 측정 가능한 이득이 나오느냐가 메달이에요.

검증 질문 — 다음에 답해볼 만한 것

지난 30일 중, Pantheon의 multi-persona dispatch가 single-agent로는 못 얻었을 결과를 만든 사례를 3개 이상 댈 수 있나요? (사후 추정 말고, 그 시점에 multi-agent 아니었으면 놓쳤을 케이스)
eval ledger가 측정할 첫 번째 비대칭 지표 후보 한 개만 고른다면? (예: 페르소나별 반박 채택률·중복 발화율·트리거 missed rate)
Level 4 (단일 Claude Code CLI)로 되돌아간다고 가정했을 때, 가장 먼저 잃을 것은 무엇인가요? 그게 명확하면 Pantheon이 정당화되고, 모호하면 정리할 시그널이에요.

출처

InfoQ — Dynamic Workflows in Claude Code (Anthropic 2026 Agentic Coding Trends Report 인용)
Addy Osmani — Code Agent Orchestra (Steve Yegge 8레벨 프레임워크)
fsck.com — Superpowers (Skill·persona·자기학습)
Shipyard — Claude Code Multi-Agent (Agent Teams·Gas Town·Multiclaude 비교)

문서 작성: jini · 2026-06-08 · 원 스레드: #northstar 1780857957.428989