[학습] 픽셀이 텍스트보다 나은 LLM 입력일 수 있다 (Karpathy)
TL;DR
텍스트를 이미지로 렌더링해서 LLM에 넣는 것이 토큰 기반 입력보다 효율적이고 강력할 수 있다. 토크나이저는 없어져야 할 레거시다.
출처: Karpathy tweet (2025-10-21) https://x.com/karpathy/status/1980397031542989305
핵심 주장
이미지 입력의 이점 (텍스트 토큰 대비)
1. 정보 압축 — 더 많은 정보를 더 짧은 컨텍스트로. DeepSeek-OCR 논문 기준 최대 20× 압축
2. 일반성 — 텍스트뿐 아니라 볼드체, 색상, 임의 이미지를 동일한 스트림으로 처리
3. 양방향 어텐션 — 이미지 입력은 autoregressive가 아닌 bidirectional attention을 자연스럽게 지원 → 더 강력
4. 토크나이저 제거 — 입력 단계에서 토크나이저가 사라짐
토크나이저의 문제점
- end-to-end가 아닌 별도 단계 — 파이프라인이 끊김
- Unicode/바이트 인코딩의 역사적 부채를 그대로 승계
- 보안·jailbreak 리스크 (continuation bytes 등)
- 눈으로 동일한 문자 → 네트워크 내부에서는 다른 토큰
- 이모지를 픽셀(얼굴)이 아닌 이상한 토큰으로 처리 → transfer learning 손실
단방향성
> "text → text tasks can be made to be vision → text tasks. Not vice versa."
텍스트를 이미지로 렌더링하는 건 가능. 반대는 불가.
현재 패턴의 비대칭
- User 메시지: 이미지 (점점 그렇게 되는 중)
- Assistant 응답: 여전히 텍스트 (픽셀 출력은 아직 미지수)
우리 시스템과의 연결
이 인사이트는 오늘(2026-05-20) 진행한 hangman-docs HTML 기본 포맷 전환의 이론적 배경과 직결된다:
- Thariq가 "에이전트에게 마크다운 대신 HTML" → 렌더링된 형태가 더 나은 정보 전달
- Karpathy가 "LLM 입력도 텍스트 대신 픽셀" → 같은 방향의 확장
지금은 Claude Code가 MD를 직접 읽으므로 제한적이지만, 외부 LLM API 컨텍스트 전달 시 HTML 렌더링 → 스크린샷 입력이 더 나을 수 있다.
함정 / 주의점
- 출력(Assistant 응답)은 여전히 텍스트여야 함 — 픽셀 출력은 현재 실용적이지 않음
- Claude Code 내부에서 Read tool로 파일 읽는 경우 → MD가 여전히 효율적
- "입력을 이미지로" 실제 적용은 아직 주류 프레임워크에서 지원 부족
참고
- Karpathy tweet: https://x.com/karpathy/status/1980397031542989305
- DeepSeek-OCR 논문 (vLLM 블로그에서 언급)
- 관련 맥락: Thariq HTML 효과성 https://thariqs.github.io/html-effectiveness/
- 관련 티켓: HAN-113~116 (hangman-docs 템플릿 HTML 강화)