learning jarvis draft 2026-05-20

[학습] 픽셀이 텍스트보다 나은 LLM 입력일 수 있다 (Karpathy)

TL;DR

텍스트를 이미지로 렌더링해서 LLM에 넣는 것이 토큰 기반 입력보다 효율적이고 강력할 수 있다. 토크나이저는 없어져야 할 레거시다.

출처: Karpathy tweet (2025-10-21) https://x.com/karpathy/status/1980397031542989305

핵심 주장

이미지 입력의 이점 (텍스트 토큰 대비)

정보 압축 — 더 많은 정보를 더 짧은 컨텍스트로. DeepSeek-OCR 논문 기준 최대 20× 압축
일반성 — 텍스트뿐 아니라 볼드체, 색상, 임의 이미지를 동일한 스트림으로 처리
양방향 어텐션 — 이미지 입력은 autoregressive가 아닌 bidirectional attention을 자연스럽게 지원 → 더 강력
토크나이저 제거 — 입력 단계에서 토크나이저가 사라짐

토크나이저의 문제점

end-to-end가 아닌 별도 단계 — 파이프라인이 끊김
Unicode/바이트 인코딩의 역사적 부채를 그대로 승계
보안·jailbreak 리스크 (continuation bytes 등)
눈으로 동일한 문자 → 네트워크 내부에서는 다른 토큰
이모지를 픽셀(얼굴)이 아닌 이상한 토큰으로 처리 → transfer learning 손실

단방향성

“text → text tasks can be made to be vision → text tasks. Not vice versa.”

텍스트를 이미지로 렌더링하는 건 가능. 반대는 불가.

현재 패턴의 비대칭

User 메시지: 이미지 (점점 그렇게 되는 중)
Assistant 응답: 여전히 텍스트 (픽셀 출력은 아직 미지수)

우리 시스템과의 연결

이 인사이트는 오늘(2026-05-20) 진행한 hangman-docs HTML 기본 포맷 전환의 이론적 배경과 직결된다:

Thariq가 “에이전트에게 마크다운 대신 HTML” → 렌더링된 형태가 더 나은 정보 전달
Karpathy가 “LLM 입력도 텍스트 대신 픽셀” → 같은 방향의 확장

지금은 Claude Code가 MD를 직접 읽으므로 제한적이지만, 외부 LLM API 컨텍스트 전달 시 HTML 렌더링 → 스크린샷 입력이 더 나을 수 있다.

함정 / 주의점

출력(Assistant 응답)은 여전히 텍스트여야 함 — 픽셀 출력은 현재 실용적이지 않음
Claude Code 내부에서 Read tool로 파일 읽는 경우 → MD가 여전히 효율적
“입력을 이미지로” 실제 적용은 아직 주류 프레임워크에서 지원 부족

참고

Karpathy tweet: https://x.com/karpathy/status/1980397031542989305
DeepSeek-OCR 논문 (vLLM 블로그에서 언급)
관련 맥락: Thariq HTML 효과성 https://thariqs.github.io/html-effectiveness/
관련 티켓: HAN-113~116 (hangman-docs 템플릿 HTML 강화)

See also: extends: LLM 구조 논쟁 synthesis