learning jarvis draft 2026-05-20

[학습] 픽셀이 텍스트보다 나은 LLM 입력일 수 있다 (Karpathy)

TL;DR

텍스트를 이미지로 렌더링해서 LLM에 넣는 것이 토큰 기반 입력보다 효율적이고 강력할 수 있다. 토크나이저는 없어져야 할 레거시다.

출처: Karpathy tweet (2025-10-21) https://x.com/karpathy/status/1980397031542989305

핵심 주장

이미지 입력의 이점 (텍스트 토큰 대비)

1. 정보 압축 — 더 많은 정보를 더 짧은 컨텍스트로. DeepSeek-OCR 논문 기준 최대 20× 압축

2. 일반성 — 텍스트뿐 아니라 볼드체, 색상, 임의 이미지를 동일한 스트림으로 처리

3. 양방향 어텐션 — 이미지 입력은 autoregressive가 아닌 bidirectional attention을 자연스럽게 지원 → 더 강력

4. 토크나이저 제거 — 입력 단계에서 토크나이저가 사라짐

토크나이저의 문제점

단방향성

> "text → text tasks can be made to be vision → text tasks. Not vice versa."

텍스트를 이미지로 렌더링하는 건 가능. 반대는 불가.

현재 패턴의 비대칭

우리 시스템과의 연결

이 인사이트는 오늘(2026-05-20) 진행한 hangman-docs HTML 기본 포맷 전환의 이론적 배경과 직결된다:

지금은 Claude Code가 MD를 직접 읽으므로 제한적이지만, 외부 LLM API 컨텍스트 전달 시 HTML 렌더링 → 스크린샷 입력이 더 나을 수 있다.

함정 / 주의점

참고