[리서치] 작은 확률 모델이 미래다 — GRAM·PTRM·LDT 합본 리뷰
출처와 형식 안내
본 보고서는 항승님이 며칠째 못 보고 미뤄둔 YouTube 영상 "Forget Massive LLMs: Why Small Probabilistic Models (GRAM, PTRM, LDT) Are the Future. Tech Review." (링크) 의 논문 합본 리뷰 형태다.
- 영상 transcript는 YouTube 측 차단(403/405)으로 본문 직접 인용 불가 → 화자의 의견·강조점·데모는 본 보고서에서 제외.
- 대신 영상 제목이 묶어 다루는 3편 1차 출처를 직접 검증 후 정리.
- "거대 LLM 잊어라, 작은 확률 모델이 미래다"라는 영상 narrative는 3편의 공통 주장 합집합으로 복원.
TL;DR
- 3편 모두 "작은 (수십만~수백만 params) recurrent/recursive + latent-space + stochastic 요소"라는 동일 archetype을 공유한다. 우연한 묶음이 아니라, 2026년 상반기 "non-CoT structured reasoning" 흐름의 세 줄기다.
- GRAM: latent recursion을 stochastic generative process로 재정식화 (amortized variational inference). ARC-1/ARC-2에서 frontier LLM과 경쟁. (Bengio·Sungjin Ahn 공동저자)
- PTRM: recursion step마다 Gaussian noise 주입 + K rollouts 병렬 + Q head로 선택. Sudoku-Extreme 87.4 → 98.75%, Pencil Puzzle 62.6 → 91.2%. 7M params로 frontier LLM 대비 거의 2배 정확도, 비용 1/10000.
- LDT: latent state를 lattice projection. abstract interpretation 기반 논리적 sound. 800K params로 Sudoku-Extreme 100%. frontier LLM (Claude Opus 4.6/DeepSeek V4-Pro/ChatGPT 5.4)는 동일 벤치마크 0%.
- 주의: 모두 닫힌 퍼즐 도메인 벤치마크다. "LLM의 미래는 작은 모델"이라는 확장 주장은 영상 narrative이지 논문 자체 주장이 아니다. open-domain QA·코드·자연어 reasoning 적용 증거는 본 3편엔 없다.
배경 / 질문
며칠째 탭에 띄워둔 영상이 묶어 다루는 3편이 정확히 어떤 흐름이고, "거대 LLM 잊어라" 라는 강한 주장이 논문 본문이 실제로 지지하는 범위가 어디까지인지 분리해서 보고 싶음.
질문 3개
- GRAM·PTRM·LDT 각각의 핵심 메커니즘과 실제 결과치는 무엇인가?
- 3편을 한 묶음으로 부를 수 있는 공통 archetype은 무엇인가?
- 영상 제목의 "LLM의 미래는 작은 확률 모델" 주장은 논문 본문이 어디까지 지지하고, 어디서부터 영상 화자의 확장 narrative인가?
1. GRAM — Generative Recursive reAsoning Models
| 항목 | 내용 |
|---|---|
| 출처 | ICLR 2026 Workshop RSI (AI with Recursive Self-Improvement) |
| 저자 | Junyeob Baek, Mingyu Jo, Minsu Kim, Yoshua Bengio, Sungjin Ahn |
| URL | OpenReview Vxu6kcIjwV |
핵심 아이디어
- 기존 latent recursive architecture (Tiny Recursive Model 계열)를 stochastic generative process로 재정식화.
- token-level chain-of-thought에 의존하지 않고 entirely in latent space에서 reasoning 수행.
- amortized variational inference로 generative recursion을 최적화 → 같은 입력에 대해 복수의 plausible latent trajectory를 표현·탐색 가능.
- 조건부 reasoning
p(y|x)와 unconditional generative modelingp(x)를 하나의 framework로 묶음.
결과
- ARC-1·ARC-2에서 "much larger language model과 경쟁" 수준 성능.
- System 2 (느린 사고형) 과제에 recursion 기반 generative modeling이 효과적임을 입증.
한 줄 평: latent recursion을 확률적 sampling 가능한 generative model로 끌어올린 것이 핵심. Bengio·Sungjin Ahn 공저라는 무게도 신호.
2. PTRM — Probabilistic Tiny Recursive Model
| 항목 | 내용 |
|---|---|
| 출처 | arXiv 2605.19943 |
| 저자 | Amin Sghaier, Ali Parviz, Alexia Jolicoeur-Martineau |
| URL | arxiv.org/abs/2605.19943 · project page |
핵심 아이디어
- Tiny Recursive Model (TRM)이 suboptimal local minimum에 갇히는 문제를 test-time stochastic exploration으로 해결.
- 매 deep recursion step의 latent state에 Gaussian noise σ를 주입 → K개의 rollout을 병렬로 다양한 solution basin 탐색.
- 최종 선택은 기존 Q head (원래 early-stopping용)로 highest Q value인 rollout 채택.
- 학습 변경·task-specific augmentation 모두 불필요 — pure test-time technique.
결과
| 벤치마크 | TRM baseline | PTRM | 비고 |
|---|---|---|---|
| Sudoku-Extreme | 87.4% | 98.75% | +11.35pp |
| Pencil Puzzle Bench | 62.6% | 91.2% | +28.6pp |
| Pencil Puzzle vs frontier LLM | — | 91.2% vs 55.1% | ~1.66배, 비용 < 0.0001x |
| 파라미터 | — | 7M | — |
한 줄 평: "noise 주입 + K rollout + Q head 선택" 이라는 극도로 단순한 test-time trick만으로 큰 폭 정확도 향상. 재학습 없이 기존 TRM에 얹는 형태라 채택 비용이 낮다.
3. LDT — Lattice Deduction Transformers
| 항목 | 내용 |
|---|---|
| 출처 | arXiv 2605.08605 (2026-05-09) |
| 저자 | Liam Davis, Leopold Haller, Alberto Alfarano, Mark Santolucito |
| URL | arxiv.org/abs/2605.08605 |
핵심 아이디어
- Chain-of-thought LLM이 search-hard structured reasoning에서 실패한다는 관찰에서 출발.
- recurrent transformer의 forward pass 사이에 latent state를 lattice로 projection → symbolic deduction (constraint solver의 추론)을 mirror.
- 학습은 abstract-interpretation 기반 solution candidate 집합 approximation 으로 supervise. on-policy 학습 (search-based solver 모사).
- 결과적으로 논리적 sound 보장 — correct answer를 내거나 abstain. 잘못된 답은 원리적으로 안 나옴.
결과
| 모델 | 파라미터 | 벤치마크 | 정확도 |
|---|---|---|---|
| LDT | 800K | Sudoku-Extreme | 100% |
| LDT | 800K | Snowflake Sudoku | 100% |
| LDT | 1.8M | Maze-Hard | 99.9% |
| frontier LLMs* | — | 같은 3개 벤치마크 | 0% |
frontier LLMs는 Claude Opus 4.6, DeepSeek V4-Pro, ChatGPT 5.4. zero-shot으로 추정 — fine-tuned 비교는 본문에 없음.
한 줄 평: 800K 파라미터 = 거대 LLM 대비 백만 배 이상 작음. 그럼에도 Sudoku-Extreme 100% vs 0% 라는 극단의 격차가 핵심 신호. 단, abstract domain이 잘 정의된 퍼즐 도메인이라는 조건부임을 잊지 말 것.
4. 공통 archetype — 왜 한 묶음으로 부르는가
3편을 가로질러 보면, 다음 다섯 가지를 전부 공유한다.
| 축 | GRAM | PTRM | LDT |
|---|---|---|---|
| 크기 | tiny | 7M | 800K~1.8M |
| 구조 | recursive/recurrent latent | recursive latent (TRM 기반) | recurrent transformer |
| reasoning 위치 | latent space (non-CoT) | latent space (non-CoT) | latent space (non-CoT) |
| 확률 요소 | stochastic generative + variational | Gaussian noise + K rollout | (sound deduction, lattice 분기) |
| 벤치마크 | ARC-1/2 | Sudoku-Extreme, Pencil Puzzle | Sudoku-Extreme, Snowflake, Maze |
세 줄 요약:
- 작다 — 거대 LLM이 아니라 수십만~수백만 params.
- latent에서 사고한다 — chain-of-thought 텍스트 토큰을 거치지 않음.
- 확률/탐색 메커니즘이 핵심 — sampling, noise injection, lattice 분기 등 deterministic 1-pass 추론이 아님.
영상 제목이 "Small Probabilistic Models" 라고 묶은 이유가 여기다. 우연한 그룹화가 아닌 2026년 상반기 한 흐름.
5. "거대 LLM 잊어라"는 어디까지 사실인가
본 영상 narrative와 논문 본문 주장 간 거리를 분리하면:
논문이 실제로 보이는 것
- 닫힌 structured reasoning 퍼즐 (Sudoku, Maze, ARC) 에서 수십만~수백만 params 모델이 frontier CoT LLM을 크게 앞선다.
- 비용·파라미터·논리 보장 측면 모두 우위.
- 재학습 없이 test-time trick만으로 얹을 수 있는 형태도 있다 (PTRM).
논문이 말하지 않는 것
- open-domain 자연어 reasoning, 코드 생성, 멀티턴 대화 등 현재 LLM이 잘하는 영역에 같은 archetype이 통하는지는 본 3편으로는 알 수 없음.
- frontier LLM 0% 결과는 zero-shot 일 가능성이 큼. fine-tuned LLM 또는 tool-use 비교는 없거나 약함.
- abstract domain이 잘 정의된 도메인이라는 LDT의 전제 — 이 조건이 무너지는 영역에서는 lattice 접근의 논리 sound 보장이 사라짐.
해석
영상 제목의 "잊어라" 는 확장 narrative다. 논문이 지지하는 더 정확한 명제는:
닫힌 structured reasoning 과제에서는, 거대 LLM의 chain-of-thought보다 작은 latent-recurrent + 확률 메커니즘이 압도적이다.
이걸 AI 전반의 미래로 일반화할지는 추가 증거 필요. 다만, Bengio·Sungjin Ahn이 GRAM에 들어와 있다는 사실은 이 흐름이 변두리 실험이 아니라 주류 학계에서 진지하게 다루는 방향임을 보여주는 약한 신호로 읽을 수 있다.
6. 검증 질문 (다음에 항승님이 직접 확인하시면 좋을 것들)
- PTRM의 test-time noise trick을 non-퍼즐 도메인 (예: 코드 합성, theorem proving)에 얹은 후속 논문이 6월 이후 나왔는가?
- GRAM의 amortized variational recursion이 ARC 외 reasoning 벤치마크 (HumanEval, GSM8K 류)에 보고된 결과가 있는가?
- LDT의 lattice projection은 abstract domain 정의가 가능한 응용 외에 어디까지 확장 가능한가? (예: 타입 시스템, 정형 검증)
- 7M params PTRM과 frontier LLM 비교에서 fine-tuned LLM 또는 verifier-augmented LLM과의 head-to-head는 어떻게 나오는가?
- (메타) 영상 화자의 강조점·해석·예측은 transcript 확보 후에만 검증 가능 — yt-dlp 등으로 자막 추출 재시도 가치 있음.
부록 — 원문 링크 모음
- 영상: Forget Massive LLMs (YouTube)
- GRAM: OpenReview · PDF
- PTRM: arXiv 2605.19943 · project page
- LDT: arXiv 2605.08605
- ICLR 2026 RSI workshop: openreview pdf