[리서치] 작은 확률 모델이 미래다 — GRAM·PTRM·LDT 합본 리뷰

출처와 형식 안내

본 보고서는 항승님이 며칠째 못 보고 미뤄둔 YouTube 영상 "Forget Massive LLMs: Why Small Probabilistic Models (GRAM, PTRM, LDT) Are the Future. Tech Review." (링크) 의 논문 합본 리뷰 형태다.

영상 transcript는 YouTube 측 차단(403/405)으로 본문 직접 인용 불가 → 화자의 의견·강조점·데모는 본 보고서에서 제외.
대신 영상 제목이 묶어 다루는 3편 1차 출처를 직접 검증 후 정리.
"거대 LLM 잊어라, 작은 확률 모델이 미래다"라는 영상 narrative는 3편의 공통 주장 합집합으로 복원.

TL;DR

3편 모두 "작은 (수십만~수백만 params) recurrent/recursive + latent-space + stochastic 요소"라는 동일 archetype을 공유한다. 우연한 묶음이 아니라, 2026년 상반기 "non-CoT structured reasoning" 흐름의 세 줄기다.
GRAM: latent recursion을 stochastic generative process로 재정식화 (amortized variational inference). ARC-1/ARC-2에서 frontier LLM과 경쟁. (Bengio·Sungjin Ahn 공동저자)
PTRM: recursion step마다 Gaussian noise 주입 + K rollouts 병렬 + Q head로 선택. Sudoku-Extreme 87.4 → 98.75%, Pencil Puzzle 62.6 → 91.2%. 7M params로 frontier LLM 대비 거의 2배 정확도, 비용 1/10000.
LDT: latent state를 lattice projection. abstract interpretation 기반 논리적 sound. 800K params로 Sudoku-Extreme 100%. frontier LLM (Claude Opus 4.6/DeepSeek V4-Pro/ChatGPT 5.4)는 동일 벤치마크 0%.
주의: 모두 닫힌 퍼즐 도메인 벤치마크다. "LLM의 미래는 작은 모델"이라는 확장 주장은 영상 narrative이지 논문 자체 주장이 아니다. open-domain QA·코드·자연어 reasoning 적용 증거는 본 3편엔 없다.

배경 / 질문

며칠째 탭에 띄워둔 영상이 묶어 다루는 3편이 정확히 어떤 흐름이고, "거대 LLM 잊어라" 라는 강한 주장이 논문 본문이 실제로 지지하는 범위가 어디까지인지 분리해서 보고 싶음.

질문 3개

GRAM·PTRM·LDT 각각의 핵심 메커니즘과 실제 결과치는 무엇인가?
3편을 한 묶음으로 부를 수 있는 공통 archetype은 무엇인가?
영상 제목의 "LLM의 미래는 작은 확률 모델" 주장은 논문 본문이 어디까지 지지하고, 어디서부터 영상 화자의 확장 narrative인가?

1. GRAM — Generative Recursive reAsoning Models

항목	내용
출처	ICLR 2026 Workshop RSI (AI with Recursive Self-Improvement)
저자	Junyeob Baek, Mingyu Jo, Minsu Kim, Yoshua Bengio, Sungjin Ahn
URL	OpenReview Vxu6kcIjwV

핵심 아이디어

기존 latent recursive architecture (Tiny Recursive Model 계열)를 stochastic generative process로 재정식화.
token-level chain-of-thought에 의존하지 않고 entirely in latent space에서 reasoning 수행.
amortized variational inference로 generative recursion을 최적화 → 같은 입력에 대해 복수의 plausible latent trajectory를 표현·탐색 가능.
조건부 reasoning p(y|x)와 unconditional generative modeling p(x)를 하나의 framework로 묶음.

결과

ARC-1·ARC-2에서 "much larger language model과 경쟁" 수준 성능.
System 2 (느린 사고형) 과제에 recursion 기반 generative modeling이 효과적임을 입증.

한 줄 평: latent recursion을 확률적 sampling 가능한 generative model로 끌어올린 것이 핵심. Bengio·Sungjin Ahn 공저라는 무게도 신호.

2. PTRM — Probabilistic Tiny Recursive Model

항목	내용
출처	arXiv 2605.19943
저자	Amin Sghaier, Ali Parviz, Alexia Jolicoeur-Martineau
URL	arxiv.org/abs/2605.19943 · project page

핵심 아이디어

Tiny Recursive Model (TRM)이 suboptimal local minimum에 갇히는 문제를 test-time stochastic exploration으로 해결.
매 deep recursion step의 latent state에 Gaussian noise σ를 주입 → K개의 rollout을 병렬로 다양한 solution basin 탐색.
최종 선택은 기존 Q head (원래 early-stopping용)로 highest Q value인 rollout 채택.
학습 변경·task-specific augmentation 모두 불필요 — pure test-time technique.

결과

벤치마크	TRM baseline	PTRM	비고
Sudoku-Extreme	87.4%	98.75%	+11.35pp
Pencil Puzzle Bench	62.6%	91.2%	+28.6pp
Pencil Puzzle vs frontier LLM	—	91.2% vs 55.1%	~1.66배, 비용 < 0.0001x
파라미터	—	7M	—

한 줄 평: "noise 주입 + K rollout + Q head 선택" 이라는 극도로 단순한 test-time trick만으로 큰 폭 정확도 향상. 재학습 없이 기존 TRM에 얹는 형태라 채택 비용이 낮다.

3. LDT — Lattice Deduction Transformers

항목	내용
출처	arXiv 2605.08605 (2026-05-09)
저자	Liam Davis, Leopold Haller, Alberto Alfarano, Mark Santolucito
URL	arxiv.org/abs/2605.08605

핵심 아이디어

Chain-of-thought LLM이 search-hard structured reasoning에서 실패한다는 관찰에서 출발.
recurrent transformer의 forward pass 사이에 latent state를 lattice로 projection → symbolic deduction (constraint solver의 추론)을 mirror.
학습은 abstract-interpretation 기반 solution candidate 집합 approximation 으로 supervise. on-policy 학습 (search-based solver 모사).
결과적으로 논리적 sound 보장 — correct answer를 내거나 abstain. 잘못된 답은 원리적으로 안 나옴.

결과

모델	파라미터	벤치마크	정확도
LDT	800K	Sudoku-Extreme	100%
LDT	800K	Snowflake Sudoku	100%
LDT	1.8M	Maze-Hard	99.9%
frontier LLMs*	—	같은 3개 벤치마크	0%

frontier LLMs는 Claude Opus 4.6, DeepSeek V4-Pro, ChatGPT 5.4. zero-shot으로 추정 — fine-tuned 비교는 본문에 없음.

한 줄 평: 800K 파라미터 = 거대 LLM 대비 백만 배 이상 작음. 그럼에도 Sudoku-Extreme 100% vs 0% 라는 극단의 격차가 핵심 신호. 단, abstract domain이 잘 정의된 퍼즐 도메인이라는 조건부임을 잊지 말 것.

4. 공통 archetype — 왜 한 묶음으로 부르는가

3편을 가로질러 보면, 다음 다섯 가지를 전부 공유한다.

축	GRAM	PTRM	LDT
크기	tiny	7M	800K~1.8M
구조	recursive/recurrent latent	recursive latent (TRM 기반)	recurrent transformer
reasoning 위치	latent space (non-CoT)	latent space (non-CoT)	latent space (non-CoT)
확률 요소	stochastic generative + variational	Gaussian noise + K rollout	(sound deduction, lattice 분기)
벤치마크	ARC-1/2	Sudoku-Extreme, Pencil Puzzle	Sudoku-Extreme, Snowflake, Maze

세 줄 요약:

작다 — 거대 LLM이 아니라 수십만~수백만 params.
latent에서 사고한다 — chain-of-thought 텍스트 토큰을 거치지 않음.
확률/탐색 메커니즘이 핵심 — sampling, noise injection, lattice 분기 등 deterministic 1-pass 추론이 아님.

영상 제목이 "Small Probabilistic Models" 라고 묶은 이유가 여기다. 우연한 그룹화가 아닌 2026년 상반기 한 흐름.

5. "거대 LLM 잊어라"는 어디까지 사실인가

본 영상 narrative와 논문 본문 주장 간 거리를 분리하면:

논문이 실제로 보이는 것

닫힌 structured reasoning 퍼즐 (Sudoku, Maze, ARC) 에서 수십만~수백만 params 모델이 frontier CoT LLM을 크게 앞선다.
비용·파라미터·논리 보장 측면 모두 우위.
재학습 없이 test-time trick만으로 얹을 수 있는 형태도 있다 (PTRM).

논문이 말하지 않는 것

open-domain 자연어 reasoning, 코드 생성, 멀티턴 대화 등 현재 LLM이 잘하는 영역에 같은 archetype이 통하는지는 본 3편으로는 알 수 없음.
frontier LLM 0% 결과는 zero-shot 일 가능성이 큼. fine-tuned LLM 또는 tool-use 비교는 없거나 약함.
abstract domain이 잘 정의된 도메인이라는 LDT의 전제 — 이 조건이 무너지는 영역에서는 lattice 접근의 논리 sound 보장이 사라짐.

해석

영상 제목의 "잊어라" 는 확장 narrative다. 논문이 지지하는 더 정확한 명제는:

닫힌 structured reasoning 과제에서는, 거대 LLM의 chain-of-thought보다 작은 latent-recurrent + 확률 메커니즘이 압도적이다.

이걸 AI 전반의 미래로 일반화할지는 추가 증거 필요. 다만, Bengio·Sungjin Ahn이 GRAM에 들어와 있다는 사실은 이 흐름이 변두리 실험이 아니라 주류 학계에서 진지하게 다루는 방향임을 보여주는 약한 신호로 읽을 수 있다.

6. 검증 질문 (다음에 항승님이 직접 확인하시면 좋을 것들)

PTRM의 test-time noise trick을 non-퍼즐 도메인 (예: 코드 합성, theorem proving)에 얹은 후속 논문이 6월 이후 나왔는가?
GRAM의 amortized variational recursion이 ARC 외 reasoning 벤치마크 (HumanEval, GSM8K 류)에 보고된 결과가 있는가?
LDT의 lattice projection은 abstract domain 정의가 가능한 응용 외에 어디까지 확장 가능한가? (예: 타입 시스템, 정형 검증)
7M params PTRM과 frontier LLM 비교에서 fine-tuned LLM 또는 verifier-augmented LLM과의 head-to-head는 어떻게 나오는가?
(메타) 영상 화자의 강조점·해석·예측은 transcript 확보 후에만 검증 가능 — yt-dlp 등으로 자막 추출 재시도 가치 있음.

부록 — 원문 링크 모음

영상: Forget Massive LLMs (YouTube)
GRAM: OpenReview · PDF
PTRM: arXiv 2605.19943 · project page
LDT: arXiv 2605.08605
ICLR 2026 RSI workshop: openreview pdf