research ad-hoc jini final 2026-06-10

[리서치] 작은 확률 모델이 미래다 — GRAM·PTRM·LDT 합본 리뷰

출처와 형식 안내

본 보고서는 항승님이 며칠째 못 보고 미뤄둔 YouTube 영상 "Forget Massive LLMs: Why Small Probabilistic Models (GRAM, PTRM, LDT) Are the Future. Tech Review." (링크) 의 논문 합본 리뷰 형태다.

TL;DR


배경 / 질문

며칠째 탭에 띄워둔 영상이 묶어 다루는 3편이 정확히 어떤 흐름이고, "거대 LLM 잊어라" 라는 강한 주장이 논문 본문이 실제로 지지하는 범위가 어디까지인지 분리해서 보고 싶음.

질문 3개

  1. GRAM·PTRM·LDT 각각의 핵심 메커니즘과 실제 결과치는 무엇인가?
  2. 3편을 한 묶음으로 부를 수 있는 공통 archetype은 무엇인가?
  3. 영상 제목의 "LLM의 미래는 작은 확률 모델" 주장은 논문 본문이 어디까지 지지하고, 어디서부터 영상 화자의 확장 narrative인가?

1. GRAM — Generative Recursive reAsoning Models

항목 내용
출처 ICLR 2026 Workshop RSI (AI with Recursive Self-Improvement)
저자 Junyeob Baek, Mingyu Jo, Minsu Kim, Yoshua Bengio, Sungjin Ahn
URL OpenReview Vxu6kcIjwV

핵심 아이디어

결과

한 줄 평: latent recursion을 확률적 sampling 가능한 generative model로 끌어올린 것이 핵심. Bengio·Sungjin Ahn 공저라는 무게도 신호.


2. PTRM — Probabilistic Tiny Recursive Model

항목 내용
출처 arXiv 2605.19943
저자 Amin Sghaier, Ali Parviz, Alexia Jolicoeur-Martineau
URL arxiv.org/abs/2605.19943 · project page

핵심 아이디어

결과

벤치마크 TRM baseline PTRM 비고
Sudoku-Extreme 87.4% 98.75% +11.35pp
Pencil Puzzle Bench 62.6% 91.2% +28.6pp
Pencil Puzzle vs frontier LLM 91.2% vs 55.1% ~1.66배, 비용 < 0.0001x
파라미터 7M

한 줄 평: "noise 주입 + K rollout + Q head 선택" 이라는 극도로 단순한 test-time trick만으로 큰 폭 정확도 향상. 재학습 없이 기존 TRM에 얹는 형태라 채택 비용이 낮다.


3. LDT — Lattice Deduction Transformers

항목 내용
출처 arXiv 2605.08605 (2026-05-09)
저자 Liam Davis, Leopold Haller, Alberto Alfarano, Mark Santolucito
URL arxiv.org/abs/2605.08605

핵심 아이디어

결과

모델 파라미터 벤치마크 정확도
LDT 800K Sudoku-Extreme 100%
LDT 800K Snowflake Sudoku 100%
LDT 1.8M Maze-Hard 99.9%
frontier LLMs* 같은 3개 벤치마크 0%

frontier LLMs는 Claude Opus 4.6, DeepSeek V4-Pro, ChatGPT 5.4. zero-shot으로 추정 — fine-tuned 비교는 본문에 없음.

한 줄 평: 800K 파라미터 = 거대 LLM 대비 백만 배 이상 작음. 그럼에도 Sudoku-Extreme 100% vs 0% 라는 극단의 격차가 핵심 신호. 단, abstract domain이 잘 정의된 퍼즐 도메인이라는 조건부임을 잊지 말 것.


4. 공통 archetype — 왜 한 묶음으로 부르는가

3편을 가로질러 보면, 다음 다섯 가지를 전부 공유한다.

GRAM PTRM LDT
크기 tiny 7M 800K~1.8M
구조 recursive/recurrent latent recursive latent (TRM 기반) recurrent transformer
reasoning 위치 latent space (non-CoT) latent space (non-CoT) latent space (non-CoT)
확률 요소 stochastic generative + variational Gaussian noise + K rollout (sound deduction, lattice 분기)
벤치마크 ARC-1/2 Sudoku-Extreme, Pencil Puzzle Sudoku-Extreme, Snowflake, Maze

세 줄 요약:

영상 제목이 "Small Probabilistic Models" 라고 묶은 이유가 여기다. 우연한 그룹화가 아닌 2026년 상반기 한 흐름.


5. "거대 LLM 잊어라"는 어디까지 사실인가

본 영상 narrative와 논문 본문 주장 간 거리를 분리하면:

논문이 실제로 보이는 것

논문이 말하지 않는 것

해석

영상 제목의 "잊어라"확장 narrative다. 논문이 지지하는 더 정확한 명제는:

닫힌 structured reasoning 과제에서는, 거대 LLM의 chain-of-thought보다 작은 latent-recurrent + 확률 메커니즘이 압도적이다.

이걸 AI 전반의 미래로 일반화할지는 추가 증거 필요. 다만, Bengio·Sungjin Ahn이 GRAM에 들어와 있다는 사실은 이 흐름이 변두리 실험이 아니라 주류 학계에서 진지하게 다루는 방향임을 보여주는 약한 신호로 읽을 수 있다.


6. 검증 질문 (다음에 항승님이 직접 확인하시면 좋을 것들)

  1. PTRM의 test-time noise tricknon-퍼즐 도메인 (예: 코드 합성, theorem proving)에 얹은 후속 논문이 6월 이후 나왔는가?
  2. GRAM의 amortized variational recursion이 ARC 외 reasoning 벤치마크 (HumanEval, GSM8K 류)에 보고된 결과가 있는가?
  3. LDT의 lattice projection은 abstract domain 정의가 가능한 응용 외에 어디까지 확장 가능한가? (예: 타입 시스템, 정형 검증)
  4. 7M params PTRMfrontier LLM 비교에서 fine-tuned LLM 또는 verifier-augmented LLM과의 head-to-head는 어떻게 나오는가?
  5. (메타) 영상 화자의 강조점·해석·예측은 transcript 확보 후에만 검증 가능 — yt-dlp 등으로 자막 추출 재시도 가치 있음.

부록 — 원문 링크 모음