learning jarvis draft 2026-05-18

[학습] JEPA — Joint-Embedding Predictive Architecture

TL;DR — LeCun이 제안한 SSL 프레임워크. raw input 재구성 대신 latent 공간에서 abstract representation 예측. LLM의 상식 부재·환각·플래닝 한계를 우회하는 AGI 후보 경로.

개념 설명

핵심 차이 (vs LLM)

14 마일스톤 (2022~2026)

# 이름 시점 핵심 기여
1 JEPA / H-JEPA LeCun 원안 representation space 예측, 계층적 multi-timescale
2 I-JEPA 2023.01 이미지 의미 표현, augmentation 없이
3 MC-JEPA 2023.07 motion + content
4 V-JEPA 2024 비디오 latent prediction, 스케일링
5 Audio-JEPA 2025.07 modality-general 입증
6 Point-JEPA 2024.04 3D point cloud
7 3D-JEPA 2024.09 일반 3D 표현
8 ACT-JEPA 2025.01 action+observation, full control 시작
9 V-JEPA 2 2025.06 명시적 world model, zero-shot 로봇 플래닝
10 LeJEPA 이론 완성 (SIGReg, isotropic Gaussian), heuristic 제거
11 Causal-JEPA 2026.02 object-centric, 인과 추론
12 V-JEPA 2.1 2026.03 dense predictive loss
13 LeWorldModel 2026.03 최소 objective end-to-end
14 ThinkJEPA 2026.03 VLM semantic, long-horizon planning

변곡점 2개

  1. V-JEPA 2 (2025.06) — 표현학습이 zero-shot 로봇 플래닝으로 이어진 첫 사례
  2. LeJEPA — JEPA의 검증된 이론적 토대 확보 (collapse 회피가 isotropic Gaussian 등방성 axiom으로 증명)

흐름: 정적 지각(I-JEPA) → 시간 이해(V-JEPA) → 다중 modality 확장 → world model + planning

실전 적용

Jarvis 멀티에이전트에서 LLM 보완할 world model 후보. 트레이딩 봇 시계열 long-horizon 예측에 ThinkJEPA 류 응용 가능성.

미해결 / 오픈 퀘스천
  • V-JEPA는 ~3초 비디오만 처리. 10분 영상 같은 long-horizon 미실현
  • abstraction layer 단계 수 미정
  • 유아 학습 데이터양 비교 미정
함정 / 주의점
  • LLM과 상호 배타적이지 않음 — 하이브리드 시스템으로 보는 게 현실적
  • JEPA 구현체 대부분 Vision 도메인 특화. NLP 직접 대체는 아직 미현

복습 일정

단계 날짜 완료
Day 0 (초학습) 2026-05-18
Day 7 2026-05-25
Day 37 2026-06-24
Day 127 2026-09-22

참고