research jini final 2026-06-07

[리서치] 오픈 웨이트 1주일 정리 — Victor Mustar 큐레이션 (2026-06-05)

TL;DR

1주일에 25+ 오픈 웨이트 릴리스. Victor Mustar (HuggingFace 프로덕트 리드)가 큐레이션한 한 주 요약. Yann LeCun이 RT한 트래픽이 Pantheon signal-feed에 잡혀 Jarvis가 묶었다.
축 4개로 정리: 다중모달 통합(Gemma 4), 코딩 특화(JetBrains Mellum 2), 하이브리드 아키텍처+장컨텍스트(NVIDIA Nemotron 3), 거대 MoE+1M(DeepSeek V4).
방향성 한 문장: 더 이상 "더 큰 dense 모델"이 헤드라인이 아니다. 작게 활성화하고, 길게 기억하고, 도메인에 박는 방향으로 전선이 옮겨갔다.

원문 출처:
- 큐레이션: https://x.com/victormustar/status/2063017894221591008 (paywall — Jarvis 요약 기반 복원)
- 공개 자료 보강: HuggingFace blog, NVIDIA dev blog, 모델 카드

이 문서의 한계 (먼저 짚고)

원문 X 페이지가 paywall이라 본문 전체를 직접 보지 못했다.
Jarvis가 signal-feed에 묶은 요약 4줄과 공개 자료 (HuggingFace blog, 모델 카드, NVIDIA dev blog 등)로 재구성한 것.
따라서 25+ 모델의 전수 리스트는 미확정이다. 본 문서는 Jarvis 요약이 명시한 4개 축과, 그 축에 대응하는 대표 모델 카드만 다룬다.
각 항목 옆에 [확인] / [추정] 마커를 붙였다.

한 주의 4축 요약

축 1 — 다중모달 통합 (Gemma 4) [확인]

Google Gemma 4. 텍스트·이미지·오디오·비디오를 하나의 모델 안에서 처리.
변형: E2B / E4B / 12B / 26B-A4B (MoE) / 31B. 12B Unified는 encoder-free 다중모달.
벤치마크 (공개 자료): AIME 2026 77.5, LCB v6 72.0 (12B Unified 기준).
의미: encoder-free 다중모달이 12B 급에서 실용 점수를 찍은 게 핵심. 별도 vision encoder 붙이는 파이프라인이 한 단계 더 합쳐졌다.

축 2 — 코딩 특화 (JetBrains Mellum 2) [확인]

JetBrains Mellum 2. 12B total / 2.5B active MoE. Apache 2.0.
변형 6종 동시 공개: Base, Base-Pretrain, Instruct, Instruct-SFT, Thinking, Thinking-SFT.
성능 카드: LCB v6 69.9 (2.5B active 기준). 유사 사이즈 대비 2배 빠른 추론.
Thinking 변형은 RLVR (Reinforcement Learning with Verifiable Rewards)로 학습. reasoning 블록을 명시적으로 출력하고 결론을 낸다. agentic·multi-step debugging 타겟.
의미: 코딩 도메인이 작게 활성화하는 MoE + verifiable reward 조합으로 굳어지고 있다. JetBrains가 IDE 벤더로서 자체 모델을 들고 들어온 것도 신호.

축 3 — 하이브리드 + 장컨텍스트 (NVIDIA Nemotron 3 Super) [추정 — Jarvis 요약의 "Mamba-MoE 하이브리드 1M" 항목에 가장 부합]

NVIDIA Nemotron 3 Super. 하이브리드 Mamba-Transformer LatentMoE.
사이즈: 120B total / 12B active. native 1M token context. NVFP4 native pretraining + MTP (Multi-Token Prediction) speculative decoding.
벤치마크 (공개 자료): RULER@1M 91.8 — 장컨텍스트 검색 정확도.
의미: dense Transformer 한계가 길이에서 가장 먼저 터진다. Mamba 시퀀스 효율 + Transformer 정밀도 + MoE 희소성 → 1M 컨텍스트가 데모가 아닌 실측 벤치마크에 들어왔다.

축 4 — 거대 MoE + 1M 컨텍스트 (DeepSeek V4) [추정 — 같은 주 릴리스, 큐레이션 포함 가능성 높음]

DeepSeek V4-Pro. 1.6T total / 49B active MoE. Apache 2.0. 1M 컨텍스트.
DeepSeek V4-Flash. 284B / 13B active. 1M 컨텍스트.
의미: open weight 진영에서 trillion-scale + 1M context가 동시에 떨어진 첫 주. 운영 비용은 active 파라미터만 부담하므로 클러스터 규모는 dense 환산보다 훨씬 작다.

그래서 무엇을 봐야 하나 (4축 → 결정 질문)

온디바이스 후보: Mellum 2 2.5B active + MLX/ONNX 배포. 항승님 IronCoach iPhone hybrid 검토에 Haiku 대안 카드로 한 번 평가해볼 만하다. → 단, 코딩 도메인 특화라 일반 대화 품질은 별도 측정 필요.
장컨텍스트 평가: Pantheon RAG 작업이 진행 중이라 Nemotron 3의 1M RULER 91.8 수치가 baseline 후보. local 호스팅은 비현실적이지만, 벤치마크 비교 기준으로는 유효.
trillion-scale은 우리 워크플로우엔 추론 비용 측면에서 관전 모드. API로 들어왔을 때 가격 비교만.
Gemma 4 12B Unified는 멀티모달 데모용으로 한 번 돌려볼 가치. encoder-free라 파이프라인이 단순.

검증 질문 (다음 액션)

원문 X 포스트의 25+ 모델 전체 리스트를 보고 싶다면, Jarvis signal-feed의 raw payload(있다면) 또는 Victor Mustar의 다른 채널 (LinkedIn, HF blog) 크로스 체크가 필요. 둘 중 어느 쪽 우선 확인할까요?
IronCoach Haiku 대안으로 Mellum 2를 한 카드 더 받아볼까요, 아니면 코딩 특화라 컷할까요?
Nemotron 3의 RULER@1M 수치를 Pantheon RAG 평가 기준선으로 벤치 항목에 박을지 여부.

참고

HuggingFace blog: Mellum 2 launch (huggingface.co/blog/JetBrains/mellum2-launch)
HuggingFace 모델 카드: Gemma 4, Mellum 2 collection, DeepSeek-V4-Pro
NVIDIA dev blog: Nemotron 3 Super
큐레이션 원문: Victor Mustar (HF Product Lead) — 매주 오픈 웨이트 다이제스트 운영