Trender — AI 트렌드 자동 수집

SANA-WM 아키텍처. 텍스트, 비디오, 포즈 토큰은 GDN과 소프트맥스 어텐션 블록을 번갈아 거치며 처리된다. (사진=arXiv)

단일 GPU 환경에서도 1분 길이의 720p 영상을 생성할 수 있는 26억 매개변수 규모의 월드 모델이 나왔다.

엔비디아는 14일(현지시간) 고해상도 장시간 영상을 효율적으로 생성할 수 있는 오픈소스 월드 모델 ‘ SANA-WM’을 온라인 아카이브를 통해 공개했다.

월드 모델은 한장의 초기 이미지와 카메라 움직임, 행동 정보 등을 바탕으로 현실적인 영상 시퀀스를 생성하는 AI 시스템이다. 최근 로봇 훈련과 가상 시뮬레이션 분야의 핵심 기술로 떠오르고 있지만, 긴 고해상도 영상을 생성하려면 막대한 GPU 자원과 메모리가 필요하다는 한계가 있었다.

엔비디아는 이번에 공개한 SANA-WM이 이러한 문제를 해결하기 위해 설계됐다고 설명했다. 이 모델은 26억개(2.6B) 매개변수를 기반으로 하며, 720p 해상도의 1분짜리 영상을 네이티브 방식으로 생성할 수 있다. 특히 카메라의 위치와 회전까지 포함한 ‘6자유도(6-DoF)’ 움직임을 정밀하게 제어할 수 있도록 설계됐다.

기존 오픈소스 경쟁 모델들은 대부분 여러개의 GPU를 사용해야 하거나, 연산량을 줄이기 위해 해상도를 낮춰야 했다. 하지만 SANA-WM은 단일 GPU에서도 동작 가능하며, 압축·경량화 버전은 소비자용 GPU인 '지포스 RTX 5090' 한장에서 60초짜리 720p 영상을 34초 만에 생성할 수 있다.

Nvidia just dropped SANA-WM: a 2.6B open world model. Paper out, code out, weights soon.
The number: 60s of 720p controllable video on a single RTX 5090 in 34 seconds.
When the weights drop, the compute cost of embodied AI research stops gating entry.
— Somi AI (@somi_ai)pic.twitter.com/MAM0O0MqWk May 16, 2026

엔비디아는 모델 효율을 높이기 위해 4가지 핵심 기술을 적용했다고 밝혔다.

우선 ‘하이브리드 선형 어텐션(Hybrid Linear Attention)’ 구조를 통해 긴 영상 생성 시 메모리 사용량을 크게 줄였다. 기존 트랜스포머 기반 영상 생성 모델은 영상 길이가 길어질수록 연산량이 급격히 증가하는 문제가 있었지만, SANA-WM은 프레임 단위의 게이티드 델타넷(GDN)과 일부 소프트맥스 어텐션을 혼합해 이를 개선했다.

또 다른 핵심은 ‘듀얼-브랜치 카메라 컨트롤(Dual-Branch Camera Control)’이다. 이는 영상 전체의 카메라 이동 흐름과 프레임 내부의 세부 움직임을 각각 다른 방식으로 처리해, 장시간 영상에서도 카메라 궤적을 안정적으로 유지하도록 만든 기술이다. 이를 통해 기존 모델보다 카메라 움직임 정확도가 크게 향상했다고 설명했다.

영상 품질을 높이기 위한 2단계 생성 방식도 도입됐다. 1차 생성 결과물에 별도의 ‘리파이너(refiner)’ 모델을 적용해 장시간 생성 과정에서 발생하는 구조 붕괴나 화면 드리프트 현상을 줄이는 방식이다. 리파이너를 적용했을 때 장시간 영상 품질 저하가 크게 감소했다고 밝혔다.

데이터 구축 방식도 눈길을 끈다. 연구진은 인터넷 공개 영상과 3D 가우시안 스플래팅(Gaussian Splatting) 기반 합성 영상 등을 활용해 총 21만2975개의 학습 클립을 구축했다. 여기에 카메라 위치·회전 정보를 자동 추출하는 자체 주석 파이프라인을 적용해 정밀한 6-DoF 학습 데이터를 생성했다.

훈련 효율성도 강조됐다. SANA-WM은 64개의 엔비디아 H100 GPU에서 약 15일 동안 학습됐으며, 이는 대규모 산업용 월드 모델 대비 상대적으로 적은 자원이라는 설명이다. 엔비디아는 자체 개발한 트리톤(Triton) 커널 최적화를 통해 학습 및 추론 속도를 1.5~2배가량 개선했다고 덧붙였다.

엔비디아가 구축한 60초 월드 모델 벤치마크에서 SANA-WM은 카메라 추종 정확도와 영상 안정성에서 기존 오픈소스 모델들을 앞섰다. 리파이너 적용 버전은 720p 해상도에서 시각 품질 점수(VBench Overall) 80점대를 기록했으며, 8개의 'H100' GPU 기준 시간당 22개의 영상을 생성해 경쟁 모델 대비 최대 36배 높은 처리량을 보였다.

특히 기존 대형 모델인 'LingBot-World'나 'HY-WorldPlay'가 여러 GPU를 요구했던 것과 달리, SANA-WM은 단일 GPU 환경에서도 비슷한 수준의 품질을 구현했다는 점이 차별점으로 평가된다.

하지만 연구진은 현재 모델이 완전한 3D 장면 메모리를 갖추고 있지는 않으며, 긴 영상이나 복잡한 동적 장면에서는 여전히 품질 저하가 발생할 수 있다고 인정했다.

현재 SANA-WM 모델은 깃허브를 통해 다운로드할 수 있다.

박찬 기자 cpark@aitimes.com

다른기사 보기

엔비디아, 'RTX 5090' 한장으로 1분 영상 생성하는 월드 모델 오픈 공개

추출된 키워드

원문