top of page
tech2.png

Next AI Frontier LAB

From Spatial to Simulation Intelligence

기존 AI가 언어(Transformer)와 시각(Diffusion)을 넘어 발전해 온 흐름 속에서, kai는 차세대 인공지능의 지향점을 '시뮬레이션 지능(Simulation Intelligence)'으로 정의합니다. 우리는 단순한 생성을 넘어, 물리적 공간과 상호작용하며 시뮬레이션이 가능한 AI 모델을 연구합니다.

Gemini_Generated_Image_c6w59yc6w59yc6w5.png

Core Foundation Model: Simulac

Sparse DiNeT (Diffusion-NeRF Transformer)

Simulac은 kai가 개발 중인 차세대 파운데이션 모델로, 2D 생성형 AI의 한계(일관성 부족)와 3D 렌더링의 한계(높은 비용)를 동시에 해결하기 위해 고안된 하이브리드 아키텍처입니다.

스크린샷 2025-11-28 오후 3.22.58.png

Architecture Overview

Simulac은 희소(Sparse) 데이터 처리와 확산(Diffusion) 모델, 그리고 NeRF(Neural Radiance Fields) 볼륨 기술을 결합하여 작동합니다.
 

  1. Input & Analysis: 단일 시점 이미지(Input View Image)를 입력받습니다.

  2. Sparse Transformer: 입력된 이미지에서 핵심적인 3D 특징점을 추출하고 변환합니다.

  3. NeRF Volume Integration: 추출된 정보를 바탕으로 좌표(Coordinate)를 컬러(Color) 및 밀도(Density)로 맵핑하여 3D 볼륨을 구축합니다.

  4. Diffusion Refinement: 구축된 3D 볼륨에 Diffusion 모델을 적용하여 텍스처의 디테일을 보정하고 고품질화합니다.

  5. Alignment Technology: DiT(Diffusion Transformer)의 Sparse Attention Space와 NeRF의 3D Space를 정렬(Alignment)하여, 2D 생성 모델의 창의성과 3D 공간 모델의 물리적 정확성을 일치시킵니다.

Motion GPT (Generative Motion Model)

motion GPT.png

텍스트 명령이나 비디오 입력을 통해 3D 캐릭터의 자연스러운 움직임을 생성하는 모델입니다.
 

  • Motion Encoder/Decoder: 입력된 모션 데이터를 압축(Encode)하고, 이를 다시 3D 공간 상의 움직임으로 복원(Decode)하는 구조를 가집니다.

  • Text-to-Motion: "앞으로 걷다가 왼쪽으로 킥을 한다(a person walks forward then... kicks)"와 같은 자연어 명령을 이해하여 시퀀스 데이터를 생성합니다.

  • Motion Translation: 비디오 속 인물의 움직임을 분석하여 3D 골격(Skeleton) 데이터로 변환합니다.

Motion & Character AI

Dynamic Motion Generation & Encoding

정적인 이미지 생성을 넘어, 캐릭터의 움직임과 감정을 제어하기 위한 특화된 AI 모델들을 보유하고 있습니다.

DNA Encoding (Digital Native Actor)

DNA.png

캐릭터의 외형뿐만 아니라 감정과 표현의 미세한 변화를 처리하기 위한 독자적인 데이터 처리 모델입니다.
 

  • Emotion Embedding: 'Neutral', 'Fear', 'Happiness', 'Sadness', 'Anger' 등의 감정 상태를 수치화하여 캐릭터 모델에 반영합니다.

  • Lip Sync Model: 음성 파형(m, b, v, f, p 등)을 분석하여 실시간으로 캐릭터의 입모양(Viseme)을 생성하는 오디오 기반 생성 모델을 포함합니다.

bottom of page