top of page
tech2.png

Next AI Frontier LAB

Simulation Intelligence

기존 AI가 언어(Transformer)와 시각(Diffusion)을 넘어 발전해 온 흐름 속에서, kai는 차세대 인공지능의 지향점을 '시뮬레이션 지능(Simulation Intelligence)'으로 정의합니다. 우리는 단순한 생성을 넘어, 물리적 공간과 상호작용하며 시뮬레이션이 가능한 AI 모델을 연구합니다.

tech_process.png

Technology

1. Spatial Intelligent Model: Splats 3D

입력 데이터(이미지, 비디오, 텍스트, 음성)로부터 정교한 3D 객체와 공간을 생성하고 편집하는 혁신적인 AI 기술을 소개합니다.

1. 다중 소스 기반 3D 객체 및 공간 생성 (Multimodal 3D Generation)

이미지, 비디오, 텍스트 등 다양한 입력을 활용하여 고품질의 3D 에셋을 빠르게 생성합니다.

1_Multimodal 3D Generation.png
  • 이미지 기반 생성: 단일 이미지에서 다중 시점 이미지를 추론하여 기하학적으로 타당한 3D 객체(Mesh) 및 360도 파노라마 3D 공간(Gaussian)을 생성합니다

2_Multimodal 3D Generation.png
  • 텍스트/음성 기반 생성: "현대적인 스타일의 거실"과 같은 텍스트나 음성 설명만으로 레이아웃을 설계하고 적합한 3D 객체를 배치하여 공간을 완성합니다.

3_Multimodal 3D Generation.png
  • 비디오 기반 복원: 입력 비디오의 카메라 궤적과 깊이 맵을 분석하여 실제와 일관된 정교한 3D 공간을 복원합니다.

2. 지능형 3D 편집 및 스타일화 (Intelligent 3D Editing)

생성된 3D 모델을 사용자의 의도에 맞춰 자유롭게 수정하고 최적화합니다.

1_Intelligent 3D Editing.png
  • 스트로크 기반 편집: 사용자의 단순한 스트로크 입력으로 공간의 원근감을 조정하거나 뎁스(Depth) 정보를 수정하여 공간 구조를 변경합니다.

2_Intelligent 3D Editing.png
  • 텍스트 기반 편집: 텍스트 명령어를 통해 기존 3D 객체의 특정 파트를 식별하고 스타일을 유지하면서 세부적인 편집을 수행합니다.

3. 실시간 렌더링 최적화 (Real-time Rendering Optimization)

복잡한 3D 데이터를 실제 서비스에 즉시 활용할 수 있도록 경량화 및 최적화 기술을 제공합니다.

1_Real-time Rendering Optimization.png
2_Real-time Rendering Optimization.png
  • 메쉬 변환 기술: 포인트 클라우드나 가우시안 형태의 3D 공간을 실시간 렌더링이 가능한 메쉬(Mesh) 형태로 변환합니다.

  • 고성능 퍼포먼스: 최적화된 연산 파이프라인을 통해 초당 60 FPS 이상의 매끄러운 렌더링 속도를 구현합니다.

2. Emotion Driven Character Acting

감정이 움직이는 캐릭터의 액팅

1. Digital Neural Actor Format: .dna

DNA.png

.dna 는 캐릭터의 외형을 표현하는 포맷

  • 캐릭터의 외형, 음성, 감정 표현을 포함하는 캐릭터 시스템입니다. 향후 디지탈 액터에서 가장 중요한 요소로 진화하고 있습니다.
     

  • DNA는 캐릭터의 외형을 DNA처럼 부호화하여 전송하고 엔진에서 복원하는 파일 포맷입니다. 음성 파형 분석을 통해 Automatic Lip Sync(자동 립싱크)가 가능합니다.

  • Emotion Driven Character 감정까지 학습할 수 있는 AI 캐릭터 시스템입니다.

dna_aidol.png

2. 감정처리엔진 EDCA

motion GPT.png

캐릭터의 감정을 추측하고 액션을 제어하는 엔진

  1. EDCA 를 통한 액션 컨트롤

  2. ​캐릭터의 연기가 목표인 시스템

motion_aidol.png

3. Neural Rendering (뉴럴 렌더링)

사실적이고 최적화된 최종 결과물 출력을 위한 기술입니다.

  • Diffusion X Gaussian Splating

​기반 기술을 연구하여 산업에서 요구되는 렌더링, 즉 룩뎁을 해결합니다.

render_aidol.png

3. Foundation Model: SimulaC

Sparse 3D DiT (3D Diffusion in Spares Attention Transformer)

DNPT는 NeRF를 단일 암시적 함수가 아닌 편집 가능한 3D 토큰 공간으로 재해석하고, Sparse 3D Diffusion Transformer를 통해 객체 단위 의미 편집과 시점 일관성을 동시에 달성하는 새로운 3D 편집 프레임워크입니다.

주요 특징

  • 3D 토큰화: NeRF를 고정 좌표 + 학습 가능한 feature를 가진 3D 토큰 집합으로 변환

  • Sparse 3D DiT: 공간적 근접성과 feature 유사도를 결합한 희소 어텐션으로 객체 수준 구조를 자동 형성

  • 의미 기반 편집: 좌표는 유지하고 feature만 확산·재구성하여 색상, 제거, 구조 편집을 안정적으로 수행

  • 시점 일관성 보장: 모든 뷰에서 편집 결과가 일관되게 유지됨

  • 이중 재구성 파이프라인: Gaussian Splatting(실시간)과 NeRF 재적합(고품질) 모두 지원

  • 기존 NeRF-editing 대비 우수 성능: 객체 단위 편집 정확도, 시점 일관성, 재구성 품질에서 전반적 개선

Architecture Overview

Pink Poppy Flowers
Pink Poppy Flowers

NeRF를 단일 암시적 장이 아닌 편집 가능한 3D 토큰 공간으로 재정의하고, Sparse 3D Diffusion Transformer를 통해 객체 단위 의미 편집과 시점 일관성을 동시에 달성할 수 있는 연구를 진행중입니다.
 

주요 목표

  • NeRF의 패러다임 전환: NeRF를 연속적 implicit field가 아닌 조작 가능한 3D 토큰 집합으로 재해석하는 새로운 표현 관점을 제시

  • DNPT 프레임워크 제안: NeRF 토큰화 + Diffusion + Sparse Transformer를 결합한 최초의 의미 기반 3D 편집 파이프라인 설계

  • Sparse 3D DiT 확장: Sparse DiT의 객체 중심 attention 특성을 3D 토큰 공간으로 확장하여 자기 조직적 객체 분해를 실현

  • 의미 편집과 시점 일관성의 양립: 좌표 고정·feature 확산 구조를 통해 기존 NeRF-editing의 핵심 한계를 해결

  • 실용적 재구성 파이프라인: Gaussian Splatting과 NeRF 재적합을 모두 지원하여 실시간성과 고품질 렌더링을 동시에 달성

  • 정성·정량적 성능 우위 입증: 색상 변경, 객체 제거, 구조 편집, 시점 일관성 등 모든 평가 항목에서 기존 방법 대비 명확한 성능 향상 확인

최종목표: Neural 3D Engine, Splats 3D

  • ​소설, 만화, 애니메이션, 게임을 모두 생성할 수 있는 단일 기반 기술으로서의 AI 컨텐츠 생성 엔진을 개발합니다.

bottom of page