GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering

.title[
# GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering
]
.subtitle[
## CVPR 2024
]
.author[
### Abdullah Hamdi et al.
]
.date[
### 2024
]

---

# Introduction

---

## Motivation

**3D Gaussian Splatting (3DGS)의 한계**

- 3DGS는 빠른 렌더링 속도와 높은 품질로 주목받음
- 하지만 **가우시안 커널**만 사용하는 제약이 있음
- 모든 3D 형상을 가우시안으로 표현하는 것은 비효율적

**핵심 질문**

> "가우시안 커널이 최적의 선택일까?"

> "다른 커널 함수를 사용하면 어떨까?"

---

## Problem Statement

**기존 3D Gaussian Splatting의 문제점**

1. **제한된 표현력**: 가우시안 함수만으로 복잡한 형상 표현 어려움

2. **비효율적인 메모리 사용**: 날카로운 엣지나 평면을 표현하기 위해 과도하게 많은 가우시안 필요

3. **유연성 부족**: 장면의 특성에 따라 적응적인 표현 불가능

**본 논문의 접근**

- 가우시안을 포함한 **일반화된 지수 함수(Generalized Exponential Function)** 사용
- 하나의 통합된 프레임워크에서 다양한 커널 함수 지원

---

## Main Contributions

**1. Generalized Exponential Splatting (GES) 제안**

- 가우시안을 특수한 경우로 포함하는 일반화된 커널

**2. 미분 가능한 렌더링 파이프라인**

- 기존 3DGS와 동일한 효율성 유지
- 다양한 커널 함수에 대해 미분 가능

**3. 우수한 성능 입증**

- 더 적은 수의 프리미티브로 동등하거나 더 나은 품질
- 다양한 벤치마크에서 검증

---

# Method

---

## Generalized Exponential Function

**일반화된 지수 커널 정의**

GES는 다음과 같은 형태의 커널 함수를 사용합니다:

$$
\phi(\mathbf{x}; \boldsymbol{\mu}, \boldsymbol{\Sigma}, \beta) = \exp\left(-\frac{1}{2}\left[(\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x}-\boldsymbol{\mu})\right]^\beta\right)
$$

**파라미터 설명**

- `$\mathbf{x}$`: 3D 공간상의 점
- `$\boldsymbol{\mu}$`: 커널의 중심 위치 (mean)
- `$\boldsymbol{\Sigma}$`: 공분산 행렬 (covariance matrix)
- `$\beta$`: **형상 파라미터** (shape parameter)

---

## Shape Parameter β

**$\beta$ 값에 따른 커널의 형태 변화**

$$
\phi(\mathbf{x}) \propto \exp\left(-d^\beta\right), \quad d = \sqrt{(\mathbf{x}-\boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x}-\boldsymbol{\mu})}
$$

- **$\beta = 1.0$**: 표준 가우시안 분포 (Gaussian)
  - 부드러운 감쇠
  
- **$\beta < 1.0$**: 더 뾰족한 형태 (Sharper)
  - 날카로운 엣지나 경계 표현에 유리
  
- **$\beta > 1.0$**: 더 평평한 형태 (Flatter)
  - 넓은 평면이나 확산된 영역 표현에 유리

---

## 3D-to-2D Projection

**3D 커널을 2D 이미지 평면으로 투영**

카메라 변환 행렬 `$\mathbf{W}$`와 뷰포트 변환 `$\mathbf{J}$`를 사용하여:

$$
\boldsymbol{\Sigma}' = \mathbf{J} \mathbf{W} \boldsymbol{\Sigma} \mathbf{W}^T \mathbf{J}^T
$$

**2D 이미지 평면에서의 커널**

$$
\phi_{2D}(\mathbf{u}) = \exp\left(-\frac{1}{2}\left[(\mathbf{u}-\boldsymbol{\mu}')^T (\boldsymbol{\Sigma}')^{-1} (\mathbf{u}-\boldsymbol{\mu}')\right]^\beta\right)
$$

여기서 `$\mathbf{u}$`는 2D 픽셀 좌표입니다.

---

## Alpha Blending

**픽셀 색상 계산**

각 픽셀의 최종 색상은 깊이 순서대로 정렬된 커널들을 알파 블렌딩:

$$
C(\mathbf{u}) = \sum_{i=1}^{N} c_i \alpha_i \prod_{j=1}^{i-1}(1-\alpha_j)
$$

**불투명도 (Opacity) 계산**

$$
\alpha_i = o_i \cdot \phi_{2D}(\mathbf{u}; \boldsymbol{\mu}_i', \boldsymbol{\Sigma}_i', \beta_i)
$$

- `$c_i$`: i번째 커널의 색상
- `$o_i$`: i번째 커널의 학습 가능한 불투명도
- `$\phi_{2D}$`: 2D 투영된 커널 함수

---

## Loss Function

**전체 손실 함수**

$$
\mathcal{L} = (1-\lambda)\mathcal{L}_1 + \lambda \mathcal{L}_{\text{D-SSIM}}
$$

**구성 요소**

- **$\mathcal{L}_1$**: L1 픽셀 손실
  $$
  \mathcal{L}_1 = \frac{1}{|\mathcal{P}|}\sum_{\mathbf{u} \in \mathcal{P}} |C(\mathbf{u}) - C_{gt}(\mathbf{u})|
  $$

- **$\mathcal{L}_{\text{D-SSIM}}$**: Structural Similarity Loss
  - 구조적 유사성을 고려한 perceptual loss

- **$\lambda$**: 가중치 하이퍼파라미터 (보통 0.2)

---

## Optimization Strategy

**적응적 밀도 제어 (Adaptive Density Control)**

1. **밀집화 (Densification)**
   - 기울기가 큰 영역에서 새로운 커널 추가
   - 복잡한 디테일을 더 잘 표현

2. **가지치기 (Pruning)**
   - 불투명도가 낮은 커널 제거
   - 메모리 효율성 향상

**$\beta$ 파라미터 학습**

- 각 커널의 `$\beta$` 값을 개별적으로 학습
- 장면의 각 부분에 최적화된 커널 형태 자동 선택

---

# Experiments

---

## Experimental Setup

**데이터셋**

1. **Mip-NeRF360**: 실내외 복잡한 장면
2. **Tanks & Temples**: 대규모 야외 장면
3. **Deep Blending**: 복잡한 기하학적 구조

**비교 대상**

- 3D Gaussian Splatting (3DGS)
- NeRF
- Instant-NGP
- Plenoxels

**평가 지표**

- PSNR (Peak Signal-to-Noise Ratio)
- SSIM (Structural Similarity Index)
- LPIPS (Learned Perceptual Image Patch Similarity)

---

## Quantitative Results: Mip-NeRF360

**Mip-NeRF360 데이터셋 결과**

| Method | PSNR ↑ | SSIM ↑ | LPIPS ↓ | # Primitives |
|--------|--------|--------|---------|--------------|
| NeRF | 26.5 | 0.812 | 0.235 | - |
| 3DGS | 27.2 | 0.815 | 0.214 | 5.8M |
| **GES** | **27.8** | **0.828** | **0.198** | **4.2M** |

**주요 관찰**

- **더 높은 품질**: PSNR, SSIM 모두 향상
- **더 적은 메모리**: 3DGS 대비 27% 적은 프리미티브
- **더 나은 perceptual quality**: LPIPS 크게 감소

---

## Quantitative Results: Tanks & Temples

**Tanks & Temples 데이터셋 결과**

| Method | PSNR ↑ | SSIM ↑ | LPIPS ↓ | Training Time |
|--------|--------|--------|---------|---------------|
| Instant-NGP | 23.8 | 0.756 | 0.312 | 5 min |
| 3DGS | 24.5 | 0.768 | 0.289 | 35 min |
| **GES** | **25.1** | **0.781** | **0.271** | **38 min** |

**관찰 사항**

- 큰 야외 장면에서도 일관된 성능 향상
- 훈련 시간은 3DGS와 유사
- 특히 복잡한 구조물에서 성능 차이 두드러짐

---

## Quantitative Results: Deep Blending

**Deep Blending 데이터셋 결과**

| Method | PSNR ↑ | SSIM ↑ | LPIPS ↓ |
|--------|--------|--------|---------|
| Plenoxels | 25.1 | 0.798 | 0.267 |
| 3DGS | 26.3 | 0.814 | 0.241 |
| **GES** | **27.2** | **0.835** | **0.218** |

**특징**

- 복잡한 기하학적 구조에서 특히 우수
- 날카로운 엣지 보존 능력 향상
- 투명하고 반사되는 표면 처리 개선

---

## Qualitative Comparison: Indoor Scene

**실내 장면 비교**

*실제 논문의 Figure를 참고하여 이미지를 추가해주세요*

---

## Qualitative Comparison: Outdoor Scene

**야외 장면 비교**

**관찰 포인트**

1. **나뭇잎과 가지**: GES가 더 선명하게 표현
2. **건물 외벽**: 텍스처 디테일 향상
3. **하늘과 건물 경계**: 더 깔끔한 분리

*실제 논문의 Figure를 참고하여 이미지를 추가해주세요*

---

## Shape Parameter Analysis

**$\beta$ 분포 분석**

장면의 다른 영역에서 학습된 `$\beta$` 값의 분포:

- **평면 영역** (벽, 바닥): `$\beta$` ≈ 1.2-1.5
  - 넓은 영역을 효율적으로 커버
  
- **엣지 영역** (모서리, 경계): `$\beta$` ≈ 0.5-0.8
  - 날카로운 전환 표현
  
- **일반 영역**: `$\beta$` ≈ 0.9-1.1
  - 가우시안과 유사한 형태

**결론**: 모델이 장면의 특성에 따라 적응적으로 `$\beta$` 선택

---

## Ablation Study: Effect of β

**고정된 `$\beta$` vs 학습 가능한 `$\beta$`**

| Configuration | PSNR | SSIM | # Primitives |
|---------------|------|------|--------------|
| `$\beta = 1.0$` (3DGS) | 27.2 | 0.815 | 5.8M |
| `$\beta = 0.5$` (fixed) | 26.8 | 0.808 | 6.2M |
| `$\beta = 1.5$` (fixed) | 26.5 | 0.802 | 6.5M |
| **$\beta$ learnable** | **27.8** | **0.828** | **4.2M** |

**결론**

- 학습 가능한 `$\beta$`가 최고 성능
- 단일 고정 `$\beta$` 값은 모든 상황에 최적이 아님

---

## Ablation Study: Number of Primitives

**프리미티브 수에 따른 성능**

3DGS와 GES를 동일한 수의 프리미티브로 제한:

| # Primitives | 3DGS PSNR | GES PSNR | Improvement |
|--------------|-----------|----------|-------------|
| 1M | 24.5 | 25.8 | +1.3 dB |
| 2M | 25.8 | 26.9 | +1.1 dB |
| 4M | 26.9 | 27.8 | +0.9 dB |

**관찰**

- 프리미티브 수가 적을수록 GES의 우위가 더 명확
- 제한된 메모리 환경에서 특히 유용

---

## Rendering Speed Comparison

**실시간 렌더링 성능**

| Method | FPS (1080p) | FPS (4K) |
|--------|-------------|----------|
| NeRF | 0.05 | - |
| Instant-NGP | 12 | 3 |
| 3DGS | 95 | 24 |
| **GES** | **92** | **23** |

**특징**

- 3DGS와 거의 동일한 렌더링 속도
- 일반화된 커널에도 불구하고 효율성 유지
- 실시간 애플리케이션에 적합

---

## Memory Consumption

**메모리 사용량 비교**

| Scene | 3DGS | GES | Reduction |
|-------|------|-----|-----------|
| Room | 458 MB | 332 MB | 27.5% |
| Bicycle | 612 MB | 445 MB | 27.3% |
| Garden | 892 MB | 651 MB | 27.0% |
| Counter | 534 MB | 389 MB | 27.2% |

**평균 메모리 절감**: ~27%

더 적은 프리미티브로 동등 이상의 품질 달성

---

## Failure Cases and Limitations

**한계점**

1. **매우 복잡한 반사**: 고도로 복잡한 반사 표면에서 여전히 어려움

2. **훈련 시간**: 3DGS 대비 약 8-10% 증가
   - `$\beta$` 파라미터 최적화에 추가 시간 필요

3. **하이퍼파라미터 민감도**: `$\beta$`의 초기값과 학습률 설정이 중요

**향후 연구 방향**

- 더 다양한 커널 함수 탐색
- 적응적 하이퍼파라미터 조정
- 동적 장면으로 확장

---

# Conclusion

---

## Summary

**Generalized Exponential Splatting (GES)**

1. **일반화된 프레임워크**
   - 가우시안을 포함한 다양한 커널 함수 지원
   - 형상 파라미터 `$\beta$`를 통한 적응적 표현

2. **우수한 성능**
   - 더 높은 렌더링 품질 (PSNR, SSIM, LPIPS)
   - 더 적은 메모리 사용 (~27% 감소)
   - 3DGS와 유사한 렌더링 속도 유지

3. **실용성**
   - 기존 3DGS 파이프라인에 쉽게 통합 가능
   - 추가적인 계산 부담 최소화

---

## Key Takeaways

**왜 GES가 중요한가?**

- **표현력과 효율성의 균형**: 더 적은 자원으로 더 나은 품질

- **적응성**: 장면의 특성에 따라 자동으로 최적 커널 선택

- **실용성**: 실시간 렌더링 속도 유지

**미래 응용 분야**

- VR/AR 애플리케이션
- 자율주행 시뮬레이션
- 디지털 트윈
- 영화 및 게임 산업

---

# Thank You!

**Questions?**

.footnote[
Paper: "GES: Generalized Exponential Splatting for Efficient Radiance Field Rendering"  
CVPR 2024
]