티스토리 뷰

멀티미디어 기술의 발전은 끝이 없는 것 같습니다.

지난 십여년 동안의 기술 발전을 관통하는 핵심은 "더 크고 선명하게"가 아니었나 생각해봅니다.
어떤 폼펙터건(TV건 스마트폰이건) 점점 더 크고 선명한 디스플레이로 발전해 왔고,
이에 맞춰 컨텐츠도 더 고해상도, 저손실(=고화질)로 압축/전송 하는 방향으로 발전해 왔습니다.
(물론, 다른 방향으로도 꾸준히 발전해 왔지만 소비자들이 대중적으로 체감하는 핵심 관점은 이 점으로 생각합니다.)

과거 미디어 기술의 발전 (2차원적 확장)

추상적으로 표현하면 위 그림과 같은데, 이걸 차원으로 해석했을 때 "2차원적 확장"이라고 표현해 보고 싶습니다.

최근의 멀티미디어 기술 발전의 형태는 차원을 넘어서는 형태라고 생각합니다.
(이 역시 업계/학계에서는 매우 오래전부터 꾸준히 발전해온 기술 분야이지만,
 제가 '최근'이라고 적은 기준은 대중에게 익숙해지고 많이 소비되는 '시점'(時) 입니다.)

최근 미디어 기술의 발전 (차원 확장)

좀 더 엄밀히 말하자면 현재는 두 가지 변화가 일어나고 있습니다.

첫째, 2차원에서 3차원으로의 혁신 (차원 혁신)
둘째, 3차원 안에서 더 공간을 넓히는 3차원적 확장

3차원적 확장은 위에서 과거의 확장이 "더 크고 선명하게" 였다고 말씀드린 것과 일맥상통합니다.
차원 공간이 3차원이기 때문에 "더 크게"는 "더 넓게"로 확장되었고,
"더 선명하게" 라는 표현에는 3차원 답게 "거리감"(+ 현실감)이 더해집니다.

이는 차세대 몰입형 미디어 표준을 다루는 MPEG-I의 표준화 단계에서도 잘 나타납니다.

Immersive Media에 대한 표준화 단계 (ISO/IEC 23090-1)

컨텐츠를 시청하는 사용자 입장에서,
Phase 1a - 3DoF 상태에서는 컨텐츠의 입체감과 사방이 둘러쌓인 임장감(Presence)을 느낄 수 있지만
 이동할 수는 없습니다.
Phase 1b - 3DoF+ 에 이르러서야 좁은 범위 내에서 움직이며 컨텐츠를 시청할 수 있습니다.
 (이를 역으로 컨텐츠 관점으로 풀면, 상하좌우에서도 컨텐츠 속 객체들을 볼 수 있게끔
  컨텐츠를 구성하는 정보가 더 풍부해졌다고 볼 수 있습니다.)
Phase 2 - 6DoF 에서는 사용자가 다양한 위치에서 자유롭게 컨텐츠를 시청할 수 있어집니다.
 (역시 컨텐츠 관점에서 보면, 컨텐츠 속 객체들의 정보가 거의 완전하게 제공되었다는 의미입니다.)

결론적으로
"현대 미디어의 발전은 공간적 확장을 의미하고,
이를 위해 미디어 컨텐츠 속 객체들의 정보 점점 더 세밀하고 완전해지는 방향으로 가고 있다"고 말하고 싶습니다.

 

차세대 미디어 컨텐츠 = 공간 전체를 담는 것

차세대 미디어 발전 방향 = 공간의 정보를 더 세밀하게 표현하는 것

 

서론이 길었습니다.
이러한 차세대 미디어 컨텐츠를 생성하는 방법은 매우 다양합니다.
여러 방식 중에서 게임이나 가상 컨텐츠가 아닌,

현실의 대상을 차세대 미디어 컨텐츠로 획득하는 방법에 대해 논하고자 합니다.

세세하게는 정말 다양한 방법들이 존재하고, 이들 하나하나가 차별점을 가지고 있을 겁니다.
그러나 저는 어떤 기술을 바라볼 때, 최대한 추상화하여 기술을 관통하는 핵심을 정의하고
다시 단계 단계 세분화하며 내려와 보는 방법을 좋아합니다.

이 방법은 여러 대조 기술들을 함께 놓고 보면,
내가 관심있는 기술이 어떤 포지셔닝을 하고 있고
어떤 특장점과 어떤 약점을 갖는지 좀 더 명확하게 머리에 그릴 수 있습니다.

따라서 저는 컨텐츠 획득 기술의 분류를 "실제 현실 정보의 양" 대비
촬영 기술로 "획득하는 정보의 양"으로 분류해 보겠습니다.

총 세 종류로 분류되는데,
1. 거의 완전한 정보를 획득해 컨텐츠를 구성
2. 제법 많은 정보를 획득해 컨텐츠를 생성
3. 단편적 정보를 획득해 컨텐츠의 전체 정보를 추론 & 생성
입니다.

실제 현실 속 정보와 이를 획득 방식별 분류

이 원형 모양을 계속 설명에 활용할건데,
아래 실제 예제에서는 좀 더 사례에 가깝게 (하지만 의미론적으로) 표현하려고 노력해 보았습니다.

※ 이하 예시에서 차세대 미디어를 획득하는 방법은, 시각적 정보(Video)와 청각적 정보(Audio)를 나누어서 설명해 보겠습니다.

1. 거의 완전한 정보를 획득해 컨텐츠를 구성

#Video

시각적 정보의 경우 최대한 완전한 정보를 얻기 위해, 정말 많은 수의 카메라를 사방에 두르는 방법이 있습니다.
이는 아주 완전하지는 않지만 (보이는 표면 정보만 획득되므로) 거의 완전에 가까운 정보를 획득한다고 생각합니다.

대신 아직까지 기술적 (≒금전적, 현실적) 제약으로 사람정도 크기의 대상만 획득해낼 수 있습니다.

아래 예시는 SKT의 Jump Studio 입니다.

절대적으로 많은 카메라 (Depth 포함)가 사방에서 정보를 수집해 3D Content (Mesh)로 Reconstruction 합니다.

SKT Jump Studio (https://news.sktelecom.com/122158)
생성된 3D Content (https://www.jumpstudio.co.kr)

위와 같은 움직이는 사람에 대한 3D 컨텐츠가 생성됩니다.
(이런 컨텐츠는 AR로 해당 객체를 내 공간으로 소환하는 방식으로 사용자에게 제공되고 있습니다.)

다음은 위와 유사하게 Point Cloud를 생성하는 방식에 대한 예시입니다.

Point Cloud 제작 스튜디오 예시 (3GPP TR 26.928)
제일 좌측 (Point Cloud 객체), 제일 우측 (3D Mesh + Texture). (3GPP TR 26.928)

이러한 기술들을 정보량 관점에서 표현해 보면 다음과 같습니다.

3D Studio 방식의 정보량

실제 대상 객체에 대해 거의 완전한 정보를 얻었습니다.
다수의 카메라를 비치시키다 보니, 불필요한 정보도 일부 포함되고 중복 정보도 다수 포함됩니다.
이를 조합해 하나의 객체를 완성하게 되며, 약간의 사각지대에 대해서는 정보가 부족한 부분도 생기게 됩니다.

다만, 현재 기술 수준에서는 필요한 정보 대시 촬영에 드는 비용이 매우 크므로, 가성비는 비교적 낮은 방법입니다.

#Audio

청각적 정보를 완전하게 얻는 방법은 우리 주변에 익숙한 예시가 있습니다.

바로 방송 촬영 현장입니다.
특히 주변 소음이 거의 없는 실내 토크쇼나 음악 방송의 경우, 컨텐츠 속 필요한 모든 객체들에게
전용의 개별 녹음 장치가 주어지므로 실로 정확한 정보를 얻어낼 수 있습니다.

Youtube "이지금 [IU Official]" 채널 (https://www.youtube.com/watch?v=L1vjymW7eNg)

다만, 완벽한 3차원 컨텐츠가 되려면 저 마이크와 라인 입력장치에 위치 테그가 달려,
위치정보까지 획득할 수 있어야 합니다. (예시의 한계입니다. 이 부분은 그냥 된다고 상상해주세요.)

이 예시는 객체 위치를 알 수 있다는 전제하에 다음과 같은 정보량을 갖습니다.

방송 컨텐츠 예시의 정보량

드럼과 보컬의 경우 아무래도 마이크로 녹음하다보니,
직접 라인 입력을 꽂은 다른 악기 대비, 약간 부족할 것을 살짝 표현해 보았습니다. (디테일)

#총평

결론적으로 이 유형의 특징은 완전한 정보를 얻기 위해서, 매우 많은 획득 장비를 사용하게 됩니다.
정보를 촘촘히 획득함에 따라 데이터간 중복이 많고, 데이터 합성 과정에서 이들이 소거됩니다.
결과물의 품질이 매우 좋고, 제작 가성비가 낮습니다. (컨텐츠 크기 대비, 상대적으로 촬영비용 비쌈)

2. 제법 많은 정보를 획득해 컨텐츠를 생성

이 분류는 언뜻 보기에는 1번에 견주는 데이터 획득 장비 수가 보이지만,
정보를 획득하는 대상의 스케일이 상대적으로 커진 점에 주목해야 합니다.

시각적 정보에서 단순히 특정 인물 하나에 대한 정보를 얻은데에 비해,
지금 부터는 공간을 대상으로 정보를 얻습니다.
따라서 실제 대상의 정보량이 매우 커졌으므로, 상대적으로 획득하는 정보의 양은 적은 편입니다.

#Video

다음은 Intel 사의 True View라는 솔루션 입니다.
미국 NFL (미식축구) 경기장의 둘레에 카메라가 배치되어, 실시간으로 영상 정보를 경기장 내 서버로 전달합니다.

경기장 내 서버에서는 영상에 담긴 2D Pixel을 Voxel로 합성하는 과정을 거쳐,
경기장 내 모든 객체를 3D로 Reconstruction 하게 되고,
이를 활용해 아래와 같은 독특한 시점의 리플레이 영상을 생성할 수 있습니다.
(고화질 리플레이: https://www.youtube.com/watch?v=J7xIBoPr83A)

 

Intel True View의 컨텐츠 생성 과정 (https://www.youtube.com/watch?v=J7xIBoPr83A)

 

Intel True View 결과물 예시 (https://www.intel.co.kr/content/www/kr/ko/sports/sports-overview.html)

※ 잠깐! 이런 느낌의 리플레이를 많이 접하신 것 같으신가요?
아마도 "2018 평창 동계올림픽"과 "2020 도쿄 올림픽" 경기 중에 접하셨을 것 입니다.
그런데, 그 기술은 4D Replay 라는 기술(회사 이름도 같음)로서 자랑스러운 우리나라 회사의 기술입니다.
위 소개한 Intel과는 기술 방식이 조금 달라 예시로 쓰지는 않았지만 잠시 설명드렸습니다.

Intel사의 위 기술은 아래와 같은 정보량을 가질 것입니다.

Intel True View의 정보량

선수들이 뒤얽히는 복잡한 경기장 속에서, 매우 원거리로 제한된 각도의 촬영만 이루어지기 때문에
1) 순간적으로 카메라에 잡히지 않는 사각지대가 생길 수 있고,
2) 영상이 Depth 정보를 직접적으로 포함하고 있지 않으며,
3) 원거리라 이미지 품질이 비교적 떨어지게 됩니다.

이러한 정보는 다양한 보완 작업을 거쳐 컨텐츠로 생성됩니다.
그럼에도 불구하고 위 기술의 예시를 매의 눈으로 보신다면, 선수의 모습이 약간 그래픽스러운 점을 눈치챌 수 있습니다.

#Audio

차세대 몰입형 컨텐츠에서 Audio의 역할은 매우 중요합니다.
실제 그 현장에 있는 것처럼 느껴지는 임장감(Presence)을 주기 위해서는 공간 정보를 정확히 표현할 수 있는
고정밀의 Audio Data가 필요합니다.

아래 예시는 Zylia 사의 6DoF Navigable 3D Audio 솔루션입니다.
사진에서 보이다시피, 제법 넓은 공간의 소리를 획득하고 있습니다.

녹음장비 하나당 19개의 마이크가 달려 있어,
매우 세밀한 방향성을 갖는 오디오 데이터(3rd Order Ambisonics)를 획득할 수 있습니다.
이런 정보를 공연장 사이사이 매우 촘촘이 배치하여 음성 정보를 획득합니다.

Zylia의 6DoF 오디오 녹화 (https://www.zylia.co/navigable-audio-for-vr.html)
Zylia의 6DoF 오디오 녹화 구조 시각화 (https://www.zylia.co/navigable-audio-for-vr.html)

위 솔루션의 정보량은 다음과 같이 표현할 수 있습니다.

Zylia 솔루션의 정보량 (우측: 합성된 데이터 시각화)

각 녹음 장비들이 매우 정밀한 음향을 얻어내지만,
결론적으로 실제 소리를 내는 객체 하나하나의 음성을 정밀하게 얻어내지는 못했습니다.

예를 들어 두개의 녹음장비 사이에 위치한 연주자의 음성을 정확히 얻어내려면
두 녹음장비의 데이터를 정교하게 합성해야 합니다.

#총평

결론적으로 이 유형의 특징은 주로 넓은 공간의 정보를 얻기 위해 사용되며, 매우 많은 획득 장비를 사용하게 됩니다.
실제 정보량 대비 상대적으로는 획득하는 정보가 부족하므로,
데이터간 공백이 생기고, 데이터 합성 과정에서 이들이 생성/보간됩니다.
결과물의 품질이 좋고, 제작 가성비는 보통입니다. (컨텐츠 크기를 고려하면 촬영비용 견줄만 함)

3. 단편적 정보를 획득해 컨텐츠의 전체 정보를 추론 & 생성

이 분류는 지금까지의 번듯한(?) 것들과는 결이 다르게 느껴질 수 있습니다.
서론에 말씀드렸다시피 기술을 추상화해 어떤 기준으로 분류했을 때,
이 기술이 지금까지의 1,2번과 동일 선상에서 다른 특징의 기술로 보여집니다.

"단편적 정보"란, 미디어 컨텐츠 발전 방향을 역행한 정보입니다.
즉, 다시 예전의 2D 정보에 속하며, 이를 3차원으로 멱살 잡고 끌고오는(?) 기술들을 소개해 보겠습니다.

#Video

NVIDIA 사가 공개한 GANverse3D 기술입니다.
GAN 이라는 신경망 기술을 이용해, 단 한장의 2D Image로부터 3D 객체를 추론해 생성해냅니다.

아래 자동차와 같은 2D Image를 우리가 눈으로 바라보면, 입체감이 느껴지는 것 같지만
이것은 우리의 뇌가 추론해낸 정보입니다.

엄밀히 말해 사진 정보에는 어느 부분이 튀어나와 있고,
어느 부분이 오목한지에 대한 정보(=Depth 정보)가 존재하지 않으며
이런 깊이 정보와 보이지 않는 뒷면의 형태, 텍스쳐 등을 모두 추론해 내야 하고,
추론한 결과가 사람이 느끼기에 부자연스럽지 않아야 합니다. (그냥 매우 어렵다는 이야기)

NVIDIA GANverse 3D (https://blogs.nvidia.co.kr/2021/04/19/gan-research-knight-rider-ai-omniverse/)

 

아래의 기술은 NeRF라는 딥러닝 기술로서,
약간의 다른 각도로 촬영된 몇 장의 이미지로부터 3D 객체 추론하거나,
또는 3DoF+ 수준(상하좌우로 약간 이동 가능)의 시각적 컨텐츠를 생성해 줍니다.

아래 첫 번째 예시 영상이 약간 상하좌우에서 찍은 몇장의 이미지로 3DoF+ 수준 컨텐츠를 생성한 결과물이며,
아래 두 번째 예시 영상은 물체를 앞뒤좌우에서에서 찍은 이미지로 3D 객체를 추론한 결과물입니다.

NeRF View-Dependent Appearance (https://www.matthewtancik.com/nerf)

 

NeRF 3D Object Synthetic Results (https://www.matthewtancik.com/nerf)

이러한 기술들은 다음의 정보량을 갖습니다.

2D Image to 3D 방식의 정보량

위 1,2와는 사뭇 다른 모양새입니다.
3차원 객체의 2차원 이미지는 실제로 매우 단편적 정보를 담고 있어,
부족한 다수의 정보를 추론해야하는 부담을 갖습니다.

따라서, 결과의 품질 또한 그리 완벽하지는 않습니다.

#Audio

오디오의 예시는 여러 소리가 섞인 하나의 음성 데이터로부터,
각각의 고유 객체별 음성을 추론해내는 기술을 설명할까 합니다.

아래 예시는 하나의 완성된 음악 파일로부터, 각 악기와 보컬의 음성을 분리해내는 솔루션 개략도 입니다.

https://www.audacityteam.org/source-separation-and-extensible-mir-tools-for-audacity/

또한 한 단계 진보한 개념으로는 다수의 사람이 동시에 발화하는 음성을 분리&추론 하는 단계까지 와 있습니다.

http://www.zafarrafii.com/

Facebook이 2020년 발표한 기술 자료에 따르면, 
최대 5명의 동시 발화 음성을 각각의 개별 음성으로 추론해냅니다.
(A new, state-of-the-art voice separation model that distinguishes multiple speakers simultaneously)
※ 그러나 여전히 결과물은 약간의 노이즈를 가지고 있습니다.

음성 분리 기술의 정보량

이 문제는 어떤 관점에서는, 2D -> 3D보다 더 복잡한 문제입니다.
다양한 소리가 섞인 하나의 음성 데이터는 사실상 1차원 데이터입니다.

(고차원의 Binaural Recording 환경이라 할지라도, 세밀한 방향별 음성을 표현할 수는 있지만
정확한 개별 음성을 유추할 수 있는 건 아니므로, 6DoF로 재현될 수 없습니다.
즉, 3차원이 아닙니다.)

이들이 객체별 음성으로 분리&추론 되면, 1번에서 가정했던 것처럼
위치만 알면 완전해지는 완전체 데이터가 될 수 있습니다.

#총평

결론적으로 이 유형의 특징은 주로 (기존의) 저수준 데이터로부터 작지만 공간적 정보를 얻기 위해 사용됩니다.
획득하려는 정보량 대비, 실제 정보량이 턱없이 부족하므로,
미지의 식별 불가능한 영역에 대하여, 데이터 추론 과정을 통해 이들이 추론/생성합니다.
결과물의 품질이 나쁘고, 제작 가성비는 매우 높습니다. (획득 데이터가 매우 저품질이므로)

 

위 3가지 유형을 정리해보면

  1. 거의 완전한 정보를 획득 2. 제법 많은 정보를 획득 3. 단편적 정보를 획득
결과 컨텐츠 스케일 작음 작음
결과 컨텐츠 품질 최상
정보 획득 비용 비쌈 비쌈 저렴
가성비 (결과 / 비용) 나쁨 중간 중간

위 정보를 품질/가격 평면에 올렸을 때, 포지셔닝은 다음과 같습니다.

기술들이 지향하게 될 방향은, 쉽게 예측이 가능한데,
1은 비용을 낮추는 방향으로, 3은 품질을 높이는 방향으로 갈 것으로 예측됩니다.

두 기술의 접점을 다시 본질적으로 생각해보면
시각적으로는 작은 한 객체의 외형 정보를 얻는 목적이며,
청각적으로는 객체들의 각각의 개별 음성을 얻는다는
비교적 단순한 목표들로 귀결됩니다.

1,3 두 기술의 장점과 특징을 잘 융합하면 자연스레 기술의 다음 단계가 찾아지지 않을까 생각해봅니다.

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함