최근 몇 년 동안 우리는 기술적 폭발을 목격해왔습니다. 인공지능, 빅데이터, 로봇들은 마치 공상과학처럼 먼 미래에서 우리 시야 앞으로 빠져든 듯하게 우리 삶에 큰 영향을 미칠 것으로 보입니다. 우리는 도구를 사용하는 방법을 알기 때문에 사람이 생물의 상위에 있는 것으로 알려져 있지만, 도구들이 다시 어떻게 인간 사회를 형성할지 궁금할 것입니다. 창작적 AI 도구들은 이미 텍스트 콘텐츠 창작을 바꾸고 있지만, 시각적, 음악적인 분야는 크게 변하지 않았습니다. OpenAI는 갑작스럽게 첫 텍스트-비디오 모델인 'Sora'를 출시했습니다. 대중적인 소셜 미디어 플랫폼인 Meta를 기반으로 한 회사는 'MusicGen'이라는 혁신적인 인공지능 모델을 선보였습니다. 다음으로, 이번 기사에서 이들 두 개의 AI 모델에 대해 자세히 알아보겠습니다.
OpenAI는 갑작스럽게 첫 텍스트-비디오 모델인 'Sora'를 출시했습니다. 텍스트 명령을 기반으로 사실적이고 상상력 넘치는 장면을 생성할 수 있습니다. Sora에게 2~30자의 명령을 제공하면 1분 길이의 비디오를 생성할 수 있으며, 이는 실사 영화, 애니메이션, 역사 영화, 흑백 영화, 3D SF 영화 등이 될 수 있습니다. Runway Gen 2, Pika와 같은 AI 비디오 도구들은 몇 초 내에서 일관성을 유지하기 어렵지만, OpenAI는 대단한 기록에 도달했습니다.
60초 짜리 원테이크 비디오를 데모로 들어보자면, 여성 주인공과 배경 캐릭터의 일관성은 놀라울 정도입니다. 다양한 장면이 자유롭게 전환되며, 캐릭터들은 신들의 안정을 유지합니다.
Sora는 비디오 안에서 정지 화면인 것 처럼 보이는 소음에서 출발하여 여러 단계의 소음 제거 과정을 통해 점점 더 나은 비디오를 생성하는 확산 모델입니다. Sora는 한 번에 완전한 비디오를 생성할 수 있을 뿐만 아니라 이미 생성된 비디오를 확장할 수도 있습니다.
여러 프레임의 내용을 예측할 수 있는 모델을 가능하게 함으로써, 팀은 비디오 안의 주요 대상이 일시적으로 사라져도 일관성을 유지할 수 있는 도전을 성공적으로 극복했습니다.
GPT 모델과 마찬가지로 Sora는 Transformer 아키텍처를 활용하여 탁월한 성능 확장을 가능하게 합니다. OpenAI는 비디오와 이미지를 GPT의 "토큰"에 해당하는 "패치"라는 작은 데이터 유닛으로 나누어 처리합니다. 이 통합된 데이터 표현 방법은 확산 Transformer가 다양한 길이, 해상도, 종횡비를 가진 시각적 데이터의 더 넓은 범위로 훈련될 수 있게 합니다.
DALL·E와 GPT 모델의 연구 결과를 기반으로, Sora는 DALL·E 3의 다시 주석 기법을 채용했습니다. 이 기법은 시각적 훈련 데이터의 제목에 대한 상세한 설명을 생성하여 모델이 비디오를 생성할 때 사용자의 텍스트 명령에 더 정확하게 따라갈 수 있게 합니다.
텍스트 명령을 기반으로 비디오 생성뿐만 아니라, 이 모델은 이미 존재하는 정적 이미지를 비디오로 변환할 수도 있으며, 이미지 내용에 생동감 있는 애니메이션을 부여합니다. 모델은 또한 기존의 비디오를 확장하거나 빠진 프레임을 완성할 수 있습니다.
Sora는 모델 속 이해와 시뮬레이션을 위한 세계 이해의 기반을 마련하고, OpenAI는 이를 인공 일반 지능 (AGI) 달성을 위한 중요한 단계로 여깁니다.
"텍스트-비디오"가 실제 영화 제작에 위협을 가하는 데는 아직 많은 시간이 걸릴 것으로 보입니다. OpenAI가 선보이는 비디오들은 인상적이지만, 이들이 모델의 일반적인 출력물을 얼마나 대표하는지 알기는 어렵습니다.
그러나 이로 인해 Sora와 유사한 프로그램이 TikTok과 같은 소셜 플랫폼을 완전히 변화시킬 가능성은 배제할 수 없습니다.
"프로 영화 제작에는 많은 비용이 듭니다,"Peebles는 말합니다. "이 모델을 통해 일반 사람들도 소셜 미디어에서 고품질 비디오 콘텐츠를 만들 수 있게 될 것입니다."
MusicGen은 Meta의 최신 생성적 AI 모델로 음악 작곡을 위해 설계되었습니다. 심층 학습과 자연어 처리의 발전을 활용하여 MusicGen은 텍스트 명령에 기반한 원본 음악 작곡을 생성할 수 있습니다. 특정 유형의 트랙이 필요하거나 멜로디를 부르더라도, MusicGen은 원하는 오디오 스타일과 일치하는 변형과 출력을 생성할 수 있습니다.
Meta는 MusicGen을 훈련시키기 위해 20,000 시간의 라이센스 된 음악 데이터 세트를 활용했습니다. 이 포괄적인 훈련 과정은 AI 모델이 다양한 음악 장르의 패턴, 스타일 및 복잡성을 파악할 수 있도록 했습니다. MusicGen은 Google의 MusicLM과 마찬가지로, 자연어 처리 작업에서 성공적인 뉴럴 네트워크 아키텍처인 Transformer 모델을 기반으로 합니다. 이 아키텍처를 통해 MusicGen은 텍스트와 음악 명령을 효과적이고 정확하게 처리할 수 있습니다.
MusicGen은 아직 널리 사용 가능한 상태는 아니지만, Meta는 기능을 보여주기 위한 데모를 제공했습니다. 한 예로, 바흐의 오르간 멜로디를 가져와 "80년대 드라이빙 팝 송으로 배경에 중대한 타악기와 신디사이저 패드가 있는 곡"이라는 텍스트 명령을 제공했습니다. MusicGen은 이에 따라 완전히 새로운 클립을 생성하여 80년대 신스팝 트랙과 유사한 곡을 만들어 냈습니다. 다른 한 예로, 보레로를 "신디 사운드와 드럼의 강렬한 베이스로 활력적인 힙합 음악"으로 변환했습니다. 한 후, MusicGen은 제공된 텍스트와 오디오 컨텍스트를 기반으로 새로운 클립을 성공적으로 생성하면서 원본 멜로디에 충실했습니다.
MusicGen과 같은 AI 생성 콘텐츠는 라이센스되지 않은 저작물의 사용과 관련한 법적 도전을 직면할 수 있습니다. 지적 재산권을 보호하는 것으로 유명한 음악 산업은 MusicGen과 같은 시스템을 규제하거나 제한하기 위한 조치를 취할 수도 있습니다. 그러나 MusicGen의 텍스트와 오디오 컨텍스트의 고유한 조합은 효과적인 규제를 어렵게 만듭니다. 이는 AI 생성된 노래들이 대중적으로 인기를 얻고, 결과적으로 음악 산업의 풍경을 재편할 수 있는 가능성을 열 수 있습니다. 또한, MusicGen의 기능은 기본적인 복제 이상의 음악 창작을 위한 혁신적인 도구를 음악가, 마케터 및 기타 전문가들에게 제공합니다.
MusicGen은 토큰을 병렬로 처리하여 빠르고 원활한 음악 생성을 보장하는 효율적인 단계별 모델입니다. 이러한 효율성을 달성하기 위해 연구원들은 오디오 데이터를 더 작은 구성 요소로 분해하여 MusicGen이 텍스트와 음악 명령을 동시에 처리할 수 있게 했습니다. MusicGen은 멜로디에 대한 오리엔테이션을 정확하게 복제하지는 못하지만, 텍스트 명령은 창작적인 입력을 용이하게 하는 것으로 가이드라인 역할을 합니다.
MusicGen은 Riffusion, Mousai, Noise2Music와 같은 기존 음악 모델들보다 우수한 성능을 보입니다. 노래 가사와 음악의 일관성 및 작곡의 전반적인 타당성을 평가하는 객관적 및 주관적 평가에서 뛰어난 성과를 거두고 있습니다. 특히 MusicGen은 Google의 MusicLM에 비해 우수한 성능을 보여 주어 AI 생성된 음악 분야에서 중요한 발전을 이룩하고 있습니다.
Meta의 MusicGen AI는 텍스트 명령을 기반으로 고품질 음악 클립을 생성하여 음악 창작에 대한 혁신적 접근 방식을 제시합니다. 이 기술의 미래적 영향과 법적 도전 사항은 아직 불확실하지만, MusicGen은 음악가, 마케터 및 일반 개인들에게 다양한 형태의 독창적인 음악을 탐구하고 창작할 수 있는 새로운 기회를 제공합니다. 텍스트 입력을 매력적인 음악 작품으로 변환할 수 있는 능력으로 인해 MusicGen은 AI 생성된 음악의 영역에서 큰 발전을 나타내는 중요한 단계입니다.
지금 바로 FoxData 에 가입하여, 무료 App Data Analytics Tool 을 공개함에 따라, 다운로드 수를 늘리고 사용자 기반을 확대하며, 성능을 높여 성장하는 비즈니스 여정에 동참하세요!