В последние годы мы стали свидетелями технологического взрыва: искусственный интеллект, большие данные и роботы кажутся вытянутыми из научно-фантастического далекого будущего прямо перед нашими глазами, готовыми оказать огромное влияние на нашу жизнь. Говорят, что люди занимают вершину пищевой цепи, потому что мы умеем пользоваться инструментами, но как эти инструменты в свою очередь сформируют общество людей? Инструменты генеративного искусственного интеллекта уже изменили создание текстового контента, но визуальные и музыкальные области остались в основном неизменными. OpenAI внезапно выпустил свою первую модель конвертации текста в видео - Sora. Компания Meta, стоящая за популярной социальной платформой, представила инновационную модель искусственного интеллекта под названием MusicGen. Давайте хорошо рассмотрим эти две модели искусственного интеллекта, которые снова ставят искусство под угрозу.
OpenAI внезапно выпустила свою первую модель текста в видео - Sora. Она способна создавать реалистичные и фантастические сцены на основе текстовых инструкций. Предоставив команду длиной от 2 до 30 символов, Sora может создать видео длительностью до одной минуты, которое может быть игровым фильмом, анимацией или даже историческим фильмом, черно-белым фильмом, научно-фантастическим фильмом в 3D и т. д. Инструменты AI видео, такие как Runway Gen 2 и Pika, все еще нарушают связность в рамках нескольких секунд, тогда как OpenAI достигла эпического рекорда.
Возьмем в качестве примера демонстрационное видео, внушающую аудиторию высоким качеством шотов в течение 60 секунд. Женский главный герой и фоновые персонажи демонстрируют поразительную согласованность. Герои свободно переключаются между различными кадрами, сохраняя божественную стабильность.
Sora - это диффузионная модель, которая может начинаться с того, что кажется статическим шумом на видео, и постепенно, через несколько этапов удаления шума, генерировать видео. Sora может не только создавать целое видео за один раз, но и расширять уже сгенерированное видео.
Предоставив модели возможность предугадывать содержимое нескольких кадров, команда успешно справилась с задачей обеспечения согласованности основного объекта на видео даже в тех случаях, когда он временно исчезает.
Аналогично модели GPT, Sora использует архитектуру Трансформера, которая обеспечивает выдающуюся производительность. OpenAI разбивает видео и изображения на маленькие единицы данных, называемые "патчами", каждый из которых соответствует "токену" в GPT. Этот метод унифицированного представления данных позволяет диффузионному трансформеру обучаться на широком спектре визуальных данных разной продолжительности, разрешения и соотношения сторон.
Основываясь на исследованиях моделей DALL·E и GPT, Sora применяет технику повторной аннотации DALL·E 3, которая генерирует подробные описания для заголовков визуальных тренировочных данных, позволяя модели точнее следовать текстовым инструкциям пользователя при создании видео.
Помимо создания видео на основе текстовых инструкций, эта модель также способна преобразовывать существующие статические изображения в видео, тщательно наделяя содержимое на изображениях яркой анимацией. Модель также может расширять существующие видео или заполнять недостающие кадры.
Sora является основой для понимания и симуляции реального мира в моделях, и OpenAI считает это важным шагом к достижению искусственного общего интеллекта (AGI).
Прежде чем "текст в видео" станет угрозой для реального производства фильмов, пройдет еще много времени. Хотя видео, представленные OpenAI, впечатляющи, они безусловно были тщательно отобраны, чтобы продемонстрировать лучшие возможности Sora. Без дополнительной информации сложно сказать, насколько они репрезентативны для типичного вывода модели.
Однако это не мешает Sora и подобным программам полностью изменить социальные платформы, такие как TikTok.
"Для производства профессионального фильма требуется много дорогостоящего оборудования", - говорит Пиблз, - "Эта модель позволит обычному человеку создавать высококачественный видеоконтент в социальных сетях".
MusicGen - это новейшая генеративная модель искусственного интеллекта от Meta, разработанная для создания музыки. Используя прогресс в глубоком обучении и обработке естественного языка, MusicGen может генерировать оригинальные музыкальные композиции на основе текстовых подсказок. Независимо от того, нужен вам определенный тип трека или вы насвистываете мелодию, MusicGen может создавать вариации и результаты, которые соответствуют вашему желаемому аудио-стилю.
Для обучения MusicGen Meta использовала огромный набор данных в 20 000 часов лицензированной музыки. Этот комплексный процесс обучения позволил модели искусственного интеллекта понять закономерности, стили и тонкости различных музыкальных жанров. Аналогично Google's MusicLM, MusicGen основан на модели Трансформера - типа архитектуры нейронной сети, известной своим успехом в задачах обработки естественного языка. Эта архитектура позволяет MusicGen эффективно и точно обрабатывать как текстовые, так и музыкальные подсказки.
В то время как MusicGen еще не доступен широко, Meta предоставила демонстрацию для демонстрации его возможностей. В одном случае они взяли органный мотив Баха и предоставили текстовую подсказку: "Песня в стиле 80-х годов с тяжелыми барабанами и синтезаторами на заднем плане". MusicGen в результате сгенерировал абсолютно новый клип, который близко напоминал синт-поп трек 80-х. В другом примере они превратили Болеро в "Энергичную хип-хоп музыкальную композицию с синтезаторами и сильным басом. В барабанах есть ритмический хай-хет". Вновь MusicGen успешно создал новые клипы на основе предоставленных текстовых и аудио-контекстов, при этом остаяясь верным оригинальной мелодии.
Как и любое содержимое, созданное искусственным интеллектом, MusicGen может столкнуться с правовыми проблемами, особенно в отношении нелицензированного использования авторских материалов. Музыкальная индустрия, известная своей защитой интеллектуальной собственности, может принять меры для регулирования или ограничения систем, подобных MusicGen. Однако уникальная комбинация текста и аудио-контекста в процессе генерации MusicGen усложняет эффективное регулирование. Это может привести к распространению песен, созданных искусственным интеллектом, в массы и, как следствие, изменению музыкального ландшафта. Кроме того, возможности MusicGen открывают новые возможности для создания музыки вне рамок простого воспроизведения, предоставляя музыкантам, маркетологам и другим специалистам инновационные инструменты для создания оригинальной музыки.
MusicGen - это эффективная одноэтапная модель, которая обрабатывает токены параллельно, обеспечивая быструю и бесшовную генерацию музыки. Для достижения такой эффективности исследователи разбивают аудио-данные на составные части, позволяя MusicGen обрабатывать и текстовые, и музыкальные подсказки одновременно. Хотя MusicGen может не совсем точно воспроизводить ориентацию мелодии, текстовая подсказка служит грубым руководством для генерации, облегчая творческий вход.
В сравнительных оценках MusicGen превосходит другие существующие модели музыки, такие как Riffusion, Mousai и Noise2Music. Она выделяется как по объективным, так и по субъективным показателям, которые оценивают, насколько музыка соответствует тексту и общей правдоподобности композиции. Особенно MusicGen демонстрирует превосходные результаты по сравнению с MusicLM от Google, что ставит ее ведущей моделью в области генерации музыки с использованием искусственного интеллекта.
MusicGen AI от Meta представляет собой новаторский подход к созданию музыки, порождая высококачественные музыкальные клипы на основе текстовых подсказок. Хотя будущие последствия и правовые проблемы этой технологии остаются неопределенными, MusicGen открывает новые возможности для музыкантов, маркетологов и отдельных лиц для исследования и создания оригинальной музыки в различных формах. Благодаря своей способности преобразовывать текстовые входы в увлекательные музыкальные композиции, MusicGen представляет собой значительный шаг вперед в области генерации музыки с использованием искусственного интеллекта.
Теперь присоединитесь к FoxData и отправляйтесь в путешествие по росту бизнеса, так как мы представляем БЕСПЛАТНЫЙ Инструмент аналитики приложений, который увеличивает количество загрузок, увеличивает вашу пользовательскую базу и поднимает ваши показатели на новый уровень!