近年来,我们目睹了一场技术爆炸:人工智能、大数据和机器人仿佛已经从科幻般的遥远未来拉到了我们眼前,准备对我们的生活产生巨大影响。人类之所以站在食物链的顶端,是因为我们知道如何使用工具,但这些工具又将如何塑造人类社会?生成式人工智能工具已经改变了文本内容的创作,但是视觉和音乐领域在很大程度上仍保持不变。OpenAI突然发布了其第一个文本到视频模型- Sora。流行社交媒体平台Meta背后的公司引入了一种名为MusicGen的创新人工智能模型。接下来,让我们好好看看这两个再次把艺术置于风险中的人工智能模型。
OpenAI突然发布了其第一个文本到视频模型- Sora。它能够根据文本指令创建既逼真又富有想象力的场景。通过为Sora提供2至30个字符的指令,它可以生成长达一分钟的视频,可以是真人电影、动画,甚至是历史电影、黑白电影、三维科幻电影等等。与Runway Gen 2和Pika等AI视频工具仍然在数秒内突破连贯性不同,OpenAI已经创造了一个史诗般的记录。
以演示视频为例,在一个60秒的镜头中,女主角和背景角色的一致性令人惊讶。各种镜头自由切换,角色保持神一般的稳定。
Sora是一个扩散模型,可以从视频中看似静态噪声的起点开始,并通过多步去噪过程逐渐生成视频。Sora不仅可以一次性生成完整视频,还可以扩展已生成的视频。
通过使模型能够预测多帧内容,团队成功地克服了视频中的主体即使暂时消失也能保持一致性的挑战。
与GPT模型类似,Sora采用了Transformer架构,该架构可实现出色的性能扩展。OpenAI将视频和图像分解为更小的数据单元,称为GPT中的“令牌”。这种统一的数据表示方法使扩散Transformer能够在更广泛的视觉数据上进行训练,涵盖了不同的持续时间、分辨率和纵横比。
基于DALL·E和GPT模型的研究结果,Sora采用了DALL·E 3的重新注释技术,为视觉训练数据的标题生成了详细的描述,使模型在生成视频时能更精确地遵循用户的文本指令。
除了从文本指令生成视频,该模型还可以将现有的静态图像转换为视频,将图像中的内容细致地赋予生动的动画效果。该模型还可以扩展现有视频或完成缺失的帧。
Sora为模型理解和模拟现实世界奠定了基础,OpenAI认为这是实现人工智能(AGI)的重要一步。
在“文本到视频”对实际电影制作构成威胁之前,可能还需要很长的时间。虽然OpenAI展示的视频令人印象深刻,但毋庸置疑,它们无疑是精心挑选的,以展示Sora的最佳效果。没有更多的信息,很难知道它们在模型的典型输出中的代表性如何。
然而,这并不能阻止Sora和类似的程序彻底改变像TikTok这样的社交平台。
皮布尔斯说:“制作一部专业电影需要很多昂贵的设备,”“这个模型将使普通人有可能在社交媒体上创作高质量的视频内容。”
MusicGen是Meta最新的生成AI模型,旨在进行音乐创作。通过利用深度学习和自然语言处理的进展,MusicGen可以根据文本提示生成原创音乐作品。无论您想要特定类型的音轨还是哼唱一段旋律,MusicGen都可以产生与所需音频风格相符的变体和输出。
为了训练MusicGen,Meta利用了一份包含20,000小时注册音乐的庞大数据集。这一全面的训练过程使得该AI模型能够掌握各种音乐流派的模式、风格和复杂性。MusicGen和Google的MusicLM类似,都基于Transformer模型,这是一种在自然语言处理任务中取得成功的神经网络架构。这种架构使得MusicGen能够有效且准确地处理文本和音乐提示。
虽然MusicGen目前还没有广泛使用,但Meta提供了一个演示来展示其功能。例如,他们拿了一段巴赫的风琴旋律,并提供了文本提示:“一个带有重鼓和合成器垫音的80年代驾驶流行歌曲。” MusicGen随后生成了一段完全新的片段,与80年代合成流行音乐非常相似。另一个示例涉及将波莱罗转化为“一首带有合成音和强劲的低音的充满活力的嘻哈音乐作品。鼓中有一个韵律性的踩镲花样。”MusicGen再次成功地基于提供的文本和音频内容生成了全新的片段,同时保持了原曲的特点。
与任何由AI生成的内容一样,MusicGen可能面临法律挑战,特别是涉及未经许可使用版权材料的问题。因为音乐行业以保护其知识产权而闻名,可能会采取措施来监管或限制类似MusicGen的系统。然而,MusicGen在生成过程中结合了文本和音频内容,使得有效执行监管措施变得困难。这可能导致AI生成的歌曲在主流音乐中流行,并从而重新塑造音乐领域。此外,MusicGen的功能为音乐创作提供了超越基本复制的新可能性,为音乐人、营销人员和其他专业人士提供创作原创音乐的创新工具。
MusicGen是一个高效的单阶段模型,可以并行处理令牌,确保快速无缝的音乐生成。为了实现这种效率,研究人员将音频数据分解为更小的组件,使MusicGen能够同时处理文本和音乐提示。虽然MusicGen可能无法准确地复制旋律的方向,但文本提示作为生成的大致指导,为创造性的输入提供了便利。
相对于Riffusion、Mousai和Noise2Music等现有音乐模型,MusicGen在客观和主观指标方面表现出色,这些指标评估了音乐与歌词的吻合程度以及作品的整体可信度。值得注意的是,MusicGen在与Google的MusicLM相比的性能上表现出更好的性能,这使其成为AI生成音乐领域的一项重大进展。
Meta的MusicGen AI通过生成高质量的音乐片段来引入了一种创新的音乐创作方法。虽然这项技术的未来影响和法律挑战仍不确定,但MusicGen为音乐人、营销人员和个人开拓了探索和创作各种形式原创音乐的新机会。凭借将文本输入转化为引人入胜的音乐作品的能力,MusicGen代表了AI生成音乐领域的重大进步。
现在,加入FoxData,并开启一个商业发展之旅,我们为您展示一个免费的应用数据分析工具,它可以提高您的下载量,增加用户群体,并使您的表现飙升到新的高度!