近年、私たちは技術的な爆発を目撃してきました。人工知能、ビッグデータ、ロボットは、まるでSFの遠い未来から目の前に現れ、私たちの生活に大きな影響を与えるように思えます。人間は道具の使い方を知っているから食物連鎖の頂点に立っていると言われていますが、この道具が人間社会をどのように形作るのでしょうか?生成型AIツールはすでにテキストコンテンツの作成を変えましたが、視覚と音楽の領域はほとんど変わっていませんでした。Metaという人気のあるソーシャルメディアプラットフォームの背後にある企業は、MusicGenという革新的な人工知能モデルを導入しました。次に、芸術を再び危険にさらすこれら2つのAIモデルをよく見てみましょう。
OpenAIは突然、最初のテキストからビデオを生成するモデルであるSoraを発表しました。Soraは、テキストの指示に基づいてリアリスティックかつ想像力に富んだシーンを作成することができます。2〜30文字のコマンドをSoraに提供することで、ライブアクション映画、アニメーション、または歴史映画、白黒映画、3D SF映画など、最大1分のビデオを生成することができます。Runway Gen 2やPikaといったAIビデオツールは数秒の範囲での一貫性を破っている一方で、OpenAIは史上最高の成果を達成しました。
デモンストレーションビデオを例にすると、60秒のワンショットビデオでは、女性主人公と背景キャラクターの一貫性が驚くほど素晴らしいです。さまざまなショットが自由に切り替わり、キャラクターは神のような安定感を保ちます。
Soraは、ビデオ内の静止ノイズから出発し、多段階のノイズ除去プロセスを経て徐々にビデオを生成する拡散モデルです。Soraは一度に完全なビデオを生成するだけでなく、既に生成されたビデオを拡張することもできます。
モデルが複数のフレームの内容を予測できるようにすることで、チームはビデオの主題が一時的に消えても一貫性を保つという課題を成功裏に克服しました。
Soraは、GPTモデルと同様にTransformerアーキテクチャを使用しており、優れたパフォーマンスのスケーリングを実現しています。OpenAIは、ビデオと画像をGPTの「トークン」に対応する「パッチ」と呼ばれる小さなデータ単位に分割しています。この統一的なデータ表現方法により、拡散Transformerをさまざまな長さ、解像度、アスペクト比をカバーするより広範な視覚データで訓練することができます。
DALL·EやGPTモデルの研究結果に基づいて、SoraはDALL·E 3の再注釈技術を採用しています。これにより、ビジュアルトレーニングデータのタイトルに対して詳細な説明が生成され、ユーザーのテキスト指示に対してモデルがより正確に従うようになります。ビデオ生成だけでなく、このモデルは既存の静止画像をビデオに変換することもでき、画像の内容に生き生きとしたアニメーションを与えます。モデルは既存のビデオを拡張したり、欠落しているフレームを補完したりすることもできます。
Soraは、モデルで現実世界を理解しシミュレートするための基盤を築き、OpenAIはこれを人工汎用知能(AGI)の実現に向けた重要な一歩と考えています。
「テキストからビデオ」が実際の映画制作に脅威を与えるまでにはまだ長い時間がかかるかもしれません。OpenAIが披露したビデオは印象的ですが、それらがモデルの典型的な出力をどれだけ代表しているのかはよくわかりません。
しかしこれにより、Soraや同様のプログラムがTikTokなどのソーシャルプラットフォームを完全に変革することは防げません。
「プロの映画を制作するには高価な機器がたくさん必要です」とPeeblesは語っています。「このモデルによって一般の人でもソーシャルメディアで高品質なビデオコンテンツの作成が可能になります。」
MusicGenは、Metaの最新の生成型AIモデルであり、テキスト入力に基づいてオリジナルの音楽作品を生成するために設計されています。ディープラーニングと自然言語処理の進歩を活用し、MusicGenはテキストの指示に合わせてオリジナルの音楽を生成することができます。特定の種類のトラックを望むか、メロディをハムしても、MusicGenは望ましいオーディオスタイルに合わせたバリエーションと出力を生成することができます。
MetaはMusicGenの訓練に、20,000時間のライセンスされた音楽データセットを使用しました。この包括的な訓練プロセスにより、AIモデルはさまざまな音楽ジャンルのパターン、スタイル、複雑さを把握することができました。GoogleのMusicLMと同様に、MusicGenはTransformerモデルに基づいており、これは自然言語処理のタスクにおいて成功を収めているニューラルネットワークアーキテクチャの一種です。このアーキテクチャにより、MusicGenはテキストと音楽の入力を効果的かつ正確に処理することができます。
MusicGenはまだ広く利用可能ではありませんが、Metaはその能力を示すデモを提供しています。ある例では、バッハのオルガンのメロディを取り、テキストの指示「バックグラウンドに重いドラムとシンセパッドを持つ80年代のドライビングポップソング」と与えました。すると、MusicGenは完全に新しいクリップを生成し、80年代のシンセポップトラックに近いものを作り出しました。別の例では、ボレロを「リズムのあるハイハットパターンのドラムで、シンセサウンドと強いベースがあるエネルギッシュなヒップホップ音楽の一部」と変換しました。再度、MusicGenは提供されたテキストとオーディオのコンテキストに基づいて新しいクリップを成功裏に生成し、元のメロディに忠実であることを示しました。
MusicGenや他のAIによって生成されたコンテンツは、著作権保護された素材の無許可使用に関する法的な課題に直面する可能性があります。知的財産を厳密に守ることで知られる音楽業界は、MusicGenなどのシステムを規制または制限する措置を講じるかもしれません。ただし、MusicGenの生成プロセスにおけるテキストとオーディオのコンテキストの独特の組み合わせは、効果的な規制を行うことが難しい状況を生む可能性があります。これにより、AIによって生成された曲がメインストリームで人気を博し、音楽の風景を再構築する可能性があります。さらに、MusicGenの機能は、基本的な複製を超えた音楽制作の新たな可能性を開拓し、音楽家、マーケター、その他の専門家に革新的なツールを提供します。
MusicGenは、トークンを並列で処理する効率的な単一段階モデルであり、迅速かつシームレスな音楽生成を実現しています。この効率性を実現するため、研究者はオーディオデータをより小さなコンポーネントに分解し、MusicGenが同時にテキストと音楽の指示を処理できるようにしました。MusicGenはメロディの指向を正確に再現するわけではありませんが、テキストの指示は生成における大まかなガイドラインとして機能し、創造的な入力を容易にします。
MusicGenは、Riffusion、Mousai、Noise2Musicなどの他の既存の音楽モデルを凌駕しています。このモデルは、楽曲と歌詞の一致度や作曲の全体的な信憑性など、客観的および主観的な尺度の両方で優れたパフォーマンスを発揮します。特に、MusicGenはGoogleのMusicLMと比較して優れたパフォーマンスを示し、AIによる音楽の生成で重要な進歩となっています。
MetaのMusicGen AIは、テキスト入力から高品質な音楽クリップを生成する画期的なアプローチを提供します。この技術の将来の影響と法的な課題はまだ不確かなままですが、MusicGenは、音楽家、マーケター、個人がさまざまな形式でオリジナルの音楽を探索し、創造するための新しい可能性を開拓します。テキスト入力を魅力的な音楽作品に変換する能力を持つMusicGenは、AIによる音楽生成の領域での大きな進歩を意味しています。
さあ、FoxDataに参加して、私たちが提供する無料のアプリデータ分析ツールとともにビジネスの成長の旅に乗り出しましょう。このツールは、ダウンロード数を増やし、ユーザーベースを拡大し、パフォーマンスを飛躍させるのに役立ちます!