Googleは今日、年次開発者カンファレンスであるI/Oを開始しました。このカンファレンスでは、通常ソフトウェアの新機能や時折ハードウェアの発表の場となりますが、今年は新しいハードウェアは紹介されませんでした。既にGoogleはPixel 8Aの発表をしていたためです。代わりに、基調講演は数多くのAIソフトウェアのアップデートを紹介するショーケースとなりました。それによって、Googleが生成AIの領域を支配する戦略を示しています。
目次
☑️ Geminiが進化
☑️ 新しいGeminiモデル
☑️ 仕事や学習のためのAI
☑️ 便利さのためのAI
☑️ 創造力のためのAI
☑️ 安全のためのAI
Geminiが進化
Googleは搭載型のモバイル大規模言語モデルを強化し、Gemini Nano with Multimodalityという名前に変更しました。CEOのSundar Pichaiによれば、このモデルは「入力をいかなる出力にも変換する」ことができるとのことで、テキスト、写真、音声、ウェブとソーシャルビデオ、スマートフォンのカメラでのライブビデオなどを処理し、情報をまとめて質問に答えることができます。デモンストレーションビデオでは、モデルがカメラで本棚の本のタイトルをスキャンし、データベースに記録する様子が示されました。
さらに、他の大規模言語モデル(LLM)と比べてGeminiのほうがより多くの計算能力を持つことができるようになります。
新しいGeminiモデル
GoogleはGemini AIの2つの新しいモデルを発表しました。各モデルは異なるタスク向けに最適化されています。
Gemini 1.5 Flash
Googleはラインナップに新しいAIモデル、Gemini 1.5 Flashを追加しました。このマルチモーダルモデルはGemini 1.5 Proと同等のパフォーマンスを持つものの、特に「狭い高頻度の低遅延のタスク」に最適化されており、高速な応答を生する能力が向上しています。さらに、GoogleはGemini 1.5の翻訳、推論、コーディング能力を向上させました。特筆すべきは、Gemini 1.5 Proのコンテキストウィンドウを100万から200万トークンに倍増させ、処理可能な情報量を大幅に増やしたことです。
プロジェクトAstra
プロジェクトAstraというビジュアルチャットボットも紹介されました。これにより、Google Lensの機能が拡張され、ユーザーは自分の周囲とスマートフォンのカメラを通じて対話することができます。ユーザーはカメラで何かを指し示すと、それに関する質問をすることができます。プレレコードされたデモでは、Astraが空間的および文脈情報を理解し、場所を特定し、コンピュータ画面上のコードを解読し、ペットのためのクリエイティブなバンド名を提案する能力を示しました。デモでは、Astraはスマートフォンのカメラと正体不明のスマートグラスのカメラを使用したテキスト-poweredな対話も紹介されました。
仕事や学習のためのAI
Googleは、オフィスワークや親や学生向けの学習のために魅力的な機能を披露しました。
ワークスペーススイートオフィストール
Googleは、最新の主要な言語モデルであるGemini 1.5 Proをワークスペース環境に統合し、Docs、Sheets、Slides、Drive、Gmailなどのツールを強化しています。来月有料サブスクリプションユーザーに提供される予定のGemini 1.5 Proは、ワークスペース内での汎用のアシスタントとして機能します。現在の場所に関係なく、ドライブに保存されている任意のコンテンツから情報を取得する機能を持つようになります。また、ドキュメントの情報を使用して電子メールを作成したり、現在閲覧しているドキュメントに対して返信するようにリマインドするなどのタスクも実行します。これらの機能に早期テスターは既にアクセスできるようになっていますが、Googleは今後1か月以内にこれらの機能をすべての有料Geminiサブスクリプションユーザーに提供する予定です。
サークルを検索
Googleは、Android搭載のスマートフォンやタブレット向けの新機能「サークルを検索」を導入しました。この機能は数学の問題の解決を支援するために設計されています。デバイスの画面上で数学の問題に円を描くと、GoogleのAIが問題のステップバイステップの解説を表示します。これにより、問題を解くための学習と理解が容易になり、宿題での不正行為を助長しません。
便利さのためのAI
Googleは日常生活で役立つ機能をいくつか披露しました。
写真に尋ねる
この夏、Googleは「写真に尋ねる」という新しい機能を開始します。この機能は、数年または数十年にわたる写真コレクションを持つ人々にとって非常に便利です。ユーザーはGoogleのAIであるGeminiに自分のGoogle Photosライブラリに関する質問を投げかけることができ、関連する情報や画像を検索して取得することができます。この「写真に尋ねる」という機能は、犬や猫などの単純な画像認識課題を超えた機能を持っています。例えば、GoogleのI/O 2024の基調講演で、CEOのSundar Pichaiはこの機能を使って自分の車のナンバープレート番号を尋ねました。AIはその番号を答えだけでなく、それに対応する画像も提供し、その正確性を確認しました。
Gems
Googleは、"Gems"という新機能を発表しました。これにより、ユーザーはGemini内にカスタムチャットボットを作成することができます。OpenAIのGPTと同様に、GemsはユーザーがGeminiの応答やエキスパート領域を特定のニーズに合わせてカスタマイズできるようにします。たとえば、ユーザーはGeminiを毎日のインスピレーションやトレーニングプランを提供するモチベーションランニングコーチとして設定することができます。または、専用の微積分のチューターとしても機能します。この機能は、近々Gemini Advancedのサブスクライバー向けに提供される予定です。
Gemini Live
さらに、GoogleはGeminiの会話能力を向上させるために、Gemini Liveを導入しました。この新機能は、Geminiとの音声対話をより滑らかで自然なものにします。アップデートには、チャットボットに個性を持たせる機能、ユーザーが中途で割り込むことができる機能、スマートフォンのカメラを使用してリアルタイムに情報を表示および提供する機能などが含まれています。また、GeminiはGoogleカレンダー、タスク、Keepとの新しい統合も提供し、多モーダルの機能を活用して、例えばチラシからイベントを直接個人のカレンダーに追加することも可能となります。これらの改善により、Geminiはよりダイナミックで有益な対話パートナーになります。
検索の進化
Googleは、AIの概要(以前は「Search Generative Experience」と呼ばれていた)を紹介することで、検索機能を向上させます。このアップデートは、専用のGeminiモデルを使用して、検索結果ページに要約された回答をまとめて表示するものです。これは、PerplexityやArc SearchなどのAI検索ツールでユーザーが体験する可能性のある形式で、ウェブ全体から抽出した簡潔なまとめ情報を提供します。
創造性のためのAI
Googleの実験的なAI部門であるGoogle Labsは、最近AI技術の創造的なポテンシャルを示す一連の高度なツールを披露しました。
VideoFX
その中で注目すべき革新の1つは、Google DeepMindのビデオ生成器「Veo」から派生した生成ビデオモデルであるVideoFXです。このツールを使用することで、ユーザーはテキストのプロンプトから1080pのビデオを作成することができ、ビデオ制作プロセスの柔軟性が向上します。
ImageFXの改良
また、Googleは高解像度の画像生成器
ImageFXをアップグレードしました。この改良版は、ユーザーのプロンプトとテキストをより解釈し、以前のバージョンよりも画像中の不要なデジタルアーティファクトが少なくなるように生成します。
MusicFXの改良
プレゼンテーションでは、GoogleはMusicFXプラットフォームでDJモードを紹介しました。この機能により、ミュージシャンは特定のプロンプトに基づいて曲のループやサンプルを生成することができます。DJモードはミュージシャンMark Rebilletの活気あるパフォーマンスで特にデモされ、これは基調講演の前に行われました。
これらのツールは共に、AIの能力を創造的な分野で拡大するGoogleの持続的な取り組みを表しており、プロフェッショナルや愛好家が高品質なデジタルメディアコンテンツを生成しやすくすることを目指しています。
安全のためのAI
基調講演の最後のハイライトはセキュリティと安全です。
新しい詐欺検出機能
GoogleはAndroid向けに、セキュリティ強化を目的とした重要な新機能を発表しました。この機能は、詐欺業者による要求など詐欺的な言語を監視する詐欺検出機能で、電話の通話中にこのような活動が検出されると、機能が通話を中断し、画面上にプロンプトが表示され、ユーザーに電話を切るよう忠告します。重要なのは、この機能がデバイス上で直接動作するため、通話がクラウドに送信されて分析されることはなく、ユーザーのプライバシーが保たれることです。
SynthIDウォーターマーキングツール
さらに、GoogleはAIによって生成されたメディアコンテンツを識別するためのSynthIDウォーターマーキングツールを向上させました。このツールは、人間の目には見えないが、ピクセルレベのデータを分析するソフトウェアによって検出できる透明なウォーターマークを埋め込み、デジタルの虚偽情報やディープフェイク、フィッシング詐欺の検出を支援します。最新のアップデートにより、SynthIDはGeminiアプリ、ウェブ、Veoによって生成されるビデオなど、さまざまなコンテンツをスキャンする機能が追加されました。GoogleはSynthIDを今夏後半にオープンソースツールとしてリリースする予定であり、デジタルの誤情報や詐欺に対する取り組みをさらに支援します。
さあ、
FoxDataにご参加ください。最新の業界ニュースとトレンドを紹介して、強力な成長戦略を披露し、先端的な計測ソリューションを紹介します。
すべてのFoxDataブログセクションのコンテンツ、レイアウト、およびフレームコードは、元のコンテンツおよび技術チームに帰属し、転載と引用については、出典とリンクを明示しない場合は法的責任が追及されます。