Google今天开始举办其年度的I/O开发者大会,传统上该大会是发布新软件更新和偶尔的硬件的平台。今年,由于Google已经宣布了Pixel 8A手机,所以没有推出新的硬件。相反,主题演讲是展示了很多AI软件的更新,突显了Google在生成式AI领域领导地位的战略。
目录
☑️ Gemini Steps Up
☑️ New Gemini Models
☑️ AI for Work and Study
☑️ AI for Convenience
☑️ AI for Creativity
☑️ AI for Safety
Gemini Steps Up
Google对其设备上的移动大型语言模型进行了改进,现已更名为Gemini Nano with Multimodality。据首席执行官桑达尔·皮查伊表示,该模型可以“将任何输入转换为任何输出”,这意味着它可以处理文本、照片、音频、网络和社交视频,以及从手机摄像头拍摄的实时视频,从而合成信息并回答问题。一段演示视频展示了该模型使用相机扫描书架上的书名,并将其记录在数据库中的过程。
此外,与其他大型语言模型(LLM)相比,开发人员可以利用Gemini获得更强大的计算能力。
新的Gemini模型
Google推出了两款新的Gemini人工智能模型,每款针对不同的任务进行了优化:
Gemini 1.5 Flash
Google推出了一款新的人工智能模型Gemini 1.5 Flash。该多模态模型与Gemini 1.5 Pro具有相同的强大功能,但专门针对“狭窄、高频、低延迟”的任务进行了优化,使其更擅长生成快速响应。此外,Google对Gemini 1.5进行了改进,提高了其翻译、推理和编码能力。值得注意的是,Google将Gemini 1.5 Pro的上下文窗口从100万增加到200万个标记,大大增加了其处理信息的能力。
奥斯特拉项目
此外,还介绍了一名为Astra的视觉聊天机器人。它扩展了Google Lens的功能,允许用户通过手机摄像头与周围环境进行互动。用户可以对他们的相机指向的任何事物提问。一个预录的演示展示了Astra理解空间和上下文信息的能力,识别位置,解析计算机屏幕上的代码,甚至为宠物提供创意乐队名称的建议。演示重点展示了Astra使用手机摄像头和未知智能眼镜中的摄像头进行的语音交互。
面向工作和学习的人工智能
Google展示了一些对于办公工作和家长及学生来说具有吸力的功能。
Workspace办公套件工具
Google正在将其最新的主流语言模型Gemini 1.5 Pro整合到Workspace环境中,增强了Docs、Sheets、Slides、Drive和Gmail等工具的功能。Gemini 1.5 Pro将作为Workspace中的通用助手,将于下个月提供给付费订阅用户。它将能够访问并提取您Drive中存储的任何内容,无论您当前所在的位置如何。此外,它还可以执行任务,例如使用您正在查看的文档中的信息撰写电子邮件,或者提醒您回复您正在查看的电子邮件。虽然一些早期测试者已经可以使用这些功能,但Google计划在未来一个月内向所有付费Gemini订阅用户推出这些功能。
Circle to Search
Google为Android手机和平板电脑引入了一项名为Circle to Search的新功能,旨在协助解决数学问题。通过在设备屏幕上围绕一个数学问题画圈,Google的AI将提供问题的逐步分解,而不是直接解决问题。这种方法确保工具有助于学习并理解如何独立解决问题,而不是用于作业作弊。
便利的人工智能
Google展示了一些对我们日常生活便利的功能。
问问照片
今年夏天,Google将推出一个名为“问问照片”的新功能,对于那些拥有多年甚至几十年照片收藏的人来说,将非常有用。这个功能允许用户针对他们的Google照片库提出问题,Gemini(Google的AI)将搜索并检索相关信息和图像。问问照片的功能超出了像识别狗或猫这样的简单图像识别任务。例如,在Google的2024年I/O主题演讲中,首席执行官桑达尔·皮查伊通过向Gemini询问自己的车牌号码来展示该功能。AI回答了这个号码,并提供了一张相关图像以验证准确性。
Gems
Google宣布推出一项名为“Gems”的新功能,允许用户在Gemini内创建自定义聊天机器人。类似于OpenAI的GPT,Gems使用户可以根据自己的特定需求调整Gemini的回答和专业领域。例如,用户可以配置Gemini作为一个鼓励跑步的教练,提供每日的启示和训练计划,或者作为一个专业的微积分导师。这个功能将很快面向Gemini高级订阅用户推出。
Gemini Live
此外,Google通过引入“Gemini Live”功能来增强Gemini的对话能力。这个新功能旨在使与Gemini的语音交互更流畅和自然。更新内容包括赋予聊天机器人更多的个性,用户可以在其讲话中间打断它,并能够使用智能手机摄像头实时查看和提供信息。Gemini还将与Google Calendar、Tasks和Keep进行新的集成,利用其多模态功能,例如将传单上的活动直接添加到个人日历中。这些改进旨在使Gemini成为更充满活力和有的对话伙伴。
搜索的进化
Google将通过引入“AI概览”来增强其搜索功能,这个更新之前被称为“搜索生成式体验”。这个更新将在本周在美国全面推出,它利用了专门的Gemini模型,在搜索结果页面上提供简洁、综合的答案。这种格式类似于用户可能在使用Perplexity或Arc Search等AI搜索工具时所体验到的,提供了从网络上搜集到的简洁、综合的信息。
创意的人工智能
Google的实验性人工智能部门Google Labs最近展示了一套先进的工具,展示了人工智能技术的创造潜力。
VideoFX
其中一项令人瞩目的创新是VideoFX,这是一种从Google DeepMind的视频生成器Veo演化而来的生成式视频模型。该工具允许用户根据文本提示创建1080p视频,从而提供了视频制作过程中更大的灵活性。
升级版ImageFX
此外,Google对高分辨率图像生成器
ImageFX进行了升级。这个改进版本更擅长解释用户提示并生成文本,与之前的版本相比,生成的图像中的数字噪声更少。
升级版MusicFX
在演示中,Google还在其MusicFX平台中推出了DJ Mode。这个功能使音乐家可以根据特定的提示生成歌曲循环和样本。在I/O主题演讲之前,音乐家马克·利比特进行了一次活力四溢的表演,演示了DJ模式。
这些工具集体展示了Google在拓展人工智能在创意领域的能力上的持续承诺,使专业人士和爱好者可以更轻松地生成高质量的数字媒体内容。
安全的人工智能
新的诈骗检测功能
在最近的主题演讲中,Google为Android推出了一个重要的新功能,旨在提高安全性:诈骗检测功能,用于监视电话呼叫中常见的骗术语言,例如要求转账款项。如果检测到潜在的诈骗活动,该功能将中断通话并在屏幕上显示提示,建议用户挂断电话。此功直接在设备上运行,确保电话通话不会被发送到云端进行分析,保护用户的隐私。
SynthID数字水印工具
此外,Google还对其数字水印工具SynthID进行了改进,该工具用于识别由AI生成的媒体内容。该工具嵌入了肉眼不可见的水印,但可通过分析像素级数据的软件检测到,有助于检测虚假信息、深度伪造或钓鱼尝试。最新的更新将SynthID的功能扩展到Gemini应用、网络和由Veo生成的视频内容的扫描。Google计划在今年夏天将SynthID作为开源工具发布,进一步支持打击数字虚假信息和欺诈的努力。
现在就加入
FoxData,开启卓越营销之旅,揭示最新行业新闻和趋势,揭示强大的增长策略,并提供前沿的测量解决方案。