Google начал ежегодную конференцию разработчиков I/O, традиционно являющуюся платформой для представления новых программных обновлений и иногда аппаратных устройств. В этом году новое аппаратное оборудование не было представлено, так как Google уже объявила о появлении телефона Pixel 8A. Вместо этого в основном баловались демонстрацией множества обновлений программного обеспечения искусственного интеллекта, подчеркивая стратегию Google по доминированию в области генеративного искусственного интеллекта.
Оглавление
☑️ Gemini улучшает
☑️ Новые модели Gemini
☑️ Искусственный интеллект для работы и учебы
☑️ Искусственный интеллект для удобства
☑️ Искусственный интеллект для творчества
☑️ Искусственный интеллект для безопасности
Gemini улучшает
Google представил улучшения своей мобильной модели большого языка на устройстве, теперь переименованной в Gemini Nano с мульти-модальностью. По словам генерального директора Сундара Пичайа, эта модель может "превратить любые данные в любое выходное значение", что означает, что она может обрабатывать текст, фотографии, аудио, веб- и социальные видео, а также видео с камеры телефона в режиме реального времени для синтеза информации и ответа на вопросы. В видео-демонстрации показано, как модель сканирует названия книг на полке с помощью камеры и записывает их в базу данных.
Кроме того, разработчики смогут использовать больше вычислительной мощности с Gemini, чем с другими моделями большого языка (LLM).
Новые модели Gemini
Google представил две новые модели своего искусственного интеллекта Gemini, каждая из которых оптимизирована для различных задач:
Gemini 1.5 Flash
Google представил новую модель исусственного ителлекта в своей линейке - Gemini 1.5 Flash. Эта мульти-модальная модель так же мощна, как и Gemini 1.5 Pro, но специально оптимизирована для "узких, высокочастотных, низкозадержных задач", что делает ее более способной генерировать быстрые ответы. Кроме того, Google улучшила Gemini 1.5, чтобы улучшить его возможности в области перевода, рассуждений и программирования. Особенно стоит отметить, что Google увеличила размер окна контекста Gemini 1.5 Pro с 1 миллиона до 2 миллионов токенов, значительно увеличив количество информации, которую он может обрабатывать.
Проект Astra
Кроме того, был представлен визуальный чат-бот под названием Project Astra. Он расширяет возможности Google Lens, позволяя пользователям взаимодействовать со своим окружением через камеру телефона. Пользователи могут задавать вопросы о любом предмете, на который они направляют камеру. В примере предзаписанной демонстрации показана способность Astra понимать пространственную и контекстуальную информацию, определять местоположения, разбирать код на экране компьютера и даже предлагать творческие названия для животных. Демонстрация также продемонстрировала взаимодействия Astra с голосовыми командами с помощью камеры телефона и камеры в неопознанных умных очках.
Искусственный интеллект для работы и учебы
Google показал некоторые функции, которые будут полезны для работы в офисе и обучения для родителей, а также для студентов.
Пакет инструментов Workspace для офисной работы
Google интегрирует свою последнюю главную языковую модель, Gemini 1.5 Pro, в рабочую среду Workspace, улучшая инструменты, такие как Docs, Sheets, Slides, Drive и Gmail. Следующий месяц Gemini 1.5 Pro станет доступен платным абонентам, и он будет работать в качестве универсального помощника в рабочей среде. Он будет иметь возможность получать доступ к информации и извлекать информацию из любого контента, хранящегося в вашем диске, независимо от вашего текущего местоположения. Кроме того, он будет выполнять задачи, такие как создание электронных писем с использованием информации из документов, которые вы просматриваете, или напоминание о необходимости ответить на электронные письма, которые вы в настоящее время изучаете. В то время как некоторые ранние тестеры уже имеют доступ к этим функциям, Google планирует расширить их возможности для всех платных абонентов Gemini в ближайший месяц.
Круглый поиск
Google представил новую функцию для телефонов и планшетов на Android, называемую круглый поиск, предназначенную для решения математических задач. Обведя математическую задачу на экране вашего устройства, искусственный интеллект Google предоставит пошаговое решение задачи, а не решит ее напрямую. Такой подход гарантирует, что инструмент будет полезен для обучения и понимания, как решить задачу самостоятельно, не облегчая списывание домашнего задания.
Искусственный интеллект для удобства
Google продемонстрировал некоторые функции, которые будут удобными в нашей повседневной жизни.
Поиск по фотографиям
В этом летом Google запускает новую функцию под названием "Поиск по фотографиям", которая обещает быть невероятно полезной для всех, у кого есть обширная коллекция фотографий, охватывающая годы и даже десятилетия. Эта функция позволяет пользователям задавать вопросы о своей библиотеке Google Photos, и искусственный интеллект Gemini будет искать и находить соответствующую информацию и изображения. Функциональность "Поиск по фотографиям" выходит за рамки простых задач распознавания изображений, таких как определение собак или кошек. Например, во время ио-ключевого мероприятия 2024 года генеральный директор Google Сундар Пичай продемонстрировал функцию, попросив Gemini назвать его номерной знак. Искусственный интеллект сообщил номер и также предоставил соответствующее изображение для подтверждения его точности.
Гемы
Google объявил о запуске новой функции под названием "Гемы", которая позволяет пользователям создавать настраиваемых чат-ботов внутри Gemini. Подобно генеративным прототипам OpenAI, Гемы позволяют пользователям настроить ответы и области компетенции Gemini в соответствии с их конкретными потребностями. Например, пользователи могут настроить Gemini, чтобы он выступал в роли мотивационного бегового тренера с ежедневными вдохновениями и тренировочными планами, или в качестве дедикованного репетитора по математике. Эта функция скоро станет доступной для подписчиков Gemini Advanced.
Gemini Live
Кроме того, Google расширяет возможности разговорной модели Гемини с помощью новой функции "Gemini Live". Эта новая функция разработана, чтобы сделать голосовое взаимодействие с Гемини более гибким и естественным. Обновления включают в себя предоставление чат-боту дополнительной индивидуальности, возможность прервать его посередине фразы и способность использовать камеру телефона для просмотра и предоставления информации в режиме реального времени. Gemini также будет содержать новые интеграции с Google Календарь, Задачами и Keep, используя свои мультимодальные возможности для, например, добавления событий с листовки прямо в ваш личный календарь. Эти улучшения направлены на то, чтобы сделать Gemini более динамичным и полезным партнером в разговоре.
Эволюция поиска
Google улучшает функцию поиска с помощью внедрения AI Overviews, ранее известной как "Search Generative Experience". Это обновление, которое распространяется по всей США на этой неделе, использует специализированную модель Gemini для курирования и отображения кратких ответов прямо на страницах результатов поиска. Этот формат подобен тому, что пользователи могут видеть с инструментами искусственного интеллекта для поиска, такими ка Perplexity или Arc Search, предоставляя краткую синтезированную информацию из разных источников в Интернете.
Искусственный интеллект для творчества
Экспериментальное подразделение Google Labs недавно представило набор передовых инструментов, подчеркивающих творческий потенциал технологии искусственного интеллекта Google.
VideoFX
Один из наиболее ярких инноваций - это генеративная видеомодель VideoFX, полученная из генератора видео Veo Google DeepMind. Этот инструмент позволяет пользователям создавать видео 1080p по текстовым подсказкам, обеспечивая большую гибкость в процессе создания видео.
Улучшения в ImageFX
Дополнительно, Google улучшил ImageFX - генератор изображений высокого разрешения. Эта улучшенная версия лучше интерпретирует запросы пользователя и генерирует текст, а также она создает меньше нежелательных цифровых артефактов в изображениях по сравнению с предыдущими версиями.
Улучшения в MusicFX
Во время презентации Google также представил DJ Mode в своей платформе MusicFX. Эта функция позволяет музыкантам создавать петли песни и сэмплы на основе конкретных подсказок. DJ Mode заметно продемонстрирован в живом исполнении музыканта Марка Ребильета, предшествовавшем ИО-ключевому мероприятию.
Все эти инструменты вместе представляют собой постоянное стремление Google к расширению возможностей искусственного интеллекта в области творчества, что делает еще проще для профессионалов и энтузиастов генерировать высококачественный цифровой контент.
Искусственный интеллект для безопасности
Одной из последних особенностей презентации была безопасность.
Новая функция обнаружения мошенничества
Во время последней презентации Google представила значительную новую функцию для Android, направленную на повышение безопасности: возможность обнаружения мошенничества, которая мониторит телефонные звонки на наличие обманных фраз, характерных для мошенников, таких как просьбы о переводе средств. Если выявляется потенциальная попытка мошенничества, функция прерывает звонок и отображает на экране предупреждение, рекомендуя пользователю положить трубку. Важно отметить, что эта функция работает непосредственно на устройстве, что гарантирует, что телефонные звонки не отправляются в облако для анализа и сохраняют конфиденциальность пользователя.
Инструмент водяных знаков SynthID
Кроме того, Google улучшил инструмент водяных знаков SynthID, который предназначен для идентификации медиаконтента, созданного искусственным интеллектом. Этот инструмент встраивает водяной знак, невидимый для глаза человека, но обнаружимый через анализ пикселей с помощью программного обеспечения, анализирующего пиксельные данные. Это помогает обнаруживать дезинформацию, Deepfakes или попытки рассылки фишинговых писем. Последние обновления позволяют сканировать контент в приложении Gemini, веб-страницы и видео, созданные Veo. Google планирует сделать SynthID инструментом с открытым исходным кодом в ближайшем будущем, что дополнительно поддерживает усилия по борьбе с цифровой дезинформацией и мошенничеством.
Присоединяйтесь к
FoxData и отправляйтесь в путешествие по достижению маркетингового совершенства, когда мы раскроем последние новости и тренды индустрии, представим мощные стратегии роста и представим передовые решения для измерения.
Весь контент, макет и рамочный код всех разделов блога FoxData принадлежат оригинальной команде содержания и технической поддержки, вся репродукция и ссылки должны указывать источник и ссылку на очевидном месте, в противном случае будет возбуждена юридическая ответственность.