Google a commencé sa conférence annuelle des développeurs I/O aujourd'hui, traditionnellement une plateforme de présentation des nouvelles mises à jour logicielles et, occasionnellement, du matériel. Cette année, aucun nouveau matériel n'a été présenté, car Google avait déjà annoncé le téléphone Pixel 8A. Au instead, the keynote était une vitrine de nombreuses mises à jour logicielles basées sur l'IA, mettant en évidence la stratégie de Google pour dominer le paysage de l'IA générative.
Table des matières
☑️ Gemini Steppe Up
☑️ Nouveaux modèles Gemini
☑️ IA pour le travail et les études
☑️ IA pour la facilité d'utilisation
☑️ IA pour la créativité
☑️ IA pour la sécurité
Gemini Steppe Up
Google a présenté des améliorations à son modèle de langage de grande taille sur mobile embarqué, désormais rebaptisé Gemini Nano avec Multimodalité. Selon le PDG Sundar Pichai, ce modèle peut "transformer n'importe quelle entrée en n'importe quelle sortie", ce qui signifie qu'il peut traiter le texte, les photos, l'audio, les vidéos web et sociales, et les vidéos en direct provenant de la caméra d'un téléphone pour synthétiser des informations et répondre aux questions. Une vidéo de démonstration a montré le modèle scannant les titres de livres sur une étagère avec une caméra et les enregistrant dans une base de données.
De plus, les développeurs auront accès à une puissance de calcul supérieure avec Gemini qu'avec d'autres modèles de langage de grande taille (LLM).
Nouveaux modèles Gemini
Google a dévoilé deux nouveaux modèles de son IA Gemini, chacun optimisé pour des tâches différentes :
Gemini 1.5 Flash
Google a introduit un nouveau modèle d'IA dans sa gamme : Gemini 1.5 Flash. Ce modèle multimodal est aussi puissant que Gemini 1.5 Pro, mais est spécifiquement optimisé pour des tâches "étroites, à haute fréquence et à faible latence", ce qui le rend plus apte à générer des réponses rapides. De plus, Google a apporté des améliorations à Gemini 1.5 pour améliorer ses capacités de traduction, de raisonnement et de codage. Notamment, Google a doublé la fenêtre de contexte de Gemini 1.5 Pro, passant de 1 million à 2 millions de jetons, augmentant ainsi considérablement la quantité d'informations qu'il peut traiter.
Projet Astra
Project Astra, un chatbot visuel, a également été introduit. Il étend les capacités de Google Lens, permettant aux utilisateurs d'interagir avec leur environnement grâce à la caméra de leur téléphone. Les utilisateurs peuvent poser des questions sur tout ce qu'ils pointent avec leur caméra. Une démonstration préenregistrée a montré la capacité d'Astra à comprendre les informations spatiales et contextuelles, à identifier des lieux, à déchiffrer du code sur un écran d'ordinateur, et même à suggérer des noms de groupe créatifs pour les animaux de compagnie. La démo a mis en évidence les interactions vocales d'Astra à l'aide de la caméra d'un téléphone et d'une caméra dans des lunettes intelligentes non identifiées.
IA pour le travail et les études
Google a présenté quelques fonctionnalités attractives pour le travail de bureau et l'apprentissage pour les parents ainsi que pour les étudiants.
Suite d'outils de bureau Workspace
Google intègre son dernier modèle de langage grand public, Gemini 1.5 Pro, à l'environnement Workspace, améliorant des outils tels que Docs, Sheets, Slides, Drive et Gmail. Disponible pour les abonnés payants le mois prochain, Gemini 1.5 Pro fonctionnera comme un assistant polyvalent au sein de Workspace. Il aura la capacité d'accéder et d'extraire des informations de n'importe quel contenu stocké dans votre Drive, quel que soit votre emplacement actuel. En outre, il effectuera des tâches telles que la rédaction d'e-mails en utilisant des informations provenant de documents que vous consultez ou en vous rappelant de répondre à des e-mails que vous examinez actuellement. Bien que certains testeurs précoces aient déjà accès à ces fonctionnalités, Google prévoit de déployer ces fonctionnalités pour tous les abonnés payants de Gemini dans le mois à venir.
Circle to Search
Google a introduit une nouvelle fonctionnalité pour les téléphones et tablettes Android appelée Circle to Search, conçue pour aider à résoudre des problèmes mathématiques. En entourant un problème mathématique à l'écran de votre appareil, l'intelligence artificielle de Google fournira une décomposition étape par étape du problème, plutôt que de le résoudre directement. Cette approche garantit que l'outil est utile pour apprendre et comprendre comment résoudre le problème de manière indépendante, sans favoriser la triche aux devoirs.
IA pour la facilité d'utilisation
Google a présenté quelques fonctionnalités pratiques pour notre vie quotidienne.
Ask Photos
Cet été, Google lance une nouvelle fonctionnalité appelée Ask Photos qui promet d'être incroyablement utile pour toute personne ayant une vaste collection de photos, s'étalant sur des années, voire des décennies. Cette fonctionnalité permet aux utilisateurs de poser des questions sur leur bibliothèque de photos Google, et Gemini, l'IA de Google, effectuera une recherche et récupérera des informations et des images pertinentes. La fonctionnalité d'Ask Photos dépasse les simples tâches de reconnaissance d'images telles que l'identification des chiens ou des chats. Par exemple, lors de la conférence I/O 2024 de Google, le PDG Sundar Pichai a présenté la fonctionnalité en demandant à Gemini son numéro d'immatriculation. L'IA a répondu avec le numéro et a également fourni une image correspondante pour vérifier son exactitude.
Gemmes
Google a annoncé le lancement de Gemmes, une nouvelle fonctionnalité qui permet aux utilisateurs de créer des chatbots personnalisés dans Gemini. À l'instar des GPT d'OpenAI, Gems permet aux utilisateurs de personnaliser les réponses et les domaines d'expertise de Gemini en fonction de leurs besoins spécifiques. Par exemple, les utilisateurs peuvent configurer Gemini pour agir en tant qu'entraîneur de course motivant avec des inspirations quotidiennes et des plans d'entraînement, ou en tant que tuteur de calcul dédié. Cette fonctionnalité sera bientôt disponible pour les abonnés avancés de Gemini.
Gemini en direct
En outre, Google améliore les capacités conversationnelles de Gemini avec l'introduction de Gemini en direct. Cette nouvelle fonctionnalité est conçue pour rendre les interactions vocales avec Gemini plus fluides et naturelles. Les mises à jour comprennent l'ajout de personnalité supplémentaire au chatbot, la possibilité pour les utilisateurs de l'interrompre en cours de phrase et la capacité d'utiliser la caméra du smartphone pour visualiser et fournir des informations en temps réel. Gemini présentera également de nouvelles intégrations avec Google Agenda, Tâches et Keep, exploitant ses capacités multimodales pour, par exemple, ajouter des événements à partir d'une affiche directement dans votre calendrier personnel. Ces améliorations visent à faire de Gemini un partenaire de conversation plus dynamique et plus utile.
Une évolution dans la recherche
Google s'apprête à améliorer sa fonction de recherche en introduisant
des aperçus basés sur l'IA, précédemment appelés "Expérience de recherche générative". Cette mise à jour, qui sera déployée dans tous les États-Unis cette semaine, utilise un modèle Gemini spécialisé pour sélectionner et afficher des réponses résumées directement sur les pages de résultats de recherche. Ce format est similaire à ce que les utilisateurs peuvent expérimenter avec des outils de recherche basés sur l'IA tels que Perplexity ou Arc Search, fournissant des informations concises et synthétisées tirées de l'ensemble du web.
IA pour la créativité
La division expérimentale de l'IA de Google, Google Labs, a récemment présenté une suite d'outils avancés qui mettent en évidence le potentiel créatif de la technologie IA.
VideoFX
L'une des innovations les plus marquantes est VideoFX, un modèle de vidéo génératif dérivé du générateur vidéo de Google DeepMind, Veo. Cet outil permet aux utilisateurs de créer des vidéos 1080p à partir de simples suggestions de texte, offrant une flexibilité accrue dans le processus de production vidéo.
Améliorations apportées à ImageFX
De plus, Google a amélioré
ImageFX, un générateur d'images haute résolution. Cette version améliorée est meilleure pour interpréter les suggestions des utilisateurs et générer du texte, et elle produit moins d'artefacts numériques indésirables dans les images que ses prédécesseurs.
Améliorations apportées à MusicFX
Lors de la présentation, Google a également introduit le mode DJ dans sa plateforme MusicFX. Cette fonctionnalité permet aux musiciens de générer des boucles de chansons et des échantillons en fonction de certaines suggestions. DJ Mode a été notamment présenté lors d'une performance animée de Mark Rebillet, musicien, qui a précédé le discours d'ouverture de l'I/O.
Ces outils représentent collectivement l'engagement continu de Google à étendre les capacités de l'IA dans les domaines créatifs, facilitant ainsi la génération de contenus médiatiques numériques de haute qualité, tant pour les professionnels que pour les amateurs.
IA pour la sécurité
L'un des derniers points forts de la keynote était la sécurité et la sûreté.
Nouvelle fonction de détection d'escroquerie
Lors de la récente keynote, Google a dévoilé une nouvelle fonctionnalité majeure pour Android visant à renforcer la sécurité : une fonction de détection d'escroquerie qui surveille les appels téléphoniques pour repérer le langage trompeur typique des escrocs, comme les demandes de transfert de fonds. Si une activité frauduleuse potentielle est détectée, la fonction interrompt l'appel et affiche une invite à l'écran conseillant à l'utilisateur de raccrocher. Cette fonctionnalité fonctionne directement sur l'appareil, afin de garantir que les appels téléphoniques ne sont pas envoyés dans le cloud pour analyse, préservant ainsi la confidentialité de l'utilisateur.
Outil de tatouage SynthID
De plus, Google a fait évoluer son outil de tatouage SynthID, conçu pour identifier les contenus médiatiques générés par l'IA. Cet outil incruste un tatouage invisible à l'œil humain, mais détectable par un logiciel analysant les données au niveau des pixels, ce qui contribue à la détection de la désinformation, des deepfakes ou des tentatives de phishing. Les dernières mises à jour ont étendu les capacités de SynthID pour analyser le contenu de l'application Gemini, du web et des vidéos générées par Veo. Google prévoit de rendre SynthID un outil open source plus tard cet été, soutenant ainsi les efforts de lutte contre la désinformation numérique et la fraude.
Rejoignez maintenant
FoxData et lancez-vous dans un parcours d'excellence en marketing tandis que nous dévoilons les dernières actualités et tendances de l'industrie, présentons de puissantes stratégies de croissance et proposons des solutions de mesure de pointe.
Tous les contenus, la mise en page et le code de cadre de toutes les sections de blog FoxData appartiennent à l'équipe originale de contenu et technique, toute reproduction et référence doit indiquer la source et le lien de manière évidente, sinon la responsabilité légale sera engagée.