Google는 연례 개발자 컨퍼런스 I/O를 개최하여 새로운 소프트웨어 업데이트 및 가끔의 하드웨어 발표의 플랫폼으로 알려져 있습니다. 이번 해에는 새로운 하드웨어는 소개되지 않았으며, Google은 이미 Pixel 8A 폰을 발표했기 때문입니다. 대신, 주요 연설은 Google의 AI 소프트웨어 업데이트를 집중적으로 소개하여 생성적 AI 분야에서 우위를 확립하려는 전략을 강조했습니다.
목차
☑️ 제미니가 스텝 업했습니다.
☑️ 새로운 제미니 모델들
☑️ 업무 및 공부를 위한 AI
☑️ 편의를 위한 AI
☑️ 창의성을 위한 AI
☑️ 안전을 위한 AI
제미니가 스텝 업했습니다.
Google은 기기 내의 모바일 큰 언어 모델을 향상시키며 제미니 나노(Multimodality로 이름이 바뀌었습니다. Sundar Pichai CEO에 따르면, 이 모델은 "어떤 입력을 어떤 출력으로 변환"할 수 있으며, 이는 텍스트, 사진, 오디오, 웹 및 소셜 비디오 그리고 핸드폰 카메라에서의 실시간 동영상과 같이 핸드폰 카메라로 정보를 합성하고 질문에 답변할 수 있다는 것을 의미합니다. 시연 동영상에서는 모델이 책장에 카메라를 사용하여 책 제목을 스캔하고 데이터베이스에 기록하는 모습이 제시되었습니다.
게다가 제미니를 사용하면 다른 큰 언어 모델(Large Language Models)보다 더 많은 컴퓨팅 파워에 액세스할 수 있게 될 것입니다.
새로운 제미니 모델들
Google은 제미니 인공지능에 두 가지 새로운 모델을 발표했습니다. 각각 다른 작업에 최적화된 제미니 모델입니다:
제미니 1.5 플래시
Google은 제미니 1.5 플래시라는 새로운 AI 모델을 라인업에 추가했습니다. 이 다중모달 모델은 제미니 1.5 프로와 같은 강력한 성능을 발휘하지만 "좁고 빈번하며 저레이턴시(latency)가 낮은 작업"에 특화되어 빠른 응답을 생성하는 능력이 더 뛰어납니다. 게다가 Google은 제미니 1.5의 번역, 추론 및 코딩 능력을 향상시켰습니다. 특히, Google은 제미니 1.5 프로의 컨텍스트 창을 100만에서 200만 토큰으로 2배로 늘려 정보 처리 능력을 크게 향상시켰습니다.
프로젝트 아스트라
Google은 또한 시각적 챗봇인 프로젝트 아스트라를 소개했습니다. 이 기능은 Google Lens의 기능을 확장하여 사용자가 핸드폰 카메라를 통해 주변 환경과 상호작용할 수 있게 합니다. 사용자는 카메라를 가리킨 것에 대해 어떤 질문이든 할 수 있습니다. 미리 녹화된 데모에서는 아스트라가 공간 및 문맥 정보를 이해하고 위치를 식별하며 컴퓨터 화면에서 코드를 해석하고 애완동물에 대한 창의적인 밴드 이름을 제안하는 능력을 보여주었습니다. 이 데모에서는 핸드폰 카메라와 알 수 없는 스마트 안경에 있는 카메라를 사용하여 아스트라의 음성 기반 상호작용을 강조했습니다.
업무 및 공부를 위한 AI
Google은 회사 업무 및 학부모와 학생을 위한 유용한 기능 몇 가지를 소개했습니다.
Workspace 오피스 도구 모음
Google은 최신 메인스트림 언어 모델인 제미니 1.5 프로를 Workspace 환경에 통합하여 Docs, Sheets, Slides, Drive 및 Gmail과 같은 도구를 향상시켰습니다. 유료 구독자를 대상으로하는 Workspace에서 다음 달에 제공될 예정인 제미니 1.5 프로는 Workspace 내에서 일반 목적의 어시스턴트로 작동합니다. 현재 위치에 관계없이 Drive에 저장된 모든 컨텐츠에서 정보를 액세스하고 가져올 수 있는 능력을 가지고 있습니다. 또한, 보고 있는 문서의 정보를 사용하여 이메일 작성 및 현재 확인 중인 이메일에 대한 답변을 알림하기와 같은 작업을 수행할 수 있습니다. 일부 초기 테스터들은 이미이러한 기능들에 액세스할 수 있으나, Google은 이 기능을 다가오는 달에 모든 유료 제미니 구독자에게 제공할 계획입니다.
서클 투 검색
Google은 안드로이드 폰과 태블릿을 위한 서클 투 검색이라는 새로운 기능을 소개했습니다. 이 기능은 수학 문제 해결을 돕기 위해 설계되었으며, 장치의 화면에서 수학 문제를 서클링하면 Google의 AI가 문제의 단계적인 분해를 제공할 것입니다. 직접 문제를 해결하는 대신에 이 방법은 학습하고 문제를 독립적으로 해결하는데 도움이 되는 도구입니다.
편의를 위한 AI
Google은 일상 생활에서 편리한 기능을 소개했습니다.
사진으로 질문하기
Google 올 여름에 사진으로 질문하기라는 새로운 기능을 출시할 예정입니다. 이 기능은 수년 동안 또는 수십 년 동안 모인 다양한 사진 컬렉션을 가진 사람들에게 매우 유용할 것입니다. 이 기능을 사용하면 Google의 AI인 제미니가 사용자의 Google Photos 라이브러리에 관한 질문을 받고 관련 정보와 이미지를 검색하게 됩니다. 사진으로 질문하기의 기능은 강아지 또는 고양이와 같은 간단한 이미지 인식 작업을 넘어섭니다. 예를 들어, Google I/O 2024 기조 연설에서 CEO Sundar Pichai는 제미니에게 자신의 차량 번호판 번호를 물으려고 질문하였고, AI는 해당 숫자를 응답하며 그것의 정확성을 확인하는 상응하는 이미지를 제공했습니다.
젬스
Google은 젬스라는 새로 기능을 발표했습니다. 이 기능은 사용자가 제미니 내에서 사용자의 특정한 요구를 위해 제미니의 응답 및 전문 지식 영역을 구성할 수 있도록 해줍니다. 예를 들어, 사용자는 매일 영감과 훈련 계획을 제공하는 운동 코치로써 제미니를 설정하거나 전용 캘큘러스 선생님으로써 설정할 수 있습니다. 이 기능은 곧 제미니 어드밴스 구독자에게 제공될 예정입니다.
제미니 라이브
게다가, Google은 제미니의 대화 기능을 향상시키기 위해 제미니 라이브를 도입합니다. 이 새로운 기능은 제미니와의 음성 상호작용을 더 유연하고 자연스럽게 만들기 위해 개선되었습니다. 업데이트에는 챗봇에게 추가적인 개성을 부여하고 사용자가 문장 중간에 중단할 수 있는 능력, 그리고 스마트폰 카메라를 사용하여 실시간으로 정보를 보고 제공할 수 있는 기능이 포함됩니다. 제미니는 또한 Google 캘린더, 작업 및 Keep와의 새로운 통합 기능을 제공하여, 예를 들어, 선전지에서 이벤트를 개인 캘린더에 직접 추가할 수 있습니다. 이러한 개선은 제미니를 더 동적이고 유용한 대화 파트너로 만들기 위한 목표를 가지고 있습니다.
검색에 대한 진보
Google은 "AI 개요"라고도 불리는
"검색 생성 경험(AI Overviews)"를 소개하여 검색 기능을 향상시킬 예정입니다. 이 업데이트는 이번 주 미국 전역에 시범적으로 도입됩니다. 이 업데이트는 특수한 제미니 모델을 사용하여 요약된 답변을 직접 검색 결과 페이지에 제시합니다. 이 형식은 Perplexity나 Arc Search와 같은 AI 검색 도구를 사용하는 사용자들이 경험할 수 있는 형식과 유사하게, 웹 전체에서 추출한 간결하고 합성된 정보를 제공합니다.
창의성을 위한 AI
Google의 실험적인 AI 부서인 Google Labs는 최근 AI 기술의 창의적인 잠재력을 강조하는 고급 도구 모음을 선보였습니다.
비디오 FX
최고의 혁신 중 하나는 Google DeepMind의 비디오 생성기인 Veo에서 파생된 생성적 비디오 모델인 비디오 FX입니다. 이 도구를 사용하면 텍스트 프롬프트에서 1080p 비디오를 생성할 수 있으며, 비디오 제작 과정에서 유연성을 제공합니다.
ImageFX의 향상
Google은 고해상도 이미지 생성기인
ImageFX를 업그레이드했습니다. 이 향상된 버전은 사용자 프롬프트를 해석하고 텍스트를 생성하는 데 가장 좋습니다. 이전 버전보다 이미지에서 불필요한 디지털 아티팩트가 적게 나타납니다.
음악FX의 향상
프레젠테이션 중, Google은 음악FX 플랫폼에서의 DJ 모드를 소개했습니다. 이 기능을 사용하면 음악가들은 특정한 프롬프트에 기반하여 노래 루프와 샘플을 생성할 수 있습니다. DJ 모드는 I/O 키노트를 앞서 가요 가수인 Mark Rebillet의 활기찬 공연에서 동영상으로 시연되었습니다.
이러한 도구들은 Google이 창조적인 분야에서 AI 기술의 능력을 확장하는 지속적인 약속을 대변하며, 전문가 및 애호가들이 고품질의 디지털 미디어 콘텐츠를 쉽게 생성할 수 있도록 돕는 것을 목표로 합니다.
안전을 위한 AI
키노트에서 마지막으로 강조된 하이라이트 중 하나는 보안에 대한 사항입니다.
새로운 사기 탐지 기능
Google은 안드로이드를 위한 중요한 새로운 기능을 발표했습니다. 이 기능은 보안을 향상시키기 위한 것으로 전화 통화를 사기꾼들의 특징적이고 여러 번 사용되는 언어에 대한 모니터링을 제공합니다. 예를 들어, 자금 이체 요청과 같은 사기꾼의 특징적인 언어가 감지되면 이 기능이 전화 통화를 중단시키고 사용자에게 전화를 끊으라는 메시지를 표시합니다. 이 기능은 기기 자체에서 작동하기 때문에 전화 통화가 클라우드로 전송되어 분석되지 않으며 사용자의 개인 정보를 보호합니다.
SynthID 워터마킹 도구
Google은 AI에 의해 생성된 미디어 콘텐츠를 식별하는 데 사용되는 SynthID 워터마킹 도구를 개선했습니다. 이 도구는 인간의 눈으로 볼 수 없는 워터마크를 이미지에 삽입하고, 픽셀 수준의 데이터 분석 소프트웨어를 사용하여 인식 가능하도록 하여 오보, 딥페이크 또는 피싱 시도를 탐지하는 데 도움을 줍니다. 최신 업데이트에서는 SynthID의 기능이 제미니 앱, 웹 및 Veo에서 생성된 동영상과 함께 콘텐츠를 스캔할 수 있는 능력으로 확장되었습니다. Google은 SynthID를 이번 여름에 오픈 소스 도구로 배포할 계획을 가지고 있으며, 디지털 오보와 사기에 맞서는 노력을 지원하기 위해 더욱 발전시킬 예정입니다.
지금
FoxData에 가입하여 최신 산업 뉴스 및 트렌드를 공개하고 강력한 성장 전략을 제시하며 전단계적인 측정 솔루션을 소개하는 마케팅 엑셀러레이션의 여정을 시작하세요.
모든 FoxData 블로그 섹션의 모든 콘텐츠, 레이아웃 및 프레임 코드는 원본 콘텐츠 및 기술 팀에 속합니다. 모든 복제 및 참조는 출처와 링크를 명시해야 하며, 그렇지 않은 경우 법적 책임을 물을 것입니다.