Stop Thinking, Just Do!

Sungsoo Kim's Blog

Google I/O '25 Keynote

tagsTags

21 May 2025


Google I/O ‘25 Keynote

Abstract

It’s time to I/O! Tune in to learn the latest news, announcements, and AI updates from Google.

Google의 최신 AI 발전 상황을 중점적으로 다룹니다. 발표자들은 Gemini 모델의 성능 향상과 다양한 AI 제품 및 기능 출시를 강조하며, 특히 Gemini 2.5 Pro의 뛰어난 코딩 및 추론 능력을 부각합니다. 또한, Project Starline의 3D 영상 통화 기술, Project Astra의 범용 AI 비서, Project Mariner의 에이전트 기능 등 연구 단계의 혁신이 제품에 통합되는 과정도 소개합니다. 마지막으로, Google 검색의 AI 모드, Gemini 앱의 개인화 및 능동적 기능, Android XR을 통한 새로운 형태의 AI 경험, 그리고 AI를 활용한 과학 발전 및 사회 문제 해결 노력 등 폭넓은 분야에서의 AI 적용 사례를 제시하며 기술의 미래 비전을 공유합니다.

Google AI Studio

Google AI Studio의 목표는 개발자들이 “Gemini로 이것을 빌드할 수 있을까?”라는 질문에 대한 답을 찾고 최신 모델로 빌드를 시작할 수 있도록 돕는 것입니다.

Google AI Studio는 Gemini API를 사용하여 빌드를 시작하기에 가장 좋은 곳으로 언급됩니다.

AI Studio를 통해 가능한 주요 활동 및 기능은 다음과 같습니다.

  • 빠른 프로토타이핑: Gemini 2.5 Flash와 같은 모델을 사용하여 아이디어를 빠르게 실험하고 프로토타입을 만들 수 있습니다.
  • AI 기반 애플리케이션 빌드: AI 기반 음성 에이전트나 AI 기반 어드벤처 게임과 같은 다양한 유형의 앱을 빌드할 수 있습니다.
  • 코드 생성 및 편집: Gemini 2.5 Pro의 코딩 능력을 활용하여 AI Studio의 네이티브 코드 에디터에서 웹 애플리케이션 코드를 빠르게 생성하고 수정할 수 있습니다. 모델은 요청을 추론하고, 앱 사양을 구성하며, 코드를 생성하고, 오류가 발생하면 자체 수정하기도 합니다.
  • 멀티모달 기능 활용: Gemini 모델의 멀티모달 기능을 사용하여 텍스트, 이미지, 동영상, 오디오 등 다양한 입력을 처리하는 앱을 만들 수 있습니다. 예를 들어, 이미지 스케치나 사진을 기반으로 코드를 생성하여 3D 애니메이션이 포함된 웹 앱을 만드는 데 사용되었습니다.
  • 에이전트 앱 개발: MCP(Model Context Protocol) 정의를 네이티브로 지원하는 Google Gen AI SDK 업데이트를 통해 에이전트 앱을 더 쉽게 빌드할 수 있습니다. 함수 호출을 사용한 구조화된 출력 기능도 개선되었습니다.
  • 배포: AI Studio에서 생성된 앱은 Cloud Run을 통해 쉽게 배포하여 많은 사용자가 접근할 수 있도록 할 수 있습니다.
  • 모델 실험 및 미세 조정: Gemma 3n과 같은 새로운 모델의 미리보기가 AI Studio에서 제공되며, AI 중심 Colab과 같은 도구와 연동하여 모델 미세 조정을 실험하는 데 사용될 수 있습니다.

요약하자면, Google AI Studio는 개발자들이 Gemini와 같은 AI 모델을 사용하여 새로운 아이디어를 탐색하고, 앱을 프로토타이핑하며, 코드를 생성하고, 최종적으로 애플리케이션을 배포하는 과정을 간소화하도록 설계된 환경입니다.

Vertex AI

Vertex AI는 개발자들이 Gemini API를 사용하여 애플리케이션을 구축할 수 있는 플랫폼입니다. Google AI Studio와 함께 Gemini API 사용을 위한 두 가지 주요 플랫폼 중 하나로 언급됩니다.

Vertex AI와 관련된 주요 내용은 다음과 같습니다.

  • 개발자 채택 및 성장: 지난 Google I/O 이후 Google AI Studio와 Vertex AI를 통해 700만 명 이상의 개발자가 Gemini API로 구축 작업을 했습니다. 이는 작년 대비 5배 이상의 성장입니다. 특히 Vertex AI에서의 Gemini 사용량은 작년 대비 40배 이상 증가했습니다.
  • Gemini 모델 및 기능 가용성:
    • 최신 모델 구축을 시작할 수 있도록 돕는 목표를 가지고 있습니다.
    • 업데이트된 2.5 Flash의 미리보기 버전을 Vertex AI에서 사용해 볼 수 있습니다.
    • 2.5 Pro와 Flash 모델에 대한 ‘Thought Summaries’ 기능이 Gemini API 및 Vertex AI를 통해 포함됩니다. 이 기능은 모델의 원시적인 생각을 명확한 형식으로 정리하여 투명성을 높이고 디버깅을 쉽게 합니다.
  • 모델 배포 옵션: Gemma 모델과 같이 AI-first Colab 및 UnSloth와 같은 도구를 사용하여 미세 조정된 모델을 배포할 수 있는 옵션으로 언급됩니다. Google Cloud의 Cloud Run 또는 Google AI Edge와 함께 배포 방법 중 하나입니다.

요약하자면, Vertex AI는 Gemini API를 활용하여 AI 기반 애플리케이션을 개발하고 배포하는 데 사용되는 Google의 클라우드 기반 AI 워크스페이스이며, 개발자들 사이에서 빠르게 채택되고 있는 플랫폼입니다.

Action Intelligence + Gemini

Gemini 모델의 능력과 도구 접근, 사용자 대신 작업을 수행하는 “Agentic capabilities” 또는 “Agent” 기능에 대해 설명하고 있습니다. 이는 사용자의 쿼리에서 언급된 “Action Intelligence“의 개념과 밀접하게 연결됩니다.

핵심 개념: Agentic Capabilities (에이전트 기능)

소스에 따르면, 에이전트(Agent)는 첨단 AI 모델의 인텔리전스와 도구 접근 능력을 결합한 시스템입니다. 이러한 에이전트는 사용자를 대신하여 사용자의 통제 하에 작업을 수행(take actions)할 수 있습니다.

Project Mariner (프로젝트 마리너)

  • 역할: Project Mariner는 웹과 상호 작용하고 작업을 수행할 수 있는 에이전트로 설명됩니다. 특히, 브라우저 및 기타 소프트웨어와 상호 작용하고 운영할 수 있게 하는 중요한 에이전트 기능인 컴퓨터 사용(Computer use)을 구현하는 초기 연구 프로토타입이었습니다.
  • 기능 개선: 12월 이후 많은 진전을 이루었으며, 현재는 최대 10개의 작업을 동시에 처리하는 멀티태스킹을 지원합니다. 또한, 사용자가 작업을 한 번 보여주면 유사한 작업을 위한 계획을 학습하는 ‘Teach and repeat’(가르치고 반복하기) 기능도 사용합니다.
  • 가용성: Project Mariner의 컴퓨터 사용 기능은 Gemini API를 통해 개발자들에게 제공될 예정입니다. 신뢰할 수 있는 테스터들이 이미 이를 기반으로 구축하고 있으며, 올여름에 더 광범위하게 사용 가능해질 것입니다.
  • 의미: Project Mariner는 우리가 브라우저를 사용하는 방식을 바꿀 것으로 언급되며, 사용자를 대신하여 작업을 완료하는 AI 에이전트입니다.

Gemini와의 통합 및 제품 적용

에이전트 기능은 Gemini 모델에 의해 구동되며, 다양한 Google 제품에 통합되고 있습니다.

  1. Gemini 앱 (Agent Mode):
    • Gemini 앱에 “Agent mode”라는 새로운 모드가 도입될 예정입니다.
    • 이 모드에서는 Gemini 앱이 배후에서 작업을 처리합니다.
    • 사용자의 기준(예: 예산, 원하는 편의 시설)에 맞는 아파트 목록을 찾고, 필요할 경우 Project Mariner를 사용하여 특정 필터를 조정합니다.
    • MCP (Model Context Protocol)를 사용하여 목록에 접근하고, 심지어 사용자를 대신하여 투어를 예약할 수도 있습니다.
    • 사용자가 원하는 동안 새로운 목록을 계속해서 탐색할 수 있습니다.
    • 이는 Zillow와 같은 회사에게 새로운 고객을 유치하고 전환율을 개선하는 데 유용합니다.
    • 이 모드의 실험적인 버전은 곧 구독자에게 제공될 예정입니다.
    • 이는 새롭고 부상하는 영역이며, Google은 에이전트의 이점을 사용자 및 생태계에 가장 잘 제공하는 방법을 탐색하고 있습니다.
  2. Google Search (AI Mode):
    • Google Search의 새로운 “AI mode”에도 Project Mariner의 에이전트 기능이 적용되고 있습니다.
    • 이를 통해 검색은 더욱 “agentic”해지며, 사용자의 번거로운 작업(take work off my plate)을 대신 처리할 수 있게 됩니다.
    • 예를 들어, 이벤트 티켓을 찾는 것과 같은 복잡한 작업을 처리할 수 있습니다. 검색은 여러 사이트를 검색하고, 수백 가지 잠재적인 티켓 옵션을 분석하며, 사용자가 요청한 모든 기준을 사용하여 양식을 채우는 번거로운 작업(tedious work of filling in forms)을 수행합니다.
    • 실시간 가격 및 재고를 분석하기 위해 결과를 추론하고, 유용한 컨텍스트와 함께 티켓 옵션을 제공합니다.
    • 체크아웃 완료 페이지로 바로 연결될 수도 있습니다.
    • 이 기능은 이벤트 티켓, 레스토랑 예약, 지역 서비스 약속 등에 대해 곧 제공될 예정입니다.

배경 기술 및 목표

  • 이러한 에이전트 기능은 Gemini 2.5 Pro와 같은 최신 Gemini 모델의 고급 추론 능력에 기반합니다.
  • 검색의 AI 모드에서 복잡한 질문을 처리하기 위해 Query Fanout이라는 기술을 사용하여 질문을 하위 주제로 나누고 사용자를 대신하여 동시에 다수의 쿼리를 실행합니다.
  • 궁극적인 목표는 Gemini를 개인화되고(Personal), 사전 예방적이며(Proactive), 강력한(Powerful) 범용 AI 비서로 변화시키는 것입니다. Project Astra에서 탐색된 기능(비디오 이해, 화면 공유, 메모리 등)을 Gemini Live에 통합하는 것과 같이, 이러한 에이전트 기능은 사용자의 일상생활에 더욱 도움이 되고, 컨텍스트를 이해하며, 모든 장치에서 사용자를 대신하여 계획하고 행동(plan and take action)하는 AI를 만드는 데 중요한 단계입니다.

요약하자면, “Action Intelligence + Gemini”는 Google이 Gemini 모델의 에이전트 기능을 통해 AI가 단순한 정보 제공을 넘어 사용자의 의도를 이해하고 웹 및 다른 애플리케이션과 상호 작용하여 실제 작업을 대신 수행하도록 발전시키는 방향을 의미합니다. Project Mariner는 이러한 기능을 가능하게 하는 핵심 기술이며, Gemini 앱 및 Google Search와 같은 제품에 통합되어 사용자의 생산성을 높이고 새로운 경험을 제공하는 것을 목표로 합니다.

Google I/O ‘25 Developer Keynote