Посмотрите наши доклады об ИИ на I/O 2025

Александра Клеппер
Alexandra Klepper

Опубликовано: 22 мая 2025 г.

Искусственный интеллект меняет подход веб-разработчиков к созданию веб-сайтов и веб-приложений. На конференции Google I/O 2025 мы поделились результатами нашей работы за последний год, продемонстрировали, как наши партнеры используют ИИ в веб-разработке, и анонсировали новые встроенные API для ИИ .

Пропустили мероприятие? Хорошие новости! Теперь вы можете посмотреть выступления в записи!

Практичный встроенный ИИ с Gemini Nano в Chrome

Наша главная миссия — сделать Chrome и веб-технологии умнее для всех разработчиков и всех пользователей. В этом докладе Томас Штайнер расскажет об обновлениях встроенного ИИ , практических примерах его использования и заглянет в наше будущее.

Встроенный ИИ запускает модели на стороне клиента в браузере, что имеет ряд преимуществ:

  • Конфиденциальность : конфиденциальные данные пользователя остаются на устройстве и никогда не покидают браузер.
  • Автономный режим : Приложения могут использовать возможности ИИ даже без подключения к интернету.
  • Высокая производительность : Благодаря аппаратному ускорению эти API обеспечивают превосходную производительность.

Ознакомьтесь с примерами кода для каждого из встроенных API ИИ , узнайте об их текущем состоянии и выясните, какие компании внедряют эту технологию.

Мультимодальные API

Мы работаем над совершенно новыми мультимодальными API . Это означает, что вы можете запросить у Gemini Nano информацию о том, что он «видит» в визуальном контенте или «слышит» в аудиоконтенте. Например, получить предложения по альтернативному тексту для загруженных изображений на блог-платформе, которые пользователи смогут уточнить и скорректировать. Или вы можете попросить Gemini Nano написать описания или транскрипции для подкастов.

Гибридный ИИ

Одна из проблем, с которыми сталкиваются разработчики клиентского ИИ, заключается в том, что не все платформы и браузеры соответствуют аппаратным требованиям для запуска модели на устройстве. Gemini и Firebase объединили усилия для создания Firebase Web SDK , чтобы в случае недоступности клиентских реализаций можно было использовать Gemini Nano на сервере.

Работая с вами

Мы очень рады сотрудничеству со многими разработчиками над встроенными API для искусственного интеллекта. Без вас наши усилия были бы невозможны.

Ваша работа еще не закончена. Продолжайте делиться своими отзывами, тестировать новые встроенные API, и мы будем продолжать их совершенствовать. Вы даже можете помочь стандартизировать эти API, присоединившись к сообществу W3C по веб-машинному обучению .

Будущее расширений Chrome с Gemini в вашем браузере

За последние два года количество расширений, использующих искусственный интеллект, удвоилось. Фактически, 10% всех расширений, установленных из Chrome Web Store, используют ИИ. В этом докладе Себастьян Бенц приведет практические примеры того, почему расширения Chrome и Gemini представляют собой такое мощное сочетание.

Примеры варьируются от того, как можно сделать браузер более удобным для пользователя, извлекая и обрабатывая данные с веб-сайтов на стороне клиента с помощью недавно запущенного API подсказок Chrome.

Демонстрация потенциала новых многомодальных возможностей API подсказок Chrome в расширениях Chrome, позволяющих сделать аудио и изображения более доступными для пользователей.

Рассмотрим будущее веб-серфинга, объяснив, как проект Mariner от Google DeepMind использует расширения Chrome и новейшие API Gemini Cloud для создания полноценного браузерного агента.

Изучите потенциал использования Gemini в облаке или в браузере в виде расширений Chrome для создания новых возможностей просмотра веб-страниц и повышения удобства использования браузера.

Примеры и стратегии использования веб-ИИ в реальном мире

Юрико Хирота
Yuriko Hirota
Света Гопалакришнан
Swetha Gopalakrishnan

Юрико Хирота и Света Гопалакришнан привели реальные примеры компаний, использующих ИИ в интернете для улучшения своего бизнеса и пользовательского опыта. Независимо от того, использует ли их решение модели на стороне клиента, на стороне сервера или гибридное решение, важно то, какие новые функции и возможности вы предоставляете своим пользователям прямо сейчас.

BILIBILI сделала свои видеотрансляции более привлекательными благодаря новой функции: комментариям на экране . Они предлагают комментарии пользователей в режиме реального времени прямо в видео, отображаемые за говорящим. Для этого они используют сегментацию изображений — хорошо известную концепцию машинного обучения. В результате продолжительность сеанса увеличилась на 30%! Tokopedia упростила процесс проверки продавцов, используя модель распознавания лиц для оценки качества загруженных фотографий. В результате они сократили количество ручных проверок почти на 70%.

Vision Nanny, веб-платформа для детей с церебральными нарушениями зрения (ЦНЗ), предоставляет занятия по зрительной стимуляции с использованием искусственного интеллекта. В ней используются несколько библиотек MediaPipe, включая модель обнаружения ключевых точек на руках, которая определяет их положение на изображении, видео или в режиме реального времени. Пилотный проект с участием 50 детей показал, что Vision Nanny обеспечивает ответы в 5 раз быстрее, чем занятия по зрительной стимуляции, выполняемые вручную. Терапевты сообщили об экономии в среднем трех часов за сеанс за счет отказа от ручной настройки.

В Google Meet реализовано несколько функций, использующих искусственный интеллект, от улучшения освещения до уменьшения размытия и нечеткости видео. Самая большая проблема заключается в том, что эти функции должны работать в режиме реального времени. Именно здесь на помощь приходит WebAssembly (Wasm) , позволяющий использовать всю мощь центрального процессора компьютера и обеспечить обработку видео в реальном времени.

Это лишь несколько реальных примеров применения ИИ в интернете. Несколько других компаний экспериментировали со встроенными API ИИ, некоторые из них поделились результатами своей работы в тематических исследованиях .

Клиентские веб-агенты на основе ИИ для создания более интеллектуального пользовательского опыта будущего

Джейсон Мэйес рассказал о будущем интернета: веб-агентах искусственного интеллекта. У интернета будущее за агентами, которые переносят возможности ИИ непосредственно в браузер, чтобы выполнять полезную работу от вашего имени, выходя за рамки возможностей больших языковых моделей (LLM).

При клиентском подходе обеспечивается повышенная конфиденциальность, уменьшена задержка и потенциально значительная экономия средств. Агенты позволяют модернизировать существующий веб-сайт, автономно выполнять задачи для пользователя, динамически выбирая и используя доступные инструменты — возможно, в цикле — что позволяет агенту выполнять потенциально сложные или многоэтапные задачи.

Агенты могут:

  • Планируйте и разделяйте подзадачи , решая более сложные проблемы с помощью многоэтапного планирования, чтобы разбить задачу на логические этапы для ее выполнения.
  • Выберите лучшие инструменты , будь то функции, использование API или доступ к хранилищу данных для доступа к базовым знаниям расширенной языковой модели, а затем выполняйте действия во внешнем мире.
  • Сохраняйте контекстно-зависимую память , основанную на предыдущих результатах работы агента или внешних инструментов. Кратковременная память действует как буфер FIFO, содержащий историю контекста вплоть до размера контекстного окна модели, в отличие от долговременной памяти, где векторная база данных может использоваться для хранения информации, которую можно извлечь по мере необходимости из предыдущих сеансов разговора или других источников данных.

Веб-агенты искусственного интеллекта предназначены для интеграции в существующие веб-технологии на JavaScript. В конечном итоге, важно продолжать ускорять работу нашего оборудования для оптимального выполнения моделей в браузере. В будущем такие технологии, как WebNN, будут играть ключевую роль в оптимизации выполнения моделей на процессорах, графических процессорах и нейронных процессорах. С учетом тенденции к уменьшению размеров LLM и постоянного совершенствования, их возможности в будущем будут только расти.

Рассмотрите возможность использования гибридного подхода, сочетающего обработку на устройстве со стратегическими облачными запросами, чтобы вы могли создавать интеллектуальные, адаптивные и персонализированные пользовательские интерфейсы в браузере уже сейчас. Вскоре ваши инвестиции в веб-ИИ должны окупиться, поскольку устройства станут более способными к выполнению задач с использованием LLM.

Ознакомьтесь с материалами Google I/O 2025.

Мы опубликовали все доклады с конференции Google I/O 2025, а также плейлист, посвященный веб-разработчикам . Смотрите еще больше на io.google/2025 .