Опубликовано: 22 мая 2025 г.
Искусственный интеллект меняет подход веб-разработчиков к созданию веб-сайтов и веб-приложений. На конференции Google I/O 2025 мы поделились результатами нашей работы за последний год, продемонстрировали, как наши партнеры используют ИИ в веб-разработке, и анонсировали новые встроенные API для ИИ .
Пропустили мероприятие? Хорошие новости! Теперь вы можете посмотреть выступления в записи!
Практичный встроенный ИИ с Gemini Nano в Chrome
Наша главная миссия — сделать Chrome и веб-технологии умнее для всех разработчиков и всех пользователей. В этом докладе Томас Штайнер расскажет об обновлениях встроенного ИИ , практических примерах его использования и заглянет в наше будущее.
Встроенный ИИ запускает модели на стороне клиента в браузере, что имеет ряд преимуществ:
- Конфиденциальность : конфиденциальные данные пользователя остаются на устройстве и никогда не покидают браузер.
- Автономный режим : Приложения могут использовать возможности ИИ даже без подключения к интернету.
- Высокая производительность : Благодаря аппаратному ускорению эти API обеспечивают превосходную производительность.
Ознакомьтесь с примерами кода для каждого из встроенных API ИИ , узнайте об их текущем состоянии и выясните, какие компании внедряют эту технологию.
Мультимодальные API
Мы работаем над совершенно новыми мультимодальными API . Это означает, что вы можете запросить у Gemini Nano информацию о том, что он «видит» в визуальном контенте или «слышит» в аудиоконтенте. Например, получить предложения по альтернативному тексту для загруженных изображений на блог-платформе, которые пользователи смогут уточнить и скорректировать. Или вы можете попросить Gemini Nano написать описания или транскрипции для подкастов.
Гибридный ИИ
Одна из проблем, с которыми сталкиваются разработчики клиентского ИИ, заключается в том, что не все платформы и браузеры соответствуют аппаратным требованиям для запуска модели на устройстве. Gemini и Firebase объединили усилия для создания Firebase Web SDK , чтобы в случае недоступности клиентских реализаций можно было использовать Gemini Nano на сервере.
Работая с вами
Мы очень рады сотрудничеству со многими разработчиками над встроенными API для искусственного интеллекта. Без вас наши усилия были бы невозможны.
- Программа раннего ознакомления : Более 16 000 разработчиков присоединились к программе раннего ознакомления , тестируя новые API, открывая новые варианты использования и предоставляя обратную связь для создания более совершенного ИИ для веб-разработки.
- Хакатоны : Мы провели два хакатона, и вы создали несколько невероятных веб-сайтов и расширений .
Ваша работа еще не закончена. Продолжайте делиться своими отзывами, тестировать новые встроенные API, и мы будем продолжать их совершенствовать. Вы даже можете помочь стандартизировать эти API, присоединившись к сообществу W3C по веб-машинному обучению .
Будущее расширений Chrome с Gemini в вашем браузере
За последние два года количество расширений, использующих искусственный интеллект, удвоилось. Фактически, 10% всех расширений, установленных из Chrome Web Store, используют ИИ. В этом докладе Себастьян Бенц приведет практические примеры того, почему расширения Chrome и Gemini представляют собой такое мощное сочетание.
Примеры варьируются от того, как можно сделать браузер более удобным для пользователя, извлекая и обрабатывая данные с веб-сайтов на стороне клиента с помощью недавно запущенного API подсказок Chrome.
Демонстрация потенциала новых многомодальных возможностей API подсказок Chrome в расширениях Chrome, позволяющих сделать аудио и изображения более доступными для пользователей.
Рассмотрим будущее веб-серфинга, объяснив, как проект Mariner от Google DeepMind использует расширения Chrome и новейшие API Gemini Cloud для создания полноценного браузерного агента.
Изучите потенциал использования Gemini в облаке или в браузере в виде расширений Chrome для создания новых возможностей просмотра веб-страниц и повышения удобства использования браузера.
Примеры и стратегии использования веб-ИИ в реальном мире
Юрико Хирота и Света Гопалакришнан привели реальные примеры компаний, использующих ИИ в интернете для улучшения своего бизнеса и пользовательского опыта. Независимо от того, использует ли их решение модели на стороне клиента, на стороне сервера или гибридное решение, важно то, какие новые функции и возможности вы предоставляете своим пользователям прямо сейчас.
BILIBILI сделала свои видеотрансляции более привлекательными благодаря новой функции: комментариям на экране . Они предлагают комментарии пользователей в режиме реального времени прямо в видео, отображаемые за говорящим. Для этого они используют сегментацию изображений — хорошо известную концепцию машинного обучения. В результате продолжительность сеанса увеличилась на 30%! Tokopedia упростила процесс проверки продавцов, используя модель распознавания лиц для оценки качества загруженных фотографий. В результате они сократили количество ручных проверок почти на 70%.
Vision Nanny, веб-платформа для детей с церебральными нарушениями зрения (ЦНЗ), предоставляет занятия по зрительной стимуляции с использованием искусственного интеллекта. В ней используются несколько библиотек MediaPipe, включая модель обнаружения ключевых точек на руках, которая определяет их положение на изображении, видео или в режиме реального времени. Пилотный проект с участием 50 детей показал, что Vision Nanny обеспечивает ответы в 5 раз быстрее, чем занятия по зрительной стимуляции, выполняемые вручную. Терапевты сообщили об экономии в среднем трех часов за сеанс за счет отказа от ручной настройки.
В Google Meet реализовано несколько функций, использующих искусственный интеллект, от улучшения освещения до уменьшения размытия и нечеткости видео. Самая большая проблема заключается в том, что эти функции должны работать в режиме реального времени. Именно здесь на помощь приходит WebAssembly (Wasm) , позволяющий использовать всю мощь центрального процессора компьютера и обеспечить обработку видео в реальном времени.
Это лишь несколько реальных примеров применения ИИ в интернете. Несколько других компаний экспериментировали со встроенными API ИИ, некоторые из них поделились результатами своей работы в тематических исследованиях .
Клиентские веб-агенты на основе ИИ для создания более интеллектуального пользовательского опыта будущего
Джейсон Мэйес рассказал о будущем интернета: веб-агентах искусственного интеллекта. У интернета будущее за агентами, которые переносят возможности ИИ непосредственно в браузер, чтобы выполнять полезную работу от вашего имени, выходя за рамки возможностей больших языковых моделей (LLM).
При клиентском подходе обеспечивается повышенная конфиденциальность, уменьшена задержка и потенциально значительная экономия средств. Агенты позволяют модернизировать существующий веб-сайт, автономно выполнять задачи для пользователя, динамически выбирая и используя доступные инструменты — возможно, в цикле — что позволяет агенту выполнять потенциально сложные или многоэтапные задачи.
Агенты могут:
- Планируйте и разделяйте подзадачи , решая более сложные проблемы с помощью многоэтапного планирования, чтобы разбить задачу на логические этапы для ее выполнения.
- Выберите лучшие инструменты , будь то функции, использование API или доступ к хранилищу данных для доступа к базовым знаниям расширенной языковой модели, а затем выполняйте действия во внешнем мире.
- Сохраняйте контекстно-зависимую память , основанную на предыдущих результатах работы агента или внешних инструментов. Кратковременная память действует как буфер FIFO, содержащий историю контекста вплоть до размера контекстного окна модели, в отличие от долговременной памяти, где векторная база данных может использоваться для хранения информации, которую можно извлечь по мере необходимости из предыдущих сеансов разговора или других источников данных.
Веб-агенты искусственного интеллекта предназначены для интеграции в существующие веб-технологии на JavaScript. В конечном итоге, важно продолжать ускорять работу нашего оборудования для оптимального выполнения моделей в браузере. В будущем такие технологии, как WebNN, будут играть ключевую роль в оптимизации выполнения моделей на процессорах, графических процессорах и нейронных процессорах. С учетом тенденции к уменьшению размеров LLM и постоянного совершенствования, их возможности в будущем будут только расти.
Рассмотрите возможность использования гибридного подхода, сочетающего обработку на устройстве со стратегическими облачными запросами, чтобы вы могли создавать интеллектуальные, адаптивные и персонализированные пользовательские интерфейсы в браузере уже сейчас. Вскоре ваши инвестиции в веб-ИИ должны окупиться, поскольку устройства станут более способными к выполнению задач с использованием LLM.
Ознакомьтесь с материалами Google I/O 2025.
Мы опубликовали все доклады с конференции Google I/O 2025, а также плейлист, посвященный веб-разработчикам . Смотрите еще больше на io.google/2025 .