IA integrada

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

Quando criamos recursos com modelos de IA na Web, muitas vezes contamos com soluções do lado do servidor para modelos maiores. Isso é especialmente válido para a IA generativa, em que mesmo os menores modelos são cerca de mil vezes maiores do que o tamanho médio de uma página da Web. Isso também vale para outros casos de uso de IA, em que os modelos podem variar de dez a centenas de megabytes.

Como esses modelos não são compartilhados entre sites, cada site precisa fazer o download deles no carregamento da página. Essa é uma solução impraticável para desenvolvedores e usuários

Embora a IA do lado do servidor seja uma ótima opção para modelos grandes, abordagens híbridas e no dispositivo têm suas próprias vantagens atraentes. Para tornar essas abordagens viáveis, precisamos abordar o tamanho e a entrega do modelo.

Por isso, estamos desenvolvendo APIs de plataforma da Web e recursos de navegador projetados para integrar modelos de IA, incluindo modelos de linguagem grandes (LLMs), diretamente no navegador. Isso inclui o Gemini Nano, a versão mais eficiente da família Gemini de LLMs, projetada para ser executada localmente na maioria dos computadores desktop e laptop modernos. Com a IA integrada, seu site ou aplicativo da Web pode executar tarefas com tecnologia de IA sem precisar implantar ou gerenciar os próprios modelos de IA.

Descubra os benefícios da IA integrada, nosso plano de implementação e como você pode aproveitar essa tecnologia.

Confira uma prévia

Precisamos da sua contribuição para moldar as APIs, garantir que elas atendam aos seus casos de uso e informar nossas discussões com outros fornecedores de navegadores para a padronização.

Participe do nosso programa de pré-lançamento antecipado para fornecer feedback sobre ideias de IA integradas em estágio inicial e descobrir oportunidades para testar APIs em andamento usando prototipagem local.

Participe do grupo de avisos públicos para desenvolvedores da Chrome AI para receber notificações quando novas APIs forem disponibilizadas.

Benefícios da IA integrada para desenvolvedores da Web

Com IA integrada, o navegador fornece e gerencia modelos de fundação e especialistas.

Em comparação com a IA integrada no dispositivo, a IA integrada oferece os seguintes benefícios:

  • Facilidade de implantação: à medida que o navegador distribui os modelos, ele considera a capacidade do dispositivo e gerencia as atualizações do modelo. Isso significa que você não é responsável por fazer o download ou atualizar modelos grandes usando uma rede. Você não precisa resolver problemas de remoção de armazenamento, orçamento de memória no ambiente de execução, custos de veiculação e outros desafios.
  • Acesso à aceleração de hardware: o ambiente de execução de IA do navegador é otimizado para aproveitar ao máximo o hardware disponível, seja uma GPU, uma NPU ou a utilização da CPU. Consequentemente, o app pode ter o melhor desempenho em cada dispositivo.

Benefícios da execução no dispositivo

Com uma abordagem de IA integrada, fica fácil realizar tarefas de IA no dispositivo, o que traz as seguintes vantagens:

  • Processamento local de dados sensíveis: a IA no dispositivo pode melhorar sua história de privacidade. Por exemplo, se você trabalha com dados sensíveis, pode oferecer recursos de IA para usuários com criptografia de ponta a ponta.
  • Experiência do usuário ágil: em alguns casos, abandonar a ida e volta para o servidor significa que você pode oferecer resultados quase instantâneos. A IA no dispositivo pode ser a diferença entre um recurso viável e uma experiência do usuário abaixo do ideal.
  • Maior acesso à IA: os dispositivos dos seus usuários podem compensar parte da carga de processamento em troca de mais acesso a recursos. Por exemplo, se você oferecer recursos premium de IA, é possível visualizar esses recursos com IA no dispositivo para que clientes em potencial possam conferir os benefícios do seu produto, sem mais custos. Essa abordagem híbrida também pode ajudar a gerenciar os custos de inferência, especialmente em fluxos de usuários usados com frequência.
  • Uso de IA off-line: seus usuários podem acessar recursos de IA mesmo quando não há conexão de Internet. Isso significa que seus sites e apps da Web podem funcionar como esperado off-line ou com conectividade variável.

IA híbrida: no dispositivo e no servidor

Embora a IA no dispositivo possa lidar com uma grande variedade de casos de uso, há alguns que exigem suporte do lado do servidor.

Por exemplo, pode ser necessário usar modelos maiores ou oferecer suporte a uma variedade maior de plataformas e dispositivos.

Considere abordagens híbridas, dependendo de:

  • Complexidade:casos de uso específicos e acessíveis são mais fáceis de oferecer suporte com a IA no dispositivo. Em casos de uso complexos, considere a implementação no servidor.
  • Resiliência: use o lado do servidor por padrão e o no dispositivo quando o dispositivo estiver off-line ou em uma conexão instável.
  • Substituto otimizado: a adoção de navegadores com IA integrada leva algum tempo, alguns modelos podem estar indisponíveis e dispositivos mais antigos ou menos potentes podem não atender aos requisitos de hardware para executar todos os modelos da maneira ideal. Ofereça IA do lado do servidor para esses usuários.

Para modelos Gemini, é possível usar a integração de back-end (com Python, Go, Node.js ou REST) ou implementar no seu aplicativo da Web com o novo SDK de cliente da IA do Google para Web.

Arquitetura do navegador e APIs

Para oferecer suporte à IA integrada no Chrome, criamos uma infraestrutura para acessar modelos básicos e especializados para execução no dispositivo. Essa infraestrutura já está impulsionando recursos inovadores do navegador, como o Quero ajuda para escrever, e em breve vai impulsionar as APIs para IA no dispositivo.

Você acessará recursos integrados de IA principalmente com APIs de tarefas, como uma API de tradução ou uma API de resumo. As APIs Task são projetadas para executar inferência no melhor modelo para a atribuição.

No Chrome, essas APIs são criadas para executar inferência no Gemini Nano com ajustes ou um modelo especialista. Desenvolvido para ser executado localmente na maioria dos dispositivos modernos, o Genmini Nano é melhor para casos de uso relacionados à linguagem, como resumo, reformulação ou categorização.

Além disso, pretendemos fornecer APIs exploratórias para que você possa testar localmente e compartilhar outros casos de uso.

Por exemplo, podemos fornecer:

  • API Prompt: envia uma tarefa arbitrária, expressa em linguagem natural, para o modelo de linguagem grande integrado (Gemini Nano no Chrome).
  • API Fine-Tuning (LoRA): melhore o desempenho do LLM integrado em uma tarefa ajustando os pesos do modelo com ajustes da Adaptação de baixa classificação.
Este diagrama demonstra como seu site ou app pode usar APIs de plataforma Web exploratória e de tarefas para acessar modelos integrados ao Chrome.

Quando usar a IA integrada

Confira algumas das vantagens da IA integrada para você e seus usuários:

  • Consumo de conteúdo aprimorado por IA: incluindo resumo, tradução, respostas sobre alguns conteúdos, categorização e caracterização.
  • Criação de conteúdo com suporte de IA: como assistência de escrita, revisão, correção gramatical e reformulação.

A seguir

Participe do nosso programa de pré-lançamento antecipado para testar com APIs de IA integradas em estágio inicial.

Enquanto isso, aprenda a usar o Gemini Pro nos servidores do Google com seus sites e apps da Web no nosso guia de início rápido do SDK para JavaScript da IA do Google.