Encerramento do I/O 2024 sobre IA da Web: novos modelos, ferramentas e APIs para seu próximo app da Web

Muita coisa mudou na IA da Web no último ano. Caso não tenha notado, fizemos uma palestra na I/O 2024 sobre os novos modelos, ferramentas e APIs para seu próximo app da Web.

IA da Web é um conjunto de tecnologias e técnicas para usar modelos de machine learning (ML) no lado do cliente em um navegador da Web executado na CPU ou GPU de um dispositivo. Ele pode ser criado com JavaScript e outras tecnologias da Web, como WebAssembly e WebGPU. Isso é diferente da IA do lado do servidor ou da "IA do Cloud", em que o modelo é executado em um servidor e acessado com uma API.

Nesta palestra, compartilhamos:

  • Como executar nossos novos modelos de linguagem grandes (LLMs) no navegador e o impacto da execução de modelos no lado do cliente
  • Uma análise sobre o futuro dos Visual Blocks para protótipos mais rapidamente.
  • e como os desenvolvedores da Web podem usar o JavaScript no Chrome para trabalhar com IA da Web em escala.

LLMs no navegador

O Gemma Web é um novo modelo aberto do Google que pode ser executado no navegador do dispositivo de um usuário, construído a partir da mesma pesquisa e tecnologia que usamos para criar o Gemini.

Ao trazer um LLM para o dispositivo, há um potencial significativo de economia de custos em comparação com a execução em um servidor na nuvem para inferência, além de maior privacidade do usuário e latência reduzida. A IA generativa no navegador ainda está nos estágios iniciais, mas à medida que o hardware continua a melhorar (com mais CPU e RAM de GPU), esperamos que mais modelos sejam disponibilizados.

As empresas podem reimaginar o que é possível fazer em uma página da Web, especialmente para casos de uso específicos para tarefas, em que os pesos de LLMs menores (de 2 a 8 bilhões de parâmetros) podem ser ajustados para execução no hardware do consumidor.

Gemma 2B está disponível para download em modelos Kaggle e vem em um formato compatível com nossa API Web LLM de inferência. Outras arquiteturas compatíveis incluem Microsoft Phi-2, Falcon RW 1B e Stable LM 3B, que podem ser convertidas em um formato que o ambiente de execução pode usar com nossa biblioteca de conversores.

Crie protótipos mais rápidos com os blocos visuais

Com os blocos visuais, é possível executar uma estimativa de profundidade no cliente, sem código.

Estamos colaborando com a Hugging Face, que criou 16 novos nós personalizados para Visual Blocks. Isso leva o Transformers.js e o ecossistema mais amplo do Hugging Face para o Visual Blocks.

Oito desses novos nós são executados inteiramente no lado do cliente, com IA da Web, incluindo:

Além disso, há sete tarefas de ML do lado do servidor da Hugging Face que permitem executar milhares de modelos com APIs em blocos visuais. Confira a coleção de blocos visuais de Hugging Face.

Use JavaScript para IA da Web em grande escala com o Chrome

Nas instâncias anteriores, como no Gemma, o modelo é carregado e executado na própria página da Web. O Chrome está usando uma IA integrada no dispositivo, em que é possível acessar modelos com APIs JavaScript padronizadas e específicas para tarefas.

E isso não é tudo. A WebGPU também foi atualizada no Chrome com suporte para valores de ponto flutuante de 16 bits.

O WebAssembly tem uma nova proposta, Memory64, para oferecer suporte a índices de memória de 64 bits, o que permitiria carregar modelos de IA maiores do que antes.

Comece a testar modelos de IA da Web com a versão headless do Chrome

Agora é possível testar a IA do lado do cliente (ou qualquer aplicativo que precise de suporte a WebGL ou WebGPU) usando o Headless Chrome, enquanto usa GPUs do lado do servidor para aceleração, como uma NVIDIA T4 ou P100 Saiba mais:

Não se esqueça: ao compartilhar o que você cria, adicione #WebAI para que a comunidade em geral possa ver seu trabalho. Compartilhe suas descobertas e sugestões no X, no LinkedIn ou na plataforma social de sua preferência.