Kesimpulan I/O 2024 Web AI: Model, alat, dan API baru untuk aplikasi web Anda berikutnya

Banyak yang telah berubah di AI Web selama setahun terakhir. Barangkali Anda melewatkannya, kami memberikan pembahasan di I/O 2024 tentang model, alat, dan API baru untuk aplikasi web Anda berikutnya.

AI Web adalah sekumpulan teknologi dan teknik untuk menggunakan model machine learning (ML), sisi klien di browser web yang berjalan pada CPU atau GPU perangkat. API ini dapat dibuat dengan JavaScript dan teknologi web lainnya, seperti WebAssembly dan WebGPU. Hal ini berbeda dengan AI sisi server atau "Cloud AI", yaitu model dieksekusi di server dan diakses dengan API.

Dalam diskusi kali ini, kami menyampaikan:

  • Cara menjalankan model bahasa besar (LLM) baru di browser dan dampak menjalankan model di sisi klien;
  • Sekilas tentang masa depan Visual Blocks, untuk membuat prototipe lebih cepat;
  • Serta cara developer web dapat menggunakan JavaScript di Chrome untuk bekerja dengan AI Web, dalam skala besar.

LLM di browser

Gemma Web adalah model terbuka baru dari Google yang dapat berjalan di browser pada perangkat pengguna, yang dibuat dari penelitian dan teknologi yang sama seperti yang kami gunakan untuk membuat Gemini.

Dengan menghadirkan LLM di perangkat, ada potensi penghematan biaya yang signifikan dibandingkan dengan menjalankan inferensi di server cloud untuk inferensi, beserta peningkatan privasi pengguna dan latensi yang lebih rendah. AI generatif di browser masih dalam tahap awal, tetapi seiring dengan peningkatan hardware (dengan CPU dan RAM GPU yang lebih tinggi), kami berharap lebih banyak model akan tersedia.

Bisnis dapat menata ulang apa yang dapat Anda lakukan di halaman web, terutama untuk kasus penggunaan untuk tugas tertentu, dengan bobot LLM yang lebih kecil (2 hingga 8 miliar parameter) dapat disesuaikan untuk dijalankan pada hardware konsumen.

Gemma 2B tersedia untuk didownload di Model Kaggle, dan tersedia dalam format yang kompatibel dengan Web LLM inferensi API kami. Arsitektur lain yang didukung meliputi Microsoft Phi-2, Falcon RW 1B, dan Stable LM 3B, yang dapat Anda konversi ke format yang dapat digunakan runtime, menggunakan library konverter kami.

Membangun prototipe yang lebih cepat dengan Blok Visual

Dengan Blok Visual, Anda dapat menjalankan estimasi kedalaman di klien, tanpa kode.

Kami berkolaborasi dengan Hugging Face, yang telah membuat 16 node kustom baru untuk Visual Blocks. Hal ini menghadirkan Transformers.js dan ekosistem Wajah Memeluk yang lebih luas ke Blok Visual.

Delapan dari node baru ini berjalan sepenuhnya di sisi klien, dengan Web AI, termasuk:

Selain itu, ada tujuh tugas ML sisi server dari Hugging Face yang memungkinkan Anda menjalankan ribuan model dengan API dalam Blok Visual. Lihat koleksi Blok Visual Wajah Melipat.

Menggunakan JavaScript untuk AI Web dalam skala besar dengan Chrome

Pada contoh sebelumnya, seperti dengan Gemma, model dimuat dan berjalan di dalam halaman web itu sendiri. Chrome sedang mengerjakan AI bawaan di perangkat, tempat Anda dapat mengakses model dengan JavaScript API khusus tugas standar.

Dan bukan itu saja. Chrome juga telah mengupdate WebGPU dengan dukungan untuk nilai floating point 16 bit.

WebAssembly memiliki proposal baru, Memory64, untuk mendukung indeks memori 64 bit, yang memungkinkan Anda memuat model AI yang lebih besar daripada sebelumnya.

Mulai menguji model AI Web dengan Chrome headless

Kini Anda dapat menguji AI sisi klien (atau aplikasi apa pun yang memerlukan dukungan WebGL atau WebGPU) menggunakan Chrome Headless, sekaligus memanfaatkan GPU sisi server untuk akselerasi seperti NVIDIA T4 atau P100. Pelajari lebih lanjut:

Ingat, saat membagikan apa yang Anda buat, tambahkan #WebAI agar komunitas yang lebih luas dapat melihat karya Anda. Bagikan temuan dan saran Anda di X, LinkedIn, atau {i>platform<i} sosial yang Anda sukai.