Tổng kết I/O Web AI 2024: Các mô hình, công cụ và API mới cho ứng dụng web tiếp theo

AI trên web đã thay đổi rất nhiều trong năm qua. Phòng trường hợp bạn bỏ lỡ, chúng tôi đã có một bài nói chuyện tại I/O 2024 về các mô hình, công cụ và API mới cho ứng dụng web tiếp theo của bạn.

AI trên web là một tập hợp các công nghệ và kỹ thuật để sử dụng các mô hình học máy (ML) phía máy khách trong trình duyệt web chạy trên CPU hoặc GPU của thiết bị. Bạn có thể tạo ứng dụng này bằng JavaScript và các công nghệ web khác, chẳng hạn như WebAssembly và WebGPU. Điều này không giống như AI phía máy chủ hoặc "AI trên đám mây", trong đó mô hình thực thi trên máy chủ và được truy cập bằng API.

Trong buổi trò chuyện này, chúng tôi đã chia sẻ:

  • Cách chạy các mô hình ngôn ngữ lớn (LLM) mới của chúng tôi trong trình duyệt và tác động của việc chạy mô hình phía máy khách;
  • Xem xét tương lai của Khối hình ảnh để tạo bản minh hoạ nhanh hơn;
  • Và cách nhà phát triển web có thể sử dụng JavaScript trong Chrome để làm việc với AI trên web trên quy mô lớn.

LLM trong trình duyệt

Gemma Web là một mô hình mở mới của Google, có thể chạy trong trình duyệt trên thiết bị của người dùng. Mô hình này được xây dựng dựa trên cùng một nghiên cứu và công nghệ mà chúng tôi đã sử dụng để tạo Gemini.

Bằng cách đưa LLM vào thiết bị, bạn có thể tiết kiệm đáng kể chi phí so với việc chạy trên máy chủ đám mây để dự đoán, đồng thời tăng cường quyền riêng tư của người dùng và giảm độ trễ. AI tạo sinh trong trình duyệt vẫn đang ở giai đoạn đầu, nhưng khi phần cứng tiếp tục cải thiện (với CPU và GPU RAM cao hơn), chúng tôi dự kiến sẽ có nhiều mô hình hơn.

Các doanh nghiệp có thể hình dung lại những việc bạn có thể làm trên một trang web, đặc biệt là đối với các trường hợp sử dụng dành riêng cho tác vụ, trong đó trọng số của các LLM nhỏ hơn (2 đến 8 tỷ tham số) có thể được điều chỉnh để chạy trên phần cứng tiêu dùng.

Bạn có thể tải Gemma 2B xuống trên Kaggle Models và ở định dạng tương thích với API suy luận LLM trên web của chúng tôi. Các cấu trúc được hỗ trợ khác bao gồm Microsoft Phi-2, Falcon RW 1BStable LM 3B. Bạn có thể chuyển đổi các cấu trúc này sang định dạng mà thời gian chạy có thể sử dụng bằng thư viện chuyển đổi của chúng tôi.

Tạo nguyên mẫu nhanh hơn bằng Khối hình ảnh

Với Visual Blocks, bạn có thể chạy tính năng ước tính độ sâu trong ứng dụng mà không cần mã.

Chúng tôi đang cộng tác với Hugging Face, công ty đã tạo 16 nút tuỳ chỉnh hoàn toàn mới cho Khối hình ảnh. Điều này sẽ đưa Transformers.js và hệ sinh thái Hugging Face rộng lớn hơn vào Khối hình ảnh.

8 trong số các nút mới này chạy hoàn toàn phía máy khách, với AI trên web, bao gồm:

Ngoài ra, có 7 tác vụ máy học phía máy chủ của Hugging Face cho phép bạn chạy hàng nghìn mô hình bằng API trong Visual Blocks. Hãy xem bộ sưu tập Khối hình ảnh ôm mặt.

Sử dụng JavaScript cho AI trên web trên quy mô lớn bằng Chrome

Trong các phiên bản trước, chẳng hạn như với Gemma, mô hình được tải và chạy trong chính trang web. Chrome đang phát triển AI tích hợp sẵn trên thiết bị, nơi bạn có thể truy cập vào các mô hình bằng API JavaScript chuẩn hoá, dành riêng cho tác vụ.

Chưa hết đâu. Chrome cũng đã cập nhật WebGPU để hỗ trợ các giá trị dấu phẩy động 16 bit.

WebAssembly có một đề xuất mới, Memory64, để hỗ trợ các chỉ mục bộ nhớ 64 bit, cho phép bạn tải các mô hình AI lớn hơn trước đây.

Bắt đầu thử nghiệm các mô hình AI trên web bằng Chrome không có giao diện người dùng

Giờ đây, bạn có thể kiểm thử AI phía máy khách (hoặc bất kỳ ứng dụng nào cần hỗ trợ WebGL hoặc WebGPU) bằng Chrome không có giao diện người dùng, đồng thời sử dụng GPU phía máy chủ để tăng tốc, chẳng hạn như NVIDIA T4 hoặc P100. Tìm hiểu thêm:

Hãy nhớ rằng khi bạn chia sẻ nội dung mình tạo, hãy thêm #WebAI để cộng đồng rộng lớn hơn có thể xem tác phẩm của bạn. Chia sẻ kết quả và đề xuất của bạn trên X, LinkedIn hoặc nền tảng mạng xã hội mà bạn muốn.