지난 1년 동안 웹 AI는 많은 변화를 겪었습니다. 놓치셨다면 I/O 2024에서 다음 웹 앱을 위한 새로운 모델, 도구, API에 대해 다룬 강연을 확인해 보세요.
웹 AI는 기기의 CPU 또는 GPU에서 실행되는 웹브라우저에서 클라이언트 측으로 머신러닝 (ML) 모델을 사용하는 기술과 기법의 집합입니다. 이는 JavaScript 및 WebAssembly 및 WebGPU와 같은 기타 웹 기술로 빌드할 수 있습니다. 이는 모델이 서버에서 실행되고 API로 액세스되는 서버 측 AI 또는 '클라우드 AI'와는 다릅니다.
이번 세미나에서는 다음 사항을 공유했습니다.
- 브라우저에서 새로운 대규모 언어 모델 (LLM)을 실행하는 방법과 클라이언트 측에서 모델을 실행하는 효과
- 더 빠르게 프로토타입을 제작할 수 있는 Visual Blocks의 미래를 살펴봅니다.
- 웹 개발자가 Chrome에서 JavaScript를 사용하여 대규모로 웹 AI를 사용하는 방법을 알아봅니다.
브라우저의 LLM
Gemma Web은 사용자 기기의 브라우저에서 실행할 수 있는 Google의 새로운 개방형 모델로, Gemini를 만드는 데 사용된 것과 동일한 연구 및 기술로 빌드되었습니다.
LLM을 기기에 가져오면 추론을 위해 클라우드 서버에서 실행하는 것보다 비용을 크게 절감할 수 있으며, 사용자 개인 정보 보호가 강화되고 지연 시간이 단축됩니다. 브라우저의 생성형 AI는 아직 초기 단계이지만 하드웨어가 계속 개선됨에 따라 (CPU 및 GPU RAM 증가) 더 많은 모델을 사용할 수 있게 될 것으로 기대됩니다.
기업은 특히 소형 LLM (2~80억 개의 매개변수)의 가중치를 소비자 하드웨어에서 실행되도록 조정할 수 있는 태스크별 사용 사례에서 웹페이지에서 할 수 있는 작업을 새롭게 생각해 볼 수 있습니다.
Gemma 2B는 Kaggle Models에서 다운로드할 수 있으며 웹 LLM 추론 API와 호환되는 형식으로 제공됩니다. 지원되는 다른 아키텍처로는 Microsoft Phi-2, Falcon RW 1B, Stable LM 3B가 있으며, 변환기 라이브러리를 사용하여 런타임에서 사용할 수 있는 형식으로 변환할 수 있습니다.
시각적 블록으로 더 빠르게 프로토타입 빌드
YouTube는 시각적 블록용으로 16개의 새로운 맞춤 노드를 만든 Hugging Face와 협력하고 있습니다. 이를 통해 Transformers.js 및 더 광범위한 Hugging Face 생태계가 Visual Blocks에 제공됩니다.
이러한 새 노드 중 8개는 다음을 포함하여 웹 AI를 사용하여 완전히 클라이언트 측에서 실행됩니다.
또한 Hugging Face의 서버 측 ML 작업 7개를 사용하면 Visual Blocks에서 API를 사용하여 수천 개의 모델을 실행할 수 있습니다. 포옹하는 얼굴 시각적 블록 컬렉션을 확인하세요.
Chrome을 사용하여 웹 AI용 JavaScript를 대규모로 사용
이전 인스턴스(예: Gemma)에서는 모델이 웹페이지 자체 내에서 로드되고 실행됩니다. Chrome은 표준화된 작업별 JavaScript API를 사용하여 모델에 액세스할 수 있는 기본 제공 온디바이스 AI를 개발하고 있습니다.
그뿐만이 아닙니다. Chrome은 16비트 부동 소수점 값을 지원하도록 WebGPU도 업데이트했습니다.
WebAssembly에는 64비트 메모리 색인을 지원하는 새로운 제안인 Memory64가 있습니다. 이를 통해 이전보다 더 큰 AI 모델을 로드할 수 있습니다.
headless Chrome으로 웹 AI 모델 테스트 시작
이제 Headless Chrome을 사용하여 클라이언트 측 AI (또는 WebGL 또는 WebGPU 지원이 필요한 모든 애플리케이션)를 테스트하는 동시에 NVIDIA T4 또는 P100과 같은 서버 측 GPU를 가속용으로 활용할 수 있습니다. 자세히 알아보기:
제작물을 공유할 때는 더 많은 커뮤니티에서 내 작품을 볼 수 있도록 #WebAI를 추가하세요. X, LinkedIn 또는 선호하는 소셜 플랫폼에서 발견한 내용과 제안사항을 공유하세요.