เผยแพร่: 14 พฤษภาคม 2024 อัปเดตล่าสุด: 13 พฤศจิกายน 2024
เมื่อสร้างฟีเจอร์ด้วยโมเดล AI บนเว็บ เรามักจะใช้โซลูชันฝั่งเซิร์ฟเวอร์สำหรับโมเดลขนาดใหญ่ กรณีนี้เกิดขึ้นกับ Generative AI เป็นพิเศษ เนื่องจากแม้แต่โมเดลที่เล็กที่สุดก็ยังมีขนาดใหญ่กว่าขนาดหน้าเว็บมัธยฐานประมาณหลายพันเท่า กรณีการใช้งาน AI อื่นๆ ก็เช่นกัน โดยโมเดลอาจมีขนาดตั้งแต่ 10-100 เมกะไบต์ เนื่องจากโมเดลเหล่านี้ไม่ได้แชร์กันระหว่างเว็บไซต์ แต่ละเว็บไซต์จึงต้องดาวน์โหลดโมเดลเมื่อโหลดหน้าเว็บ ซึ่งไม่เหมาะสําหรับนักพัฒนาซอฟต์แวร์และผู้ใช้
เรากำลังพัฒนา API ของแพลตฟอร์มเว็บและฟีเจอร์เบราว์เซอร์ที่ออกแบบมาเพื่อผสานรวมโมเดล AI รวมถึงโมเดลภาษาขนาดใหญ่ (LLM) เข้ากับเบราว์เซอร์โดยตรง ซึ่งรวมถึง Gemini Nano ซึ่งเป็น LLM ตระกูล Gemini เวอร์ชันที่มีประสิทธิภาพมากที่สุด ซึ่งออกแบบมาเพื่อทำงานแบบออนโลนในคอมพิวเตอร์เดสก์ท็อปและแล็ปท็อปที่ทันสมัยที่สุด เมื่อใช้ AI ในตัว เว็บไซต์หรือเว็บแอปพลิเคชันจะทํางานด้วยระบบ AI ได้โดยไม่ต้องติดตั้งใช้งานหรือจัดการโมเดล AI ของตนเอง
สำรวจประโยชน์ของ AI ในตัว แผนการติดตั้งใช้งาน และวิธีใช้ประโยชน์จากเทคโนโลยีนี้
รับเวอร์ชันตัวอย่างทดลองใช้ก่อนเปิดตัว
เราต้องการความคิดเห็นของคุณเพื่อกำหนดรูปแบบ API, ตรวจสอบว่า API เป็นไปตามกรณีการใช้งานของคุณ และใช้เป็นข้อมูลในการพูดคุยกับผู้ให้บริการเบราว์เซอร์รายอื่นๆ เพื่อกำหนดมาตรฐาน
เข้าร่วมโปรแกรมตัวอย่างก่อนเปิดตัวเพื่อแสดงความคิดเห็นเกี่ยวกับแนวคิด AI ในตัวในระยะเริ่มต้น และค้นพบโอกาสในการทดสอบ API ที่อยู่ระหว่างดำเนินการผ่านการสร้างต้นแบบในเครื่อง
เข้าร่วมกลุ่มประกาศสาธารณะสำหรับนักพัฒนาซอฟต์แวร์ AI ของ Chrome เพื่อรับการแจ้งเตือนเมื่อมี API ใหม่ให้ใช้งาน
ประโยชน์ของ AI ในตัวสําหรับนักพัฒนาเว็บ
เบราว์เซอร์จะจัดหาและจัดการโมเดลพื้นฐานและโมเดลผู้เชี่ยวชาญด้วย AI ในตัว
AI ในตัวมีข้อดีต่อไปนี้เมื่อเทียบกับการสร้าง AI ฝั่งไคลเอ็นต์ของคุณเอง
- ความง่ายในการใช้งาน: เมื่อเบราว์เซอร์เผยแพร่โมเดล จะพิจารณาความสามารถของอุปกรณ์และจัดการการอัปเดตโมเดล ซึ่งหมายความว่าคุณไม่มีหน้าที่รับผิดชอบในการดาวน์โหลดหรืออัปเดตโมเดลขนาดใหญ่ผ่านเครือข่าย คุณไม่จําเป็นต้องแก้ปัญหาการลบข้อมูลออกจากพื้นที่เก็บข้อมูล งบประมาณหน่วยความจํารันไทม์ ค่าใช้จ่ายในการแสดง และปัญหาอื่นๆ
- การเข้าถึงการเร่งด้วยฮาร์ดแวร์: รันไทม์ AI ของเบราว์เซอร์ได้รับการเพิ่มประสิทธิภาพเพื่อใช้ฮาร์ดแวร์ที่มีอยู่ให้เกิดประโยชน์สูงสุด ไม่ว่าจะเป็น GPU, NPU หรือใช้ CPU แทน ด้วยเหตุนี้ แอปจึงทำงานได้อย่างมีประสิทธิภาพสูงสุดในแต่ละอุปกรณ์
ประโยชน์ของการเรียกใช้ฝั่งไคลเอ็นต์
การใช้แนวทาง AI ในตัวช่วยให้งานด้าน AI ฝั่งไคลเอ็นต์เป็นเรื่องง่าย ซึ่งจะทําให้มีข้อดีต่อไปนี้
- การประมวลผลข้อมูลที่ละเอียดอ่อนในเครื่อง: AI ฝั่งไคลเอ็นต์ช่วยปรับปรุงเรื่องราวความเป็นส่วนตัวของคุณได้ เช่น หากคุณทำงานกับข้อมูลที่ละเอียดอ่อน คุณสามารถนำเสนอฟีเจอร์ AI ให้แก่ผู้ใช้ที่มีการเข้ารหัสจากต้นทางถึงปลายทาง
- ประสบการณ์ของผู้ใช้ที่รวดเร็ว: ในบางกรณี การไม่ส่งข้อมูลไปและกลับจากเซิร์ฟเวอร์จะช่วยให้คุณแสดงผลลัพธ์ได้เกือบจะทันที AI ฝั่งไคลเอ็นต์อาจเป็นสิ่งที่ทำให้ฟีเจอร์ใช้งานได้จริงหรือทำให้ประสบการณ์ของผู้ใช้ไม่ดีเท่าที่ควร
- การเข้าถึง AI มากขึ้น: อุปกรณ์ของผู้ใช้สามารถรับภาระการประมวลผลบางส่วนเพื่อแลกกับสิทธิ์เข้าถึงฟีเจอร์มากขึ้น เช่น หากคุณเสนอฟีเจอร์ AI พรีเมียม คุณสามารถแสดงตัวอย่างฟีเจอร์เหล่านี้ด้วย AI ฝั่งไคลเอ็นต์เพื่อให้ผู้มีโอกาสเป็นลูกค้าเห็นประโยชน์ของผลิตภัณฑ์ได้ โดยที่คุณไม่ต้องเสียค่าใช้จ่ายเพิ่มเติม แนวทางแบบผสมผสานนี้ยังช่วยคุณจัดการค่าใช้จ่ายในการอนุมานได้อีกด้วย โดยเฉพาะใน Funnel ของผู้ใช้ที่ใช้บ่อย
- การใช้งาน AI ออฟไลน์: ผู้ใช้จะเข้าถึงฟีเจอร์ AI ได้แม้ว่าจะไม่มีการเชื่อมต่ออินเทอร์เน็ต ซึ่งหมายความว่าเว็บไซต์และเว็บแอปจะทํางานได้ตามที่คาดไว้แม้ออฟไลน์หรือมีการเชื่อมต่อที่ไม่เสถียร
AI แบบผสม: ฝั่งไคลเอ็นต์และฝั่งเซิร์ฟเวอร์
แม้ว่า AI ฝั่งไคลเอ็นต์จะจัดการกรณีการใช้งานได้มากมาย แต่ก็มีบางกรณีที่ต้องใช้การสนับสนุนฝั่งเซิร์ฟเวอร์
AI ฝั่งเซิร์ฟเวอร์เป็นตัวเลือกที่ยอดเยี่ยมสําหรับโมเดลขนาดใหญ่ และรองรับแพลตฟอร์มและอุปกรณ์ได้หลากหลายมากขึ้น
คุณอาจพิจารณาใช้แนวทางแบบผสมโดยขึ้นอยู่กับปัจจัยต่อไปนี้
- ความซับซ้อน: กรณีการใช้งานที่เฉพาะเจาะจงและเข้าถึงได้ง่ายจะรองรับได้ง่ายขึ้นด้วย AI ในอุปกรณ์ สําหรับ Use Case ที่ซับซ้อน ให้พิจารณาการติดตั้งใช้งานฝั่งเซิร์ฟเวอร์
- ความยืดหยุ่น: ใช้ฝั่งเซิร์ฟเวอร์โดยค่าเริ่มต้น และใช้ในอุปกรณ์เมื่ออุปกรณ์ออฟไลน์หรือมีการเชื่อมต่อที่ไม่เสถียร
- การเปลี่ยนโหมดอย่างราบรื่น: การใช้เบราว์เซอร์ที่มี AI ในตัวต้องใช้เวลา อุปกรณ์บางรุ่นอาจไม่พร้อมใช้งาน และอุปกรณ์รุ่นเก่าหรือมีประสิทธิภาพต่ำอาจไม่เป็นไปตามข้อกำหนดด้านฮาร์ดแวร์ในการใช้งานทุกรุ่นอย่างมีประสิทธิภาพสูงสุด เสนอ AI ฝั่งเซิร์ฟเวอร์สำหรับผู้ใช้เหล่านั้น
สําหรับโมเดล Gemini คุณสามารถใช้การผสานรวมแบ็กเอนด์ (ด้วย Python, Go, Node.js หรือ REST) หรือติดตั้งใช้งานในเว็บแอปพลิเคชันด้วย SDK ไคลเอ็นต์ AI ของ Google สําหรับเว็บเวอร์ชันใหม่
สถาปัตยกรรมเบราว์เซอร์และ API
เราได้สร้างโครงสร้างพื้นฐานเพื่อเข้าถึงโมเดลพื้นฐานและโมเดลผู้เชี่ยวชาญสำหรับการเรียกใช้ในอุปกรณ์ เพื่อรองรับ AI ในตัวของ Chrome โครงสร้างพื้นฐานนี้ช่วยขับเคลื่อนฟีเจอร์เบราว์เซอร์ที่ล้ำสมัยอยู่แล้ว เช่น ช่วยฉันเขียน
คุณสามารถเข้าถึงความสามารถของ AI ในตัวได้โดยใช้ Task API เป็นหลัก เช่น Translator API หรือ Summarizer API Task API ออกแบบมาเพื่อทำการอนุมานกับโมเดลที่ดีที่สุดสำหรับงาน
ใน Chrome API เหล่านี้สร้างขึ้นเพื่อเรียกใช้การอนุมานกับ Gemini Nano ด้วยการปรับแต่งแบบละเอียดหรือโมเดลผู้เชี่ยวชาญ Gemini Nano ออกแบบมาให้ทำงานแบบออนเครื่องในอุปกรณ์สมัยใหม่ส่วนใหญ่ จึงเหมาะสําหรับกรณีการใช้งานที่เกี่ยวข้องกับภาษา เช่น การสรุป การถอดความใหม่ หรือการจัดหมวดหมู่
นอกจากนี้ เรายังมี API สําหรับการสํารวจ เช่น Prompt API เพื่อให้คุณทดสอบในเครื่องและแชร์ Use Case เพิ่มเติมได้
ในอนาคต เราอาจเสนอ LoRA API สําหรับการสํารวจ เพื่อปรับปรุงประสิทธิภาพของโมเดลในตัวด้วยการปรับน้ำหนักของโมเดล
กรณีที่ควรใช้ AI ในตัว
ประโยชน์บางส่วนของ AI ในตัวสำหรับคุณและผู้ใช้มีดังนี้
- การบริโภคเนื้อหาที่ปรับปรุงโดย AI: ซึ่งรวมถึงการสรุป การแปล การจัดหมวดหมู่ การสร้างลักษณะ และเป็นแหล่งความรู้
- การสร้างเนื้อหาที่ AI สนับสนุน เช่น ความช่วยเหลือด้านการเขียน พิสูจน์อักษร การแก้ไขไวยากรณ์ และการปรับแก้ข้อความ
ขั้นตอนถัดไป
AI API ในตัวหลายรายการพร้อมให้ทดสอบในช่วงทดลองใช้จากต้นทาง Exploratory API และ API อื่นๆ ในระยะเริ่มต้นพร้อมให้บริการแก่ผู้เข้าร่วมโปรแกรมเวอร์ชันตัวอย่างก่อนเปิดตัว
ดูวิธีใช้ Gemini Pro ในเซิร์ฟเวอร์ของ Google กับเว็บไซต์และเว็บแอปของคุณในคู่มือเริ่มต้นใช้งาน Google AI JavaScript SDK