סיכום

הגעתם לסוף הקורס שלנו בנושא הערכות של AI. מיפיתם את הידע הקיים שלכם בבדיקות אינטרנט לעולם של מודלים מסוג LLM, יצרתם בדיקות יחידה מבוססות-כללים, בנייתם ובדקתם את מודל השופט וחיברתם את צינור הבדיקות.

בתעשייה שלנו יש דאגה לגבי אווירה ואי-דטרמיניזם של מודלים גדולים של שפה. בפועל, אם אי פעם יצרתם אפליקציית אינטרנט שצריכה לפעול בצורה חלקה בדפדפנים, במכשירים ובגדלים שונים של מסכים, אתם מוכנים לזה. קלט אחד שמוביל לכמה התנהגויות אפשריות, סביבה שאי אפשר לשלוט בה באופן מלא והמשפט הידוע לשמצה "זה עובד אצלי".

הפתרון נמצא בבדיקה. ההערכות הן בדיוק זה: בדיקות לתכונות ה-AI שלכם. הבדיקות באינטרנט נתנו לכם את הביטחון להשיק בסביבות דפדפן לא צפויות, וההערכות עושות את אותו הדבר לגבי תכונות ה-AI שלכם. יוצרים את ההערכות ושולחים אותן!

לפני שמתחילים, כדאי לעצור לרגע ולשאול את עצמכם כמה שאלות חשובות: מה הופך פלט ל'לא טוב'? מגדירים את תרחישי הכשל. להכיר את הנתונים לעומק ולעבוד בשיתוף פעולה הדוק עם מומחים בתחום. מה הופך פלט ל'טוב' לעומת 'אידיאלי'? חשוב להגדיר בבירור את הציפיות שלכם לפני שמבקשים ממודל לתת להם ציון. באיזו תדירות תפעילו הערכות? אחת הגישות שאתם יכולים לנקוט היא פיתוח מבוסס-הערכה, אבל חשוב להגדיר ציפיות לגבי התדירות שבה תבצעו הערכה אחרי שהאפליקציה תופעל.

תחום ה-AI מתפתח במהירות, ולכן בניית צינור עיבוד נתונים מלא יכולה להיות משימה מורכבת. מתחילים בקטן: כותבים בדיקה אחת מבוססת-כללים ויוצרים שופט LLM בסיסי אחד. אחרי שקובעים את נקודת ההתחלה הזו, מפסיקים לנחש ומקבלים בחזרה את הכוח כמהנדסים. אתם יכולים להפוך אב טיפוס פנימי מהנה לתכונה חזקה שאפשר לבדוק, למדוד ולפרסם בביטחון. חשוב לזכור שגם הערכות שנבנו על ידי בני אדם עלולות להיות מוטות. הטיה מובנית. כדאי לבצע ביקורות קבועות של המודלים וההערכות כדי לטפל בהטיות.

בקורס הזה תלמדו איך ליצור את הבדיקות הראשונות, תוכלו לעיין בקוד הנלווה ולהתחיל לבדוק. תשתף את מה שלמדת: איך אתה מנהל את ההערכות שלך? אפשר לפנות אלינו בכתובת @ChromiumDev, לשתף איתנו ב-BlueSky או לתאם פגישה אישית עם צוות ה-AI של Web.dev.