מה צפוי בסדרה הזו ומה חשוב לדעת לפני שמתחילים.
בסדרת המאמרים הזו, תלמדו איך ליצור הערכות (evals) לאפליקציה לדוגמה שלנו, ThemeBuilder. במאמר הזה נסביר איך:
- פיתוח תהליך עבודה חזק של הערכה מקצה לקצה כדי לוודא שאפשר לשלוח את המוצר למשתמשים.
- אפשר להשתמש בדפוס LLM-as-a-judge כדי למדוד איכות סובייקטיבית. אפשר ליצור שופט עם הגדרה מינימלית, או להשתמש בטכניקות מתקדמות כדי לפתח שופט בהתאמה אישית שחושב כמו מומחים מובילים בתחום.
- כדי לזהות רגרסיות בשלב מוקדם, כדאי להפעיל הערכות באופן אוטומטי בצינור עיבוד הנתונים בזמן הבנייה (CI/CD) ובסביבת הייצור.
- כדאי להשתמש בטכניקות שיאפשרו לכם להגיע למובהקות סטטיסטית ויוכיחו שהתוצאות שהתקבלו הן לא רק צירוף מקרים מתוך מאגר הבדיקות, ולבצע אופטימיזציה של עיצוב ההערכות כדי לזהות רגרסיות חמקמקות.
- אפשר להשתמש בהערכות כדי לבחור את המודל הכי טוב לתרחיש לדוגמה שלכם.
גישה
הסדרה הזו היא נקודת ההתחלה שלכם. אתם יכולים לבנות את פייפליין ההערכות המלא שלכם רק באמצעות ההנחיות העיקריות, שמבוססות על שיטות מומלצות סטנדרטיות בתעשייה, ולנסות שיטות מתקדמות יותר כשאתם מוכנים להתקדם לשלב הבא.
לא משנה אם אתם משתמשים בפלטפורמת הערכה מוכנה או יוצרים פלטפורמה משלכם, המושגים והטכניקות שתלמדו לא תלויים בכלי ספציפי. הבנת הסיבות לשינויים האלה עוזרת לכם להימנע ממלכודות נפוצות ולפתח פייפליין להערכת מומחים, לא משנה באיזה סטאק תבחרו.
אחרי שתסיימו את התהליך, תדעו איך לבצע איטרציה על ההנחיה, לשדרג את מודל ה-LLM או להחליף אותו, ועדיין להשיק את המוצר למשתמשים בביטחון.
דרישות מוקדמות
מומלץ שיהיה לכם ניסיון מסוים בפיתוח באמצעות LLM. אנחנו מניחים שכבר יש לך ניסיון עם:
- מושגי יסוד במודלים של שפה גדולה (LLM): דטרמיניזם לעומת מנועי הסתברות, הזיות, פלט מובנה, רמת אקראיות.
- טכניקות להנדסת הנחיות.
- היסודות של AI גנרטיבי: ספקי מודלים, פלטפורמות, מדדי ביצועים וטבלאות השוואה.