لقد وصلت إلى نهاية دورتنا التدريبية حول تقييمات الذكاء الاصطناعي. لقد ربطتم معرفتكم الحالية باختبار الويب بعالم النماذج اللغوية الكبيرة، وأنشأتم اختبارات وحدات مستندة إلى قواعد، وأنشأتم نموذجًا للتقييم واختبرتموه، وربطتم خط أنابيب الاختبار.
يهتم مجالنا بالانطباعات واللا حتمية في النماذج اللغوية الكبيرة. في الواقع، إذا سبق لكم إنشاء تطبيق ويب يحتاج إلى العمل بشكل مثالي على جميع المتصفحات والأجهزة وأحجام الشاشات، فأنتم مستعدون لذلك. يؤدي إدخال واحد إلى سلوكيات متعدّدة محتملة، وبيئة لا يمكنكم التحكّم فيها بالكامل، والعبارة الشهيرة "يعمل على جهازي".
الحل هو الاختبار. التقييمات هي بالضبط ذلك: اختبارات لميزات الذكاء الاصطناعي. منحتكم اختبارات الويب الثقة في نشر التطبيق في بيئات متصفحات غير متوقّعة، وتفعل التقييمات الشيء نفسه لميزات الذكاء الاصطناعي. يمكنكم إنشاء التقييمات ونشرها.
قبل البدء، يُرجى تخصيص بعض الوقت لطرح بعض الأسئلة الرئيسية على أنفسكم: ما الذي يجعل الناتج "سيئًا"؟ عليكم تحديد حالات الأعطال. يجب أن تتعرّفوا على بياناتكم بعمق، وأن تتعاونوا بشكل وثيق مع خبراء المجال. ما الذي يجعل الناتج "جيدًا" مقابل "مثالي"؟ عليكم تحديد توقعاتكم بوضوح قبل أن تطلبوا من نموذج تقييمها. كم مرة ستجرون التقييمات؟ التطوير المستند إلى التقييم هو أحد الأساليب التي يمكنكم اتّباعها، ولكن عليكم تحديد التوقعات بشأن عدد مرات التقييم بعد نشر تطبيقكم.
يتطوّر مجال الذكاء الاصطناعي بسرعة، وقد يبدو إنشاء خط أنابيب كامل أمرًا صعبًا. عليكم البدء على نطاق صغير: كتابة اختبار واحد مستند إلى قواعد وإنشاء نموذج تقييم أساسي واحد للنموذج اللغوي الكبير. بعد تحديد هذا الأساس، ستتوقفون عن التخمين وتستعيدون قوتكم كمهندسين. ستنتقلون من نموذج أولي داخلي ممتع إلى ميزة قوية يمكنكم اختبارها وقياسها ونشرها بثقة. تذكّروا أنّ التقييمات التي ينشئها البشر تخضع لأخطاء بشرية. التحيّز مدمج في التقييمات. عليكم نشر عمليات تدقيق منتظمة لنماذجكم وتقييماتكم لمعالجة التحيّز.
اتّبِعوا هذه الدورة التدريبية لإنشاء اختباراتكم الأولى، والاطّلاع على الرمز المصاحب، وبدء الاختبار. يمكنكم مشاركة ما تعلّمتموه: كيف تجرون التقييمات؟ يمكنكم التواصل معنا على @ChromiumDev أو مشاركة المعلومات معنا على BlueSky أو إعداد ساعات عمل فردية مع فريق الذكاء الاصطناعي في Web.dev.