این صفحه بهوسیله Cloud Translation API ترجمه شده است. صفحه اصلی Docs AI on Chrome یادگیری ارزیابیها با مجموعهها، منظم بمانید ذخیره و طبقهبندی محتوا براساس اولویتهای شما. آیا میتوانید ارزیابیهای هوش مصنوعی ایجاد کنید؟ بازگشت به مسیر چرا شهود، روش کافی برای سنجش کیفیت برنامههای مبتنی بر LLM نیست؟ از آنجا که LLM ها احتمالی هستند، به این معنی که ورودی یکسان میتواند به خروجیهای متفاوتی منجر شود و کیفیت اغلب ذهنی است. زیرا LLM ها معمولاً برای آزمایش در یک محیط توسعه استاندارد بسیار کند هستند. از آنجا که LLM ها قطعی هستند، به این معنی که ورودی یکسان همیشه به خروجی یکسان منجر میشود. از آنجا که LLM های مدرن نرخ خطای صفر دارند، اندازهگیریها را زائد میکنند. کدام یک از موارد زیر نمونهای از ارزیابی مبتنی بر قانون برای برنامه ThemeBuilder است؟ تصمیم گیری در مورد اینکه آیا یک شعار به اندازه کافی برای مخاطب هدف جذاب است یا خیر. تأیید کنید که نسبت کنتراست بین رنگ متن و رنگ پسزمینه حداقل ۴.۵:۱ باشد. ارزیابی اینکه آیا یک پالت رنگ از نظر روانشناختی برای یک دندانپزشک سطح بالا مناسب است یا خیر. بررسی اینکه آیا شعار تولید شده با لحن الهامبخش درخواست شده توسط کاربر مطابقت دارد یا خیر. هدف اصلی استفاده از ارزیابی دو به دو به جای ارزیابی نقطهای چیست؟ برای کاهش هزینه فراخوانیهای API با آزمایش همزمان دو ورودی. برای ارزیابی محدودیتهای دودویی مانند قالببندی JSON. برای اطمینان از اینکه داور LLM هرگز برچسب FAIL را به یک خروجی اختصاص ندهد. به داور اجازه میدهد تا بین دو خروجی، یک برنده را انتخاب کند، که اغلب از دادن یک نمره مطلق، سازگارتر است. هنگام پیکربندی یک مدل Judge، چرا باید دما را روی 0 تنظیم کنید؟ تا قاضی بتواند استدلالهای طولانیتر و جزئیتری ارائه دهد. برای اینکه قاضی با استفاده از ژتونهای کمتر، هزینه کمتری بپردازد. برای اطمینان از خود-سازگاری، قاضی هر بار پاسخ یکسانی را برای ورودی یکسان ارائه میدهد. تا خلاقیت نقدهای داور به حداکثر برسد. منظور از بیشبرازش در فرآیند ارزیابی شما چیست؟ وقتی دستور داوری برای عبور از یک ترازبندی خاص اصلاح میشود، بنابراین نمیتواند به دادههای جدید و دیده نشده تعمیم داده شود. وقتی قاضی برای اجرای CI/CD خیلی کند است. وقتی از هر دو آزمون مبتنی بر قانون و ارزیابیهای هوش مصنوعی استفاده میکنید. وقتی که دستگاه قاضی با دمای خیلی پایین یا سایر تنظیمات خیلی بالا پیکربندی شده باشد. تکنیک بوت استرپینگ برای چه مواردی استفاده میشود؟ برای نمونهبرداری مجدد تصادفی از مجموعه دادههای همترازی جهت بررسی میزان حساسیت امتیاز داور. برای تولید حجم زیادی از ورودیهای مصنوعی کاربر با استفاده از یک مدل کوچکتر. برای رفع خودکار خطاها در کد برنامه. برای پیادهسازی یک طرحواره JSON برای همه ورودیها و خروجیهای قاضی. از چه معیاری برای اندازهگیری «توافق فراتر از شانس» بین متخصصان انسانی یا بین یک قاضی و یک انسان استفاده میشود؟ دقت. دقت. امتیاز کاپا نمره F 1 . هنگام ارزیابی سمیت، چرا به یادآوری بر دقت اولویت میدهیم؟ زیرا خروجیهای سمی در این زمینه خاص، دسته منفی هستند. زیرا شناسایی تمام خروجیهای سمی، حتی اگر برخی از آنها مثبت کاذب باشند، از از دست دادن خروجیهای سمی (منفی کاذب) مهمتر است. زیرا دقت بالا تضمین میکند که قاضی هرگز بیش از حد سختگیر نباشد. از آنجا که هزینه فراخوانی توکنهای API کمتری دارد، میتوانید دفعات بیشتری ارزیابی کنید. الگوی روبریک پویا چیست؟ سیستمی که در آن ارزیابان انسانی به صورت دستی هر خروجی تولید را ارزیابی میکنند. دستوری که متغیرهای تصادفی را در هر بار اجرا تغییر میدهد. استفاده از یک مدل جداگانه برای بازنویسی درخواست کاربر قبل از رسیدن به قاضی. ارسال یک رشته خاص برای هر مورد آزمایشی که رفتار دقیق یا مورد حاشیهای را که قاضی باید در آن نمونه خاص به دنبال آن باشد، توصیف میکند. ارسال پاسخها error_outline موقع نمرهدهی آزمون خطایی رخ داد. لطفاً دوباره امتحان کنید. قبلی arrow_back منابع دوره