Neler öğreneceksiniz?

Bu seriden neler bekleyebilir ve başlamadan önce bilmeniz gerekenler.

Bu seride, örnek uygulamamız ThemeBuilder için değerlendirmeler (eval) oluşturacaksınız. Öğrenecekleriniz:

  • Kullanıcılarınıza gönderebileceğinizden emin olmak için uçtan uca sağlam bir değerlendirme iş akışı oluşturun.
  • Öznel kaliteyi ölçmek için LLM-as-a-judge (LLM'yi yargıç olarak kullanma) kalıbını kullanın. En az kurulumla bir değerlendirici oluşturun veya alanında uzman gibi düşünen özel bir değerlendirici geliştirmek için gelişmiş teknikler kullanın.
  • Regresyonları erken yakalamak için derleme süresinde (CI/CD) ve üretimde değerlendirmeler çalıştırarak ardışık düzeninizi otomatikleştirin.
  • İstatistiksel olarak güven veren ve sonuçlarınızın yalnızca test havuzunuzdaki şanslı bir çekiliş olmadığını kanıtlayan teknikler uygulayın. Ayrıca, sinsi gerilemeleri yakalamak için değerlendirme tasarımınızı optimize edin.
  • Kullanım alanınız için en iyi modeli seçmek üzere değerlendirmeleri kullanın.

Yaklaşım

Bu seriyi başlangıç noktanız olarak düşünebilirsiniz. Yalnızca standart sektördeki en iyi uygulamalara dayandırdığımız ana kılavuzu kullanarak tam değerlendirme ardışık düzeninizi oluşturabilir ve hazır olduğunuzda daha gelişmiş teknikleri keşfedebilirsiniz.

Hazır bir değerlendirme platformu kullanıyor veya kendi platformunuzu oluşturuyorsanız öğreneceğiniz kavramlar ve teknikler araçtan bağımsızdır. Bu metriklerin neden kullanıldığını anlamak, yaygın tuzaklardan kaçınmanıza ve hangi yığını seçerseniz seçin uzman değerlendirme ardışık düzeni geliştirmenize yardımcı olur.

Bu kursu tamamladığınızda isteminizi nasıl yineleyeceğinizi, LLM'nizi nasıl yükselteceğinizi veya kullanıcılarınıza güvenle sunarken LLM'nizi nasıl değiştireceğinizi öğreneceksiniz.

Ön koşullar

Büyük dil modelleriyle geliştirme konusunda deneyimli olmanız gerekir. Aşağıdaki konulara hâkim olduğunuzu varsayıyoruz: