2 items
Évaluations : comment tester des systèmes qui n'ont pas de bonnes réponses
Un guide pratique pour l'évaluation des LLM — vérifications par code, LLM-as-a-judge, revue humaine, et comment bâtir une suite d'evals qui attrape les régressions avant qu'elles partent en prod.
Evals: How to Test Systems That Don't Have Right Answers
A practical guide to LLM evaluation — code-based checks, LLM-as-a-judge, human review, and how to build an eval suite that catches regressions before they ship.