testing

2 items

Article 10 min min de lecture 9 avr. 2026

Évaluations : comment tester des systèmes qui n'ont pas de bonnes réponses

Un guide pratique pour l'évaluation des LLM — vérifications par code, LLM-as-a-judge, revue humaine, et comment bâtir une suite d'evals qui attrape les régressions avant qu'elles partent en prod.

Article 8 min min de lecture 9 avr. 2026

Evals: How to Test Systems That Don't Have Right Answers

A practical guide to LLM evaluation — code-based checks, LLM-as-a-judge, human review, and how to build an eval suite that catches regressions before they ship.

All tags