4 items
Évaluations : comment tester des systèmes qui n'ont pas de bonnes réponses
Un guide pratique pour l'évaluation des LLM — vérifications par code, LLM-as-a-judge, revue humaine, et comment bâtir une suite d'evals qui attrape les régressions avant qu'elles partent en prod.
Evals: How to Test Systems That Don't Have Right Answers
A practical guide to LLM evaluation — code-based checks, LLM-as-a-judge, human review, and how to build an eval suite that catches regressions before they ship.
Klarna
Comment le déploiement triomphal du chatbot de Klarna est devenu un recul public — et pourquoi le modèle hybride qui en a émergé est la vraie leçon.
Klarna
How Klarna's triumphant AI customer-service deployment became a public reversal — and why the hybrid that emerged is the real lesson.