evals

Article 10 min min de lecture 9 avr. 2026

Évaluations : comment tester des systèmes qui n'ont pas de bonnes réponses

Un guide pratique pour l'évaluation des LLM — vérifications par code, LLM-as-a-judge, revue humaine, et comment bâtir une suite d'evals qui attrape les régressions avant qu'elles partent en prod.

Article 8 min min de lecture 9 avr. 2026

Evals: How to Test Systems That Don't Have Right Answers

A practical guide to LLM evaluation — code-based checks, LLM-as-a-judge, human review, and how to build an eval suite that catches regressions before they ship.

Études de cas 13 min min de lecture 12 avr. 2026

Klarna

Comment le déploiement triomphal du chatbot de Klarna est devenu un recul public — et pourquoi le modèle hybride qui en a émergé est la vraie leçon.

Études de cas 11 min min de lecture 12 avr. 2026

Klarna

How Klarna's triumphant AI customer-service deployment became a public reversal — and why the hybrid that emerged is the real lesson.