// couche de vérification · drop-in pour tout agent LLM · ClaudeCode · Cursor · Continue ready

La couche de vérification que vos agents IA n'ont pas.

Branchez Wauldo sur n'importe quel agent LLM. Chaque réponse reçoit un support_score numérique (0–1), des citations par affirmation et une détection d'hallucinations — avant que vos utilisateurs ne voient la réponse.

Vérifier une réponse → Tester un agent de bout en bout →

Sans inscription · Gratuit · Widget à droite · Sandbox dans un nouvel onglet

/.well-known/agent-manifest.json · /v1/agents/schema · mode agent détecté automatiquement via le User-Agent

// le problème

Vos agents mentent. Vous ne le voyez pas. Vos utilisateurs, si.

Les LLM inventent des faits. Les boucles d'agents aggravent le problème : une seule entité fabriquée au début, et toute la chaîne construit ensuite dessus avec confiance. Les évaluations classiques détectent les problèmes après coup, sur des datasets de test. Les agents en production ont besoin d'une couche de vérification qui s'exécute sur chaque réponse, en temps réel.

⚠ Le taux de base. Même les meilleurs modèles inventent des faits dans 1,5 à 9 % des réponses sur des tâches avec grounding — selon le leaderboard public Vectara HHEM. Les chaînes d'agents empilent ces erreurs silencieusement. Vos évaluations tournent la nuit. Wauldo vérifie chaque requête.

// médiane adversariale · 4 runs

91%

Sur 70 cas adversariaux conçus à la main. Intervalle 86–97. +48 points face à LangChain sur les injections de prompt.

// runs · 2026-04-10 → 2026-04-15 86 · 91 · 93 · 97

Run 1 86 % Run 2 91 % Run 3 93 % Run 4 97 %

MIT open source · 5ms p50 fast path · 1,566s exécution moyenne d'agent · Reproduire le benchmark →

// comment ça marche

Trois étapes. Aucun guessing de modèle.

Wauldo extrait les affirmations atomiques de la réponse, associe chaque affirmation aux sources correspondantes et retourne un score de grounding. Vous voyez exactement ce qui est supporté — et ce qui ne l'est pas.

01 · INPUT

Envoyez réponse + source

N'importe quelle sortie LLM. N'importe quel texte source ou contexte RAG. Un seul POST.

02 · EXTRACT

Extraction des affirmations

Chaque affirmation factuelle est isolée : dates, entités, chiffres, relations. Aucune reformulation. Aucun résumé.

03 · SCORE

Retour du support_score

Chaque affirmation est vérifiée contre les sources. Sortie : support_score ∈ [0,1] + verdict par affirmation.

curl · vérifiez n'importe quelle réponse

# POST /v1/fact-check — retourne support_score + verdicts par affirmation
curl -X POST https://api.wauldo.com/v1/fact-check \
  -H "Authorization: Bearer $WAULDO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Paris compte 12 millions d'habitants.",
    "source_context": "La population de Paris est de 2,1 millions (2024).",
    "mode": "lexical"
  }'
# → { "support_score": 0.0, "verdict": "UNVERIFIED", "claims": [...] }

// benchmark · v2026-04-17

Benchmark adversarial reproductible.

70 cas × 4 runs contre cinq frameworks. Retrieval factuel, prompt injection, hors périmètre. La commande pour relancer le benchmark est affichée sur cette page — sans inscription, sans chiffres cachés.

⚖ Lire le tableau honnêtement. LangChain, LlamaIndex, Haystack et CrewAI sont des frameworks d'orchestration, pas des couches de vérification — la comparaison avec Wauldo sur des inputs adversariaux est donc volontairement « apples-to-oranges ». Les chiffres mesurent ce qu'un développeur obtient immédiatement avec chaque stack, pas la qualité intrinsèque du framework. La vraie question est « ajouter Wauldo à LangChain réduit-il l'écart ? » — l'étude d'ablation répond : non. Toujours 44 % sur l'injection si la vérification n'est pas intégrée directement dans la boucle. Voir l'ablation →

70 cas adversariaux · 4 runs · 5 frameworks api en direct

Framework	Factuel	Injection	Hors périmètre	Total
Wauldo	100 %	92 %	100 %	91 %
LlamaIndex	81 %	48 %	72 %	68 %
LangChain	78 %	44 %	70 %	66 %
Haystack	73 %	41 %	65 %	60 %
CrewAI	71 %	38 %	63 %	58 %

Reproduire : git clone github.com/wauldoai/wauldo-leaderboard && cargo run · méthodologie complète →

// cas d'usage

Trois façons dont les équipes utilisent Wauldo aujourd'hui.

Branchez Wauldo entre votre LLM et votre utilisateur. Ou autour de votre agent. Ou devant votre bot support. Même primitive — un support_score sur chaque réponse.

Pipelines RAG

Votre RAG répond avec assurance… mais faux.

Il récupère des documents, répond, mais ne cite rien. Aucune traçabilité. La prod hallucine pendant que vos évaluations passent au vert.

Mesurer votre RAG → Agents IA

Les agents multi-étapes dérivent.

L'étape 3 invente un fait. L'étape 5 s'y engage. À l'étape 8, le raisonnement n'est plus qu'une décoration.

Vérifier chaque étape → Support IA

Votre bot invente des politiques de remboursement.

Ton confiant. Conditions fabriquées. Client réel. Votre réputation se dégrade plus vite que vous ne pouvez corriger vos prompts.

Grounder votre support →

// tarifs

Commencez gratuitement. Payez à l'échelle.

Tous les plans passent par RapidAPI. Même endpoints. Même vérification. Même SDKs. Aucune carte bancaire requise pour BASIC.

BASIC

0 €/mois

500 requêtes/mois

Tous les endpoints
Support communautaire
Sans carte bancaire

Commencer gratuitement

PRO

19 €/mois

10 000 requêtes/mois

Tous les endpoints
File prioritaire
Support email

ULTRA

99 €/mois

100 000 requêtes/mois

Modèles premium
Support prioritaire
Observabilité complète

Passer à Ultra

MEGA

0,008 $/req

Paiement à l'usage

Volume illimité
Aucun engagement
Scalabilité jusqu'à des millions

Activer le pay-per-use

Tarifs complets, FAQ, calculateur →

Build reproductible SDKs MIT · PyPI · npm · crates.io Leaderboard open source Voir le changelog

// fondateur

Construit par un développeur, pour les développeurs.

Nizar Benmebrouk · Fondateur

J'ai créé Wauldo parce que j'en avais assez de voir des agents échouer silencieusement en production derrière des interfaces soignées. La vérification ne devrait pas être une réflexion secondaire ajoutée au moment des évaluations — elle devrait être l'infrastructure fiable et invisible sous chaque workflow LLM.

Basé à Lyon. SDKs et benchmark adversarial développés publiquement via github.com/wauldoai.

LinkedIn ↗ · Contact · @wauldoAI

Vérifiez votre première réponse en 30 secondes.

Plan gratuit. Sans carte bancaire. 500 vérifications offertes chaque mois.

Obtenir une clé API gratuite → Lire la documentation ↗

$ curl api.wauldo.com/v1/fact-check