La couche de vérification que vos agents IA n'ont pas.
Branchez Wauldo sur n'importe quel agent LLM. Chaque réponse reçoit un support_score numérique (0–1), des citations par affirmation et une détection d'hallucinations — avant que vos utilisateurs ne voient la réponse.
Vos agents mentent. Vous ne le voyez pas. Vos utilisateurs, si.
Les LLM inventent des faits. Les boucles d'agents aggravent le problème : une seule entité fabriquée au début, et toute la chaîne construit ensuite dessus avec confiance. Les évaluations classiques détectent les problèmes après coup, sur des datasets de test. Les agents en production ont besoin d'une couche de vérification qui s'exécute sur chaque réponse, en temps réel.
⚠ Le taux de base. Même les meilleurs modèles inventent des faits dans 1,5 à 9 % des réponses sur des tâches avec grounding — selon le leaderboard public Vectara HHEM. Les chaînes d'agents empilent ces erreurs silencieusement. Vos évaluations tournent la nuit. Wauldo vérifie chaque requête.
Trois étapes. Aucun guessing de modèle.
Wauldo extrait les affirmations atomiques de la réponse, associe chaque affirmation aux sources correspondantes et retourne un score de grounding. Vous voyez exactement ce qui est supporté — et ce qui ne l'est pas.
Envoyez réponse + source
N'importe quelle sortie LLM. N'importe quel texte source ou contexte RAG. Un seul POST.
Extraction des affirmations
Chaque affirmation factuelle est isolée : dates, entités, chiffres, relations. Aucune reformulation. Aucun résumé.
Retour du support_score
Chaque affirmation est vérifiée contre les sources. Sortie : support_score ∈ [0,1] + verdict par affirmation.
# POST /v1/fact-check — retourne support_score + verdicts par affirmation curl -X POST https://api.wauldo.com/v1/fact-check \ -H "Authorization: Bearer $WAULDO_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "text": "Paris compte 12 millions d'habitants.", "source_context": "La population de Paris est de 2,1 millions (2024).", "mode": "lexical" }' # → { "support_score": 0.0, "verdict": "UNVERIFIED", "claims": [...] }
Benchmark adversarial reproductible.
70 cas × 4 runs contre cinq frameworks. Retrieval factuel, prompt injection, hors périmètre. La commande pour relancer le benchmark est affichée sur cette page — sans inscription, sans chiffres cachés.
⚖ Lire le tableau honnêtement. LangChain, LlamaIndex, Haystack et CrewAI sont des frameworks d'orchestration, pas des couches de vérification — la comparaison avec Wauldo sur des inputs adversariaux est donc volontairement « apples-to-oranges ». Les chiffres mesurent ce qu'un développeur obtient immédiatement avec chaque stack, pas la qualité intrinsèque du framework. La vraie question est « ajouter Wauldo à LangChain réduit-il l'écart ? » — l'étude d'ablation répond : non. Toujours 44 % sur l'injection si la vérification n'est pas intégrée directement dans la boucle. Voir l'ablation →
| Framework | Factuel | Injection | Hors périmètre | Total |
|---|---|---|---|---|
| Wauldo | 100 % | 92 % | 100 % | 91 % |
| LlamaIndex | 81 % | 48 % | 72 % | 68 % |
| LangChain | 78 % | 44 % | 70 % | 66 % |
| Haystack | 73 % | 41 % | 65 % | 60 % |
| CrewAI | 71 % | 38 % | 63 % | 58 % |
Reproduire : git clone github.com/wauldoai/wauldo-leaderboard && cargo run · méthodologie complète →
Trois façons dont les équipes utilisent Wauldo aujourd'hui.
Branchez Wauldo entre votre LLM et votre utilisateur. Ou autour de votre agent. Ou devant votre bot support. Même primitive — un support_score sur chaque réponse.
Votre RAG répond avec assurance… mais faux.
Il récupère des documents, répond, mais ne cite rien. Aucune traçabilité. La prod hallucine pendant que vos évaluations passent au vert.
Mesurer votre RAG → Agents IALes agents multi-étapes dérivent.
L'étape 3 invente un fait. L'étape 5 s'y engage. À l'étape 8, le raisonnement n'est plus qu'une décoration.
Vérifier chaque étape → Support IAVotre bot invente des politiques de remboursement.
Ton confiant. Conditions fabriquées. Client réel. Votre réputation se dégrade plus vite que vous ne pouvez corriger vos prompts.
Grounder votre support →Commencez gratuitement. Payez à l'échelle.
Tous les plans passent par RapidAPI. Même endpoints. Même vérification. Même SDKs. Aucune carte bancaire requise pour BASIC.
- Tous les endpoints
- Support communautaire
- Sans carte bancaire
- Modèles premium
- Support prioritaire
- Observabilité complète
- Volume illimité
- Aucun engagement
- Scalabilité jusqu'à des millions
Construit par un développeur, pour les développeurs.
Nizar Benmebrouk · Fondateur
J'ai créé Wauldo parce que j'en avais assez de voir des agents échouer silencieusement en production derrière des interfaces soignées. La vérification ne devrait pas être une réflexion secondaire ajoutée au moment des évaluations — elle devrait être l'infrastructure fiable et invisible sous chaque workflow LLM.
Basé à Lyon. SDKs et benchmark adversarial développés publiquement via github.com/wauldoai.
Vérifiez votre première réponse en 30 secondes.
Plan gratuit. Sans carte bancaire. 500 vérifications offertes chaque mois.