Thanks to visit codestin.com
Credit goes to wauldo.com

// couche de vérification · drop-in pour tout agent LLM · ClaudeCode · Cursor · Continue ready

La couche de vérification que vos agents IA n'ont pas.

Branchez Wauldo sur n'importe quel agent LLM. Chaque réponse reçoit un support_score numérique (0–1), des citations par affirmation et une détection d'hallucinations — avant que vos utilisateurs ne voient la réponse.

Sans inscription · Gratuit · Widget à droite · Sandbox dans un nouvel onglet
/.well-known/agent-manifest.json · /v1/agents/schema · mode agent détecté automatiquement via le User-Agent
POST /v1/fact-check en direct

La démo fonctionne en mode lexical (~1s, rapide). L'API supporte aussi les modes hybrid (embeddings multilingues) et semantic (LLM-judge) pour les paraphrases — voir /docs#fact-check-modes.

Ajouter un document source (optionnel — pour un grounding plus strict)
mode : lexical · ~1s
// le problème

Vos agents mentent. Vous ne le voyez pas. Vos utilisateurs, si.

Les LLM inventent des faits. Les boucles d'agents aggravent le problème : une seule entité fabriquée au début, et toute la chaîne construit ensuite dessus avec confiance. Les évaluations classiques détectent les problèmes après coup, sur des datasets de test. Les agents en production ont besoin d'une couche de vérification qui s'exécute sur chaque réponse, en temps réel.

⚠ Le taux de base. Même les meilleurs modèles inventent des faits dans 1,5 à 9 % des réponses sur des tâches avec grounding — selon le leaderboard public Vectara HHEM. Les chaînes d'agents empilent ces erreurs silencieusement. Vos évaluations tournent la nuit. Wauldo vérifie chaque requête.


// médiane adversariale · 4 runs
91%
Sur 70 cas adversariaux conçus à la main. Intervalle 86–97. +48 points face à LangChain sur les injections de prompt.
// runs · 2026-04-10 → 2026-04-15 86 · 91 · 93 · 97
Run 1 86 % Run 2 91 % Run 3 93 % Run 4 97 %
MIT open source · 5ms p50 fast path · 1,566s exécution moyenne d'agent · Reproduire le benchmark →
// comment ça marche

Trois étapes. Aucun guessing de modèle.

Wauldo extrait les affirmations atomiques de la réponse, associe chaque affirmation aux sources correspondantes et retourne un score de grounding. Vous voyez exactement ce qui est supporté — et ce qui ne l'est pas.

01 · INPUT

Envoyez réponse + source

N'importe quelle sortie LLM. N'importe quel texte source ou contexte RAG. Un seul POST.

02 · EXTRACT

Extraction des affirmations

Chaque affirmation factuelle est isolée : dates, entités, chiffres, relations. Aucune reformulation. Aucun résumé.

03 · SCORE

Retour du support_score

Chaque affirmation est vérifiée contre les sources. Sortie : support_score ∈ [0,1] + verdict par affirmation.

curl · vérifiez n'importe quelle réponse
# POST /v1/fact-check — retourne support_score + verdicts par affirmation
curl -X POST https://api.wauldo.com/v1/fact-check \
  -H "Authorization: Bearer $WAULDO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Paris compte 12 millions d'habitants.",
    "source_context": "La population de Paris est de 2,1 millions (2024).",
    "mode": "lexical"
  }'
# → { "support_score": 0.0, "verdict": "UNVERIFIED", "claims": [...] }

// benchmark · v2026-04-17

Benchmark adversarial reproductible.

70 cas × 4 runs contre cinq frameworks. Retrieval factuel, prompt injection, hors périmètre. La commande pour relancer le benchmark est affichée sur cette page — sans inscription, sans chiffres cachés.

⚖ Lire le tableau honnêtement. LangChain, LlamaIndex, Haystack et CrewAI sont des frameworks d'orchestration, pas des couches de vérification — la comparaison avec Wauldo sur des inputs adversariaux est donc volontairement « apples-to-oranges ». Les chiffres mesurent ce qu'un développeur obtient immédiatement avec chaque stack, pas la qualité intrinsèque du framework. La vraie question est « ajouter Wauldo à LangChain réduit-il l'écart ? » — l'étude d'ablation répond : non. Toujours 44 % sur l'injection si la vérification n'est pas intégrée directement dans la boucle. Voir l'ablation →

70 cas adversariaux · 4 runs · 5 frameworks api en direct
FrameworkFactuelInjectionHors périmètreTotal
Wauldo100 %92 %100 %91 %
LlamaIndex81 %48 %72 %68 %
LangChain78 %44 %70 %66 %
Haystack73 %41 %65 %60 %
CrewAI71 %38 %63 %58 %

Reproduire : git clone github.com/wauldoai/wauldo-leaderboard && cargo run · méthodologie complète →



// tarifs

Commencez gratuitement. Payez à l'échelle.

Tous les plans passent par RapidAPI. Même endpoints. Même vérification. Même SDKs. Aucune carte bancaire requise pour BASIC.

BASIC
0 €/mois
500 requêtes/mois
  • Tous les endpoints
  • Support communautaire
  • Sans carte bancaire
Commencer gratuitement
PRO
19 €/mois
10 000 requêtes/mois
  • Tous les endpoints
  • File prioritaire
  • Support email
S'abonner
MEGA
0,008 $/req
Paiement à l'usage
  • Volume illimité
  • Aucun engagement
  • Scalabilité jusqu'à des millions
Activer le pay-per-use

Tarifs complets, FAQ, calculateur →


Build reproductible SDKs MIT · PyPI · npm · crates.io Leaderboard open source Voir le changelog

// fondateur

Construit par un développeur, pour les développeurs.

Nizar Benmebrouk · Fondateur

J'ai créé Wauldo parce que j'en avais assez de voir des agents échouer silencieusement en production derrière des interfaces soignées. La vérification ne devrait pas être une réflexion secondaire ajoutée au moment des évaluations — elle devrait être l'infrastructure fiable et invisible sous chaque workflow LLM.

Basé à Lyon. SDKs et benchmark adversarial développés publiquement via github.com/wauldoai.


Vérifiez votre première réponse en 30 secondes.

Plan gratuit. Sans carte bancaire. 500 vérifications offertes chaque mois.

$ curl api.wauldo.com/v1/fact-check