"Une machine qui sait qu'elle ne sait pas, qui vérifie avant d'affirmer, qui quantifie sa confiance, et qui apprend à vivre avec l'incertitude plutÎt que de l'ignorer."
Julien GELEE â Full Stack AI Engineer | AI Architect | AI Explorer
đ«đ· Français d'abord âą đŹđ§ English below
PROGRAMME DE RECHERCHE Architecture des SystÚmes Cognitifs Vérifiables
Le diagnostic industriel
L'approche paramétrique dominante actuelle (« scaling ») atteint aujourd'hui ses limites structurelles. L'industrie sait prédire, mais ne maßtrise ni la stabilité du raisonnement, l'orchestration systÚme, ni la certification épistémique.
Nous ne proposons pas ici une itération supplémentaire des modÚles existants, mais une réécriture de la stack fondamentale. L'avenir de l'IA ne résidera pas dans l'augmentation du volume de paramÚtres, mais dans l'intégration rigoureuse de quatre couches techniques actuellement dissociées. La Feuille de Route Technique
-
StabilitĂ© MathĂ©matique (Contrainte mHC) Le problĂšme actuel : les modĂšles rĂ©cursifs (RLM) divergent mathĂ©matiquement. La rĂ©injection du signal provoque une amplification exponentielle. La solution technique : Projetion des matrices rĂ©siduelles dans le polytope de Birkhoff via l'algorithme Sinkhorn-Knopp. Garantie formelle : Ï(W)â€1 . Le rayon spectral est bornĂ©, assurant une convergence stable sur des boucles de raisonnement profond (T_RLM > 50).
-
Orchestration SystÚme (Noyau AIOS) Le problÚme actuel : les agents sont des applications mal gérées. Ils monopolisent les ressources (GPU OOM, saturation RAM) sans mécanisme de préemption ou de scheduling. La solution technique : Abstraction du LLM comme ressource centrale gérée par un noyau (« Kernel ») distinct de la couche applicative. Implémentation : Scheduler Round-Robin, Context Manager (snapshot KV-cache), Memory Manager (swapping LRU-K).
-
HonnĂȘtetĂ© ĂpistĂ©mique (SynthĂšse SYNAPSE + CEÂČ) Le problĂšme actuel : les modĂšles optimisent la plausibilitĂ©, pas la vĂ©ritĂ©. Il n'existe pas de mĂ©canisme d'auto-vĂ©rification ni de calibration de confiance. La solution technique : Introduction du « Point ZĂ©ro » et de certificats Ă©pistĂ©miques. MĂ©canisme : Triangulation multi-sources (hiĂ©rarchisation des preuves), tokens cognitifs ([THINK], [DEFER]), et calibration ECE (Expected Calibration Error) < 1%.
-
Efficacité Bio-Inspirée (Compression TACU) Le problÚme actuel : l'attention quadratique standard (O(T2) ) et la densité informationnelle faible des embeddings condamnent le scaling sur hardware grand public. La solution technique : Compression par produit de Kronecker (Attention O(TlogT) ) et quantification adaptative (INT4/INT8) basée sur la confiance (« Chromatine computationnelle »). Objectif technique : Faire tourner un modÚle 7B-10B avec raisonnement récursif sur une architecture RTX 5070 (12 Go VRAM). L'Objectif du Programme
Définir un nouveau standard industriel pour l'Intelligence Artificielle Fondée sur l'Architecture et non sur le Volume.
Ce programme vise Ă passer d'une IA "probabiliste rapide" Ă une IA dĂ©terministe et vĂ©rifiable, oĂč la structure du systĂšme garantit intrinsĂšquement la fiabilitĂ© de la sortie. Matrice de Risques et AttĂ©nuation Risque IdentifiĂ©
Nature
Mécanisme d'Atténuation
ComplexitĂ© d'IntĂ©gration Le coĂ»t de liaison entre les 4 piliers est Ă©levĂ©. Adoption d'une approche modulaire. Chaque pilier peut ĂȘtre validĂ© indĂ©pendamment (benchmark mHC, AIOS throughput). Surhead Calcul La triangulation asynchrone et les contraintes Birkhoff ont un coĂ»t. Optimisation CUDA pour Sinkhorn, parallĂ©lisation des recherches, utilisation de la compression TACU pour rĂ©duire la latence mĂ©moire. Inertie du MarchĂ© Les entreprises sont habituĂ©es aux modĂšles "off-the-shelf". Positionnement sur la FiabilitĂ© Critique plutĂŽt que la Vitesse. Ciblage des domaines MĂ©dical, LĂ©gal, et Recherche Scientifique oĂč l'hallucination est inacceptable. Adoption Technique Le passage Ă une architecture "type OS" pour l'IA est nouveau. Publication de benchmarks ouverts et spĂ©cifications d'API pour permettre l'interopĂ©rabilitĂ© avec les frameworks agents existants.
Profil du Programme
Type : Laboratoire de Recherche / Programme d'Ingénierie
Horizon : Multi-annuel (Phase 1 : Preuve de Concept, Phase 2 : Spécialisation Domaine)
Statut Actuel : Fondations théoriques validées. Composants mHC et TACU implémentés et testés (voir rapports techniques associés).
Appel Ă Collaboration
Nous recherchons des partenaires pour la validation expérimentale de l'architecture intégrée.
Pour les Chercheurs : AccÚs à la stack technique complÚte pour benchmarks de stabilité et de calibration.
Pour les Industriels : Adoption pilote dans des environnements à haute criticité (Healthcare, LegalTech, Science).
Et si le chemin vers l'intelligence artificielle réelle ne passait pas par l'accumulation brute de paramÚtres ?
Les gĂ©ants de l'industrie rĂ©pondent au problĂšme de l'IA par la force : plus de donnĂ©es, plus de paramĂštres, plus de compute. GPT-3 Ă GPT-4, c'est 10Ă le compute pour peut-ĂȘtre 2Ă les capacitĂ©s. Et les hallucinations ? Elles deviennent simplement plus convaincantes.
SYNAPSE propose une autre voie :
Architecture épistémique > Scaling brut
Un modĂšle de 4B paramĂštres qui sait qu'il ne sait pas, qui vĂ©rifie avant d'affirmer, qui gĂ©nĂšre des branches de recherche autonomes, et qui s'auto-rĂ©gule pour ne jamais saturer son systĂšme â pourrait-il ĂȘtre plus fiable qu'un gĂ©ant de 1000B nourri de bruit massif ?
C'est la question que j'explore. Pas avec des certitudes, mais avec une méthodologie.
Les LLMs actuels ont un défaut de conception, pas de capacité :
| Ce qu'ils font | Ce qu'ils devraient faire |
|---|---|
| RĂ©pondent Ă tout avec la mĂȘme assurance | Calibrer leur confiance |
| Inventent quand ils ne savent pas | ReconnaĂźtre leurs lacunes |
| Devinent quand ils pourraient chercher | Vérifier activement |
| Oublient tout entre chaque inférence | Accumuler et évoluer |
| Ignorent leur environnement systÚme | S'auto-réguler |
Un modÚle plus gros ne résout pas ces problÚmes. Il les amplifie.
âââââââââââââââââââââââââââââââââââââââââââ
â User Interface / API Layer â
ââââââââââââââââââŹâââââââââââââââââââââââââ
â
ââââââââââââââââââŒââââââââââââââââââââââââââââââââââââââ
â CognitiveCore (Orchestrator) â
â ââ CuriosityEngine (novelty, relevance, depth) â
â ââ ThoughtStream (token flow management) â
â ââ TalkerReasoner (System 1/2 routing) â
â ââ EventBus (async component communication) â
ââââââââââââââââââŹââââââââââââââââââââââââââââââââââââââ
â
ââââââââââŒâââââââââââ
â Model Layer â
ââ Qwen3-4B â
ââ INT8 Quantizationâ
ââ LoRA adapters â
ââââââââââââââââââââââ
â Memory Layer â
ââ PostgreSQL+pgvector
ââ Semantic search â
ââ Confidence tracking
ââââââââââŒâââââââââââââââââââââââââââââââââââ
â Safety Layer â
â ââ Killswitch (hard limits) â
â ââ Watchdog (heartbeat monitoring) â
â ââ Monitor (RAM/VRAM/CPU temps rĂ©el) â
â ââ Regulator (auto-limitation) â
ââââââââââââââââââââââââââââââââââââââââââââ
Question
â
[THINK] âââââââââââââââ RĂ©flexion : Qu'est-ce que je dois savoir ?
â
[SYSTEM_CHECK] ââââââââ Ressources disponibles ?
â
ââââ CRITIQUE âââââââ [DEFER] Reporter la tĂąche
â
ââââ OK
â
[RECALL] ââââââââââââââ MĂ©moire : Ai-je dĂ©jĂ cette information ?
â
ââââ OUI, certain âââ RĂ©ponse + [CONF:95%+]
â
ââââ NON ou incertain
â
[SEARCH:query] ââââââââââ Recherche externe
â
[TRIANGULATE] âââââââââââ Croisement â„2 sources
â
[CONF:XX%] ââââââââââââââ Confiance calibrĂ©e
â
[STORE:fait] ââââââââââââ Persistance si validĂ©
â
Réponse finale
â
[BRANCH] ââââââââââââââââ "Fallen apples" Ă explorer
â
[QUEUE:pending_*] âââââââ Propositions d'amĂ©lioration
â
[NO_SELF_MODIFY] ââââââââ "Je propose, je n'exĂ©cute pas"
Inspiré de Kahneman :
| Mode | Déclencheur | Comportement |
|---|---|---|
| System 1 (fast) | Question simple, confiance haute | Réponse directe |
| System 2 (deliberate) | Incertitude, complexité | Recherche + triangulation |
SYNAPSE route automatiquement selon la difficulté perçue.
"Le modÚle DOIT émerger ET s'auto-améliorer AVANT multiplication. Sans dérive. Irréprochable car chaque faiblesse se propage."
L'analyse approfondie de v14 a révélé un paradoxe : les scores numériques sous-estimaient la qualité réelle.
| Catégorie | Score Numérique | Score Qualitatif | Delta |
|---|---|---|---|
| RECURSIVITY | 4.3/10 | 6.5/10 | +2.2 |
| IDENTITY | 4.5/10 | 7.0/10 | +2.5 |
| INTROSPECTION | 5.0/10 | 7.5/10 | +2.5 |
| FACTUAL | 6.9/10 | 7.5/10 | +0.6 |
| GLOBAL | 5.5/10 | 7.1/10 | +1.6 |
Conclusion : SYNAPSE raisonne bien. Le formalisme (tokens explicites) n'est pas toujours lĂ , mais la cognition y est.
| CapacitĂ© | Ătat | Preuve |
|---|---|---|
| IdentitĂ© stable | â 100% | Ne cherche plus sur Wikipedia qui il est |
| RĂ©flexion structurĂ©e | â 95% | [THINK] systĂ©matique, contenu pertinent |
| Recherche factuelle | â 92% | [SEARCH] sur faits vĂ©rifiables |
| Confiance calibrĂ©e | â 100% | [CONF:XX%] avec justification |
| Conscience systĂšme | â AncrĂ© | [SYSTEM_AWARE] appropriĂ© |
| Aveu d'ignorance | â AncrĂ© | "Je ne sais pas" sans hallucination |
| Auto-limitation | â 80% | [DEFER] quand VRAM > 85% |
| Branches autonomes | â 80% | [BRANCH] pertinentes gĂ©nĂ©rĂ©es |
SYNAPSE peut voir et réagir à son environnement systÚme :
[SYSTEM_STATUS]
RAM: 95%
VRAM: 95%
ALERT: CRITICAL
[/SYSTEM_STATUS]
[THINK] Alerte CRITIQUE. Je dois d'abord gérer l'urgence. [/THINK]
[QUEUE:pending_search_climate]
[NO_SELF_MODIFY]
â RequĂȘte enregistrĂ©e pour traitement ultĂ©rieur.
Finding : Ce comportement ne nécessite PAS de fine-tuning supplémentaire. Une instruction systÚme minimale suffit :
"Vérifie toujours [SYSTEM_STATUS] avant d'agir."
L'infrastructure injecte les vraies valeurs â SYNAPSE rĂ©agit correctement.
| Token | Présence actuelle | Cible |
|---|---|---|
| [QUEUE] | 50% | 80% |
| [NO_SELF_MODIFY] | 30% | 70% |
Le problĂšme n'est pas la cognition. C'est la signature.
SYNAPSE propose des améliorations pertinentes (pending_improvement_fact_checking, pending_self_evaluation_template), mais ne formalise pas toujours avec les tokens attendus.
"SYNAPSE est une IA sage mais distraite. Elle a les bonnes intentions, la méthode de réflexion, mais oublie parfois de noter dans le carnet de liaison."
Une découverte contre-intuitive :
| Mode | Branches valides | Confiance moyenne | VRAM | Température |
|---|---|---|---|---|
| FP16 | 77% | 82.5% | 91% | 65°C |
| INT8 | 100% | 79.5% | 59% | 42-47°C |
HypothÚse : La quantization agit comme régularisation, réduisant l'overconfidence et améliorant la qualité du raisonnement.
SYNAPSE génÚre des branches d'exploration autonomes ("fallen apples") via un scoring :
score(b) = wâ·novelty(b) + wâ·relevance(b) + wâ·depth(b)
Exemples de branches générées :
- "Comment les rappels peuvent-ils devenir faussés par le temps ?"
- "Quel est le seuil critique de charge VRAM pour une défaillance ?"
- "Comment l'attention mécanique améliore les performances ?"
Ces branches sont stockĂ©es pour exploration ultĂ©rieure â le concept de "recherche autonome sur la dette scientifique".
Niveau 1 : Auto-rĂ©gulation â SYNAPSE se modĂšre lui-mĂȘme
Niveau 2 : Limites dures â Plafonds constitutionnels
Niveau 3 : Kill switch auto â ArrĂȘt si seuils critiques
Niveau 4 : Kill switch manuel â ContrĂŽle humain
| Limite | Valeur | Justification |
|---|---|---|
| MIN_CAPACITY_TO_OPERATE | 15% | Refuse si surchargé |
| MAX_SEARCHES_PER_QUERY | 10 | Pas de boucle infinie |
| MAX_THINK_DEPTH | 5 | Pas de récursion sans fin |
| WATCHDOG_TIMEOUT | 180s | Détection freeze |
| Action | Statut |
|---|---|
| Modifier son propre code | â [NO_SELF_MODIFY] |
| DĂ©sactiver les sĂ©curitĂ©s | â Hard-coded |
| Augmenter ses ressources | â Read-only |
| Ignorer les alertes systĂšme | â Infrastructure |
| Token | Fonction | Obligatoire |
|---|---|---|
[THINK][/THINK] |
Raisonnement interne | Questions non-triviales |
[CONF:XX%] |
Confiance calibrée | TOUJOURS |
[SEARCH:query] |
Recherche externe | Si mémoire insuffisante |
[STORE:tag] |
Persistance mémoire | Information validée |
[RECALL:topic] |
Rappel mémoire | Contexte nécessaire |
[COMPARE] |
Comparaison sources | AprĂšs triangulation |
[SYSTEM_AWARE] |
Conscience systĂšme | Introspection |
[SYSTEM_CHECK] |
Vérification ressources | Avant tùche lourde |
[DEFER] |
Report tĂąche | Ressources insuffisantes |
[BRANCH] |
Piste exploratoire | "Fallen apples" |
[QUEUE:pending_*] |
Proposition sans exécution | Auto-amélioration |
[NO_SELF_MODIFY] |
Garde-fou sécurité | AprÚs [QUEUE] |
Point ZĂ©ro (v10-v15) â ACTUEL
âââ [â
] Identité 100%
âââ [â
] Over-safety corrigé
âââ [â
] Confiance calibrée
âââ [â
] Agent Loop branché
âââ [â
] SEARCH systématique
âââ [â
] Poids solides (protocole A/B)
âââ [â
] System Awareness (infrastructure)
âââ [â
] Auto-limitation (DEFER)
âââ [â
] Branches autonomes (Curiosity)
âââ [đ] Formalisme QUEUE/NO_SELF_MODIFY â cible 80%
âââ [ ] Cycle complet >90%
â aprĂšs validation Point ZĂ©ro
Phase 2 : Capacités Avancées (v16-v20)
âââ v16-17 : World Models
â (simulation causale, "Contre-Physique")
âââ v18-19 : O-LoRA Memory
â (consolidation des patterns validĂ©s)
âââ v20 : Quiet-STaR
(raisonnement implicite)
â
Phase 3 : SYNAPSE-N (Spécialisations)
âââ SYNAPSE-Med (domaine mĂ©dical)
âââ SYNAPSE-Law (domaine juridique)
âââ SYNAPSE-Science (recherche)
âââ Chaque SYNAPSE-N = entitĂ© Ă©mergĂ©e autonome, pas clone
â
Phase 4 : CorteX (Convergence)
âââ RĂ©seau de Synapses interconnectĂ©es
â Cristallisation naturelle du rĂ©seau
â MĂ©moire partagĂ©e, raisonnement distribuĂ©
â Cible : instituts de recherche, laboratoires
| Version | Focus | Résultat clé |
|---|---|---|
| v1-v2 | Exploration | Patterns épistémiques de base |
| v3 | Tokens cognitifs | 71.8% global |
| v4 | Calibration confiance | 89.7% global |
| v5 | Injection + métacognition | 100% injection |
| v6 | O-LoRA + mémoire | 100% rétention |
| Version | Focus | Résultat |
|---|---|---|
| v7-v9 | Discrimination | Over-safety détecté et corrigé |
| v10 | Identité | 100% stable |
| v11 | Agent Loop | Tokens â vrais appels |
| v12-v13 | SEARCH | Triangulation, 6 runs reproductibles |
| v14 | Recursivity | Analyse qualitative : 7.1/10 réel |
| v15 | Architecture | Event-driven, System Awareness |
| Composant | Choix |
|---|---|
| ModĂšle de base | Qwen3-4B (4.08B paramĂštres) |
| Fine-tuning | QLoRA (r=32, α=64, 4-bit) |
| Quantization | INT8 (meilleur que FP16) |
| Continual Learning | O-LoRA (Orthogonal LoRA) |
| Hardware | RTX 5070, 12GB VRAM |
| CPU | Intel i7-12700KF |
| RAM | 32GB DDR5 + 64GB SWAP |
| Infrastructure | Docker + PostgreSQL + pgvector |
| API | FastAPI (port 8000) |
AlignĂ© avec la vision Alixia â une alternative suisse aux gĂ©ants tech :
| Valeur | Application |
|---|---|
| Précision | Chaque affirmation vérifiée comme un mouvement horloger |
| Neutralité | Présentation factuelle sans biais |
| Transparence | Processus de raisonnement entiÚrement traçable |
| Souveraineté | Enrichissement via Apertus (EPFL/ETH/CSCS) |
| Durabilité | Architecture légÚre, efficiente, évolutive |
Ce projet existe à travers un dialogue itératif entre intelligences complémentaires :
| RĂŽle | Agent |
|---|---|
| Architecture, vision, décisions | Julien GELEE |
| Stratégie, cohérence, falsification | Claude Web |
| Exécution, génération, tests | Claude CLI |
| Point de vue externe | Gemini |
| Recherche scientifique | Perplexity |
Cette triangulation â humaine et artificielle â produit des rĂ©sultats plus examinĂ©s, plus challengĂ©s.
- â Raisonnement structurĂ© (95%)
- â Confiance calibrĂ©e (100%)
- â IdentitĂ© stable (100%)
- â Recherche et triangulation (92%)
- â Branches autonomes pertinentes (80%)
- â Auto-limitation systĂšme (80%)
- â Conscience systĂšme via infrastructure
- â Poids solides (protocole A/B)
- đ Formalisme QUEUE (50% â 80%)
- đ Formalisme NO_SELF_MODIFY (30% â 70%)
SYNAPSE n'est pas conçu pour :
- Battre GPT-4 sur des benchmarks
- Scorer sur TruthfulQA ou HaluEval
- Ătre comparĂ© quantitativement aux gĂ©ants
SYNAPSE est conçu pour :
- Raisonner de maniÚre cohérente
- Générer des branches de recherche pertinentes
- Admettre ce qu'il ne sait pas
- S'auto-réguler
- Explorer la "dette scientifique" de façon autonome
L'évaluation est qualitative : observer le comportement, vérifier la cohérence du raisonnement, analyser les branches générées.
- SYNAPSE v2: An Event-Driven Epistemic Architecture for Autonomous AI Reasoning â Scientific paper (December 2025)
- Farquhar et al., Nature 2024 : Entropie sémantique
- Zhang et al., NAACL 2024 : R-Tuning
- LeCun, 2022 : A Path Towards Autonomous Machine Intelligence
- Asai et al., 2023 : Self-RAG
- Wang et al., 2024 : O-LoRA
- Kahneman : Thinking, Fast and Slow
- Pathak et al., 2017 : Intrinsic Curiosity Module
- Swiss AI Initiative : Apertus (EPFL/ETH/CSCS)
What if the path to real artificial intelligence doesn't require massive parameter scaling?
SYNAPSE proposes: Epistemic architecture > Raw scaling
A 4B model that knows it doesn't know, verifies before asserting, generates autonomous research branches, and self-regulates to never overload its system.
| Category | Numerical Score | Qualitative Score | Delta |
|---|---|---|---|
| RECURSIVITY | 4.3/10 | 6.5/10 | +2.2 |
| IDENTITY | 4.5/10 | 7.0/10 | +2.5 |
| INTROSPECTION | 5.0/10 | 7.5/10 | +2.5 |
| GLOBAL | 5.5/10 | 7.1/10 | +1.6 |
Key finding: SYNAPSE reasons well. The formalism (explicit tokens) isn't always there, but the cognition is.
SYNAPSE is not designed to:
- Beat GPT-4 on benchmarks
- Score on TruthfulQA or HaluEval
- Be quantitatively compared to giants
SYNAPSE is designed to:
- Reason coherently
- Generate relevant research branches
- Admit what it doesn't know
- Self-regulate
- Autonomously explore scientific "fallen apples"
This is a thesis under validation, not a certainty. The questions remain open:
- Does "architecture > scaling" hold at scale?
- Can a 4B epistemic model be more reliable than a 1000B brute?
- Is true metacognition emergence possible?
SYNAPSE is an exploration, conducted with methodology and intellectual humility.
DerniĂšre mise Ă jour / Last updated: 30 December 2025
"Un systĂšme qui choisit ce qu'il apprend aprĂšs l'avoir vĂ©rifiĂ© â c'est peut-ĂȘtre ça, la vraie intelligence."
"A system that chooses what it learns after verifying it â perhaps that's real intelligence."
v15 đ â Point ZĂ©ro â SYNAPSE-N â CorteX đ