Contexte
- 1500 images IRM cérébrales (≈1400 non labellisées, ≈100 labellisées)
- 2 classes labellisées :
normalvscancer
Objectifs
- Explorer les images + contrôle qualité (doublons / quasi-doublons)
- Extraire des embeddings (features) via un modèle pré-entraîné (ResNet18)
- Clustering (KMeans + GMM), évaluation via ARI, création de pseudo-labels
- Semi-supervisé : comparer
- Supervisé-only (train sur labels experts)
- "Faiblements" labellisées → "Fortement" labellisées (pré-entraînement sur pseudo-labels puis fine-tuning sur labels experts)
Important
- On garde séparé : (A) labels experts vs (B) pseudo-labels.
- On évite la fuite train/test : doublons exacts + quasi-doublons (group split).