SEDTalker: Speech-Driven 3D Facial Animation with Emotion Conditioning

International Conference on Pattern Recognition (ICPR 2026)

Farzaneh Jafari, Stefano Berretti, Anup Basu

[Paper]|[Project Page]|[License]

Key Features

1. Emotion-Conditioned Animation

6 Emotions: (Happy 😊, Sad 😢, Angry 😠, Disgust 🤢, Fear 😨, Upset 😔) + Neutral 😐
3 Intensity Levels: Low (⚪), Medium (🔵), High (🔴)
19 Unique Combinations: (Each emotion × intensity pair creates distinct expressions) + Neutral

2. Speech Emotion Diarization

Automatic emotion detection from audio
Temporal segmentation with configurable chunk sizes
Intensity estimation (low/medium/high)
Chunk reduction for smoother, longer segments

Quick Start

Prerequisites

Python 3.8+
CUDA-capable GPU (recommended)
FFmpeg (for video rendering with audio)

Environment Setup

Set up the JambaTalk environment:

Follow the installation instructions from the official JambaTalk repository: JambaTalk GitHub

Clone this repository:

git clone https://github.com/your-repo/SEDTalker.git
cd SEDTalker

Install additional dependencies:

pip install scipy pyrender opencv-python

Download Pre-trained Models

Download the pre-trained JambaTalk and SED models.

Extract and organize:

# Extract the downloaded models,
unzip models.zip

# Expected structure:
# SEDTalker/
# ├── EmoVOCA/
# │   ├── save/
# │   │   └── 50_model.pth          # JambaTalk model trained on EmoVOCA
# │   ├── templates.pkl
# │   └── FLAME_sample.ply
# └── SED/
#     └── results/
#         └── emotion_diarization_7class/
#             └── save/CKPT+epoch_50/
#                 └── model.ckpt    # SED model

Training Your Own Model

Training

python train.py \
  --dataset EmoVOCA \
  --lr 0.0001 \
  --max_epoch 100 \
  --feature_dim 512 \
  --device cuda

Training Features:

Added Emotion-conditioned generation
Added 3 intensity levels per emotion

Testing

python test.py \
  --dataset EmoVOCA \
  --save_path save \
  --max_epoch 50 \
  --test_emotion Smile2 \
  --test_intensity 3

Emotion System

Emotion Mappings

SED Output	JambaTalk	Emoji	Description
h	happy	😊	Joyful, smiling
s	sad	😢	Sorrowful, downcast
a	angry	😠	Frustrated, tense
d	disgust	🤢	Repulsed, negative
f	fear	😨	Afraid, anxious
u	upset	😔	Disappointed, troubled
n	neutral	😐	Baseline, calm

Intensity Visualization

████ High (3) 🔴 - Maximum expression strength
▄▄▄▄ Medium (2) 🔵 - Moderate expression
▁▁▁▁ Low (1) ⚪ - Subtle expression

Citation

If you use SEDTalker in your research, please cite:

@article{sedtalker2025jafari,
  title={SEDTalker: Speech-Driven 3D Facial Animation with Emotion Conditioning},
  author={Farzaneh Jafari, Stefano Berretti, Anup Basu},
  journal={arXiv preprint},
  year={2026}
}

@misc{jambatalk2026jafari,
 title={JambaTalk: Speech-driven 3D Talking Head Generation based on a Hybrid Transformer-Mamba Model},
 author={Farzaneh Jafari, Stefano Berretti, Anup Basu},
 note={Transactions on Multimedia Computing, Communications, and Applications},
 doi={10.1145/3793196},
 year={2026}
}

Acknowledgments

JambaTalk: Hybrid Transformer-Mamba architecture for facial animation
EmoVOCA: Emotional speech dataset

📄 License

This project is licensed under the MIT License - see the LICENSE file for details.

Name		Name	Last commit message	Last commit date
Latest commit History 139 Commits
EmoVOCA		EmoVOCA
Evaluation		Evaluation
SED		SED
LICENSE		LICENSE
README.md		README.md
SEDTalker.png		SEDTalker.png
data_loader.py		data_loader.py
jambatalk.py		jambatalk.py
moe_mamba.py		moe_mamba.py
requirements.txt		requirements.txt
test.py		test.py
train.py		train.py
transformer.py		transformer.py
wav2vec.py		wav2vec.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SEDTalker: Speech-Driven 3D Facial Animation with Emotion Conditioning

International Conference on Pattern Recognition (ICPR 2026)

Key Features

1. Emotion-Conditioned Animation

2. Speech Emotion Diarization

Quick Start

Prerequisites

Environment Setup

Download Pre-trained Models

Training Your Own Model

Training

Testing

Emotion System

Emotion Mappings

Intensity Visualization

Citation

Acknowledgments

📄 License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

SEDTalker: Speech-Driven 3D Facial Animation with Emotion Conditioning

International Conference on Pattern Recognition (ICPR 2026)

Key Features

1. Emotion-Conditioned Animation

2. Speech Emotion Diarization

Quick Start

Prerequisites

Environment Setup

Download Pre-trained Models

Training Your Own Model

Training

Testing

Emotion System

Emotion Mappings

Intensity Visualization

Citation

Acknowledgments

📄 License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages