fix: use COMMON_AUDIO_EXTS for --audio_dir file discovery

Matt Van Horn · YaoyaoChang · commit 939f1cbea2f5 · 2026-04-10T13:41:53.000+08:00
The --audio_dir flag hardcodes 6 file extensions (wav, mp3, flac, mp4,
m4a, webm) while audio_utils supports 25+ formats via FFmpeg. Files
like .ogg, .opus, .aac, .wma are silently ignored.

Use COMMON_AUDIO_EXTS from audio_utils with case-insensitive matching,
consistent with the gradio demo (vibevoice_asr_gradio_demo.py:50).
diff --git a/demo/vibevoice_asr_inference_from_file.py b/demo/vibevoice_asr_inference_from_file.py
@@ -20,6 +20,7 @@
 
 from vibevoice.modular.modeling_vibevoice_asr import VibeVoiceASRForConditionalGeneration
 from vibevoice.processor.vibevoice_asr_processor import VibeVoiceASRProcessor
+from vibevoice.processor.audio_utils import COMMON_AUDIO_EXTS
 
 
 class VibeVoiceASRBatchInference:
@@ -502,9 +503,10 @@ def main():
         audio_files.extend(args.audio_files)
     
     if args.audio_dir:
-        import glob
-        for ext in ["*.wav", "*.mp3", "*.flac", "*.mp4", "*.m4a", "*.webm"]:
-            audio_files.extend(glob.glob(os.path.join(args.audio_dir, ext)))
+        supported = set(e.lower() for e in COMMON_AUDIO_EXTS)
+        for f in os.listdir(args.audio_dir):
+            if os.path.splitext(f)[1].lower() in supported:
+                audio_files.append(os.path.join(args.audio_dir, f))
     
     if args.dataset:
         concatenated_audio = load_dataset_and_concatenate(