fix: support webm with audioread fallback

cpwan · cpwan · commit c667ae0586c2 · 2025-05-21T10:28:25.000Z
Signed-off-by: cpwan &lt;cpwan@connect.ust.hk&gt;
diff --git a/vllm/entrypoints/openai/serving_transcription.py b/vllm/entrypoints/openai/serving_transcription.py
@@ -2,6 +2,7 @@
 import asyncio
 import io
 import time
+import tempfile
 from collections.abc import AsyncGenerator
 from math import ceil
 from typing import Final, Optional, Union, cast
@@ -24,8 +25,10 @@
 from vllm.utils import PlaceholderModule
 
 try:
+    import audioread
     import librosa
 except ImportError:
+    audioread = PlaceholderModule("audioread")  # type: ignore[assignment]
     librosa = PlaceholderModule("librosa")  # type: ignore[assignment]
 
 logger = init_logger(__name__)
@@ -201,8 +204,19 @@ async def _preprocess_transcription(
         if len(audio_data) / 1024**2 > MAX_AUDIO_CLIP_FILESIZE_MB:
             raise ValueError("Maximum file size exceeded.")
 
-        with io.BytesIO(audio_data) as bytes_:
-            y, sr = librosa.load(bytes_)
+        def load_audio(audio_data: bytes):
+            file_bytes_content = audio_data
+            try:
+                with io.BytesIO(file_bytes_content) as bytes_:
+                    out = librosa.load(bytes_, sr=None)
+            except:
+                with tempfile.NamedTemporaryFile() as temp:
+                    temp.write(file_bytes_content)
+                    audio_read_obj = audioread.audio_open(temp.name)
+                    out = librosa.load(audio_read_obj, sr=None)
+            return out
+
+        y, sr = load_audio(audio_data)
 
         duration = librosa.get_duration(y=y, sr=sr)
         if duration > self.max_audio_clip_s: