Der Einsatz eines Modells für maschinelles Lernen in der Produktion erfordert die gründliche Berücksichtigung von drei wichtigen Faktoren:
Während zahlreiche Artikel die Schulung, die Feinabstimmung und die Erläuterung des Papiers hinter Whisper behandeln, gibt es nur wenige Ressourcen, die sich auf den Betrieb von Whisper in einer Produktionsumgebung konzentrieren. In einer zweiteiligen Blogserie befassen wir uns mit den praktischen Aspekten der Implementierung von OpenAI Whisper in einer Produktionsumgebung. Im ersten Teil gehen wir auf die Kompromisse zwischen Modellgrößen und GPUs ein und beleuchten die optimale Wahl. Der zweite Teil befasst sich mit den Auswirkungen von Tools und Techniken wie JAX, ONNX und KernlAI auf diese Metriken.
Unter Verwendung der Whisper-Implementierung von HuggingFace haben wir mehrsprachige Modelle in verschiedenen Stapelgrößen (1, 2, 4, 8 und 16) auf CPUs und GPUs (T4, V100 und A100) getestet, um die Inferenzgeschwindigkeit zu bewerten. Alle Benchmarks wurden mit dem Test-Split des HuggingFace-Datensatzes durchgeführt: librispeech_asr.
Die wichtigsten Ergebnisse:
Zusammenfassend lässt sich feststellen: Der T4-Grafikprozessor erweist sich als die optimale Wahl für die Unterstützung aller Whisper-Modelle (außer Whisper large-v2) in Online- (Batch-size = 1) und Batch-Einstellungen. Er bietet eine kostengünstige Lösung im Vergleich zu den Grafikprozessoren P100 und A100. Trotz der höheren Geschwindigkeit des P100 in Batch-Einstellungen im Vergleich zum T4 ist er aufgrund der höheren Kosten eine weniger wirtschaftliche Wahl.
Lesen Sie den vollständigen Artikel auf unserem Medium-Konto.