5. November 2023

Entscheidungen über den Einsatz von Whisper: Teil I - Bewertung von Latenz, Kosten und Leistungsmetriken

Mitwirkende
Shubham Krishna
Machine Learning Engineer
Keine Artikel gefunden.
Newsletter abonnieren
Diesen Beitrag teilen

Der Einsatz eines Modells für maschinelles Lernen in der Produktion erfordert die gründliche Berücksichtigung von drei wichtigen Faktoren:

  • Leistungsmetriken
  • Latenzzeit
  • Kosten des Einsatzes

Während zahlreiche Artikel die Schulung, die Feinabstimmung und die Erläuterung des Papiers hinter Whisper behandeln, gibt es nur wenige Ressourcen, die sich auf den Betrieb von Whisper in einer Produktionsumgebung konzentrieren. In einer zweiteiligen Blogserie befassen wir uns mit den praktischen Aspekten der Implementierung von OpenAI Whisper in einer Produktionsumgebung. Im ersten Teil gehen wir auf die Kompromisse zwischen Modellgrößen und GPUs ein und beleuchten die optimale Wahl. Der zweite Teil befasst sich mit den Auswirkungen von Tools und Techniken wie JAX, ONNX und KernlAI auf diese Metriken.

Unter Verwendung der Whisper-Implementierung von HuggingFace haben wir mehrsprachige Modelle in verschiedenen Stapelgrößen (1, 2, 4, 8 und 16) auf CPUs und GPUs (T4, V100 und A100) getestet, um die Inferenzgeschwindigkeit zu bewerten. Alle Benchmarks wurden mit dem Test-Split des HuggingFace-Datensatzes durchgeführt: librispeech_asr.

Die wichtigsten Ergebnisse:

  • Mit zunehmender Größe des Whisper-Modells wird die Inferenzzeit langsamer, da größere Modelle mehr Parameter haben.
  • Die Ausführung von Whisper auf CPUs ist merklich langsamer als auf GPUs. 
  • Unabhängig von der Modellgröße ist die Inferenzzeit bei A100 am schnellsten.

Zusammenfassend lässt sich feststellen: Der T4-Grafikprozessor erweist sich als die optimale Wahl für die Unterstützung aller Whisper-Modelle (außer Whisper large-v2) in Online- (Batch-size = 1) und Batch-Einstellungen. Er bietet eine kostengünstige Lösung im Vergleich zu den Grafikprozessoren P100 und A100. Trotz der höheren Geschwindigkeit des P100 in Batch-Einstellungen im Vergleich zum T4 ist er aufgrund der höheren Kosten eine weniger wirtschaftliche Wahl.

Lesen Sie den vollständigen Artikel auf unserem Medium-Konto.

Verwandte Beiträge

Alle anzeigen
Keine Ergebnisse gefunden.
Es gibt keine Ergebnisse mit diesen Kriterien. Versuchen Sie, Ihre Suche zu ändern.
Großes Sprachmodell
Stiftung Modelle
Unternehmen
Unser Team
Strukturierte Daten
Chat GPT
Nachhaltigkeit
Stimme und Ton
Front-End-Entwicklung
Schutz und Sicherheit von Daten
Verantwortungsvolle/ethische KI
Infrastruktur
Hardware und Sensoren
MLOps
Generative KI
Verarbeitung natürlicher Sprache
Computer Vision