Red Hat hat heute Red Hat AI Inference Server angekündigt, der einen bedeutenden Schritt bei der Demokratisierung von generativer KI (GenAI) in der Hybrid Cloud darstellt. Er ist Teil von Red Hat AI und basiert auf dem starken Community-Projekt vLLM, das durch die Integration der Technologien von Neural Magic weiter verbessert wurde.

Damit bietet Red Hat AI Inference Server mehr Geschwindigkeit, eine höhere Beschleunigereffizienz und eine größere Kosteneffektivität – und hilft, die Vision von Red Hat zu verwirklichen, dass jedes GenAI-Modell auf jedem KI-Beschleuniger in jeder Cloud-Umgebung laufen kann.

Unabhängig davon, ob er eigenständig oder als integrierte Komponente von Red Hat Enterprise Linux AI (RHEL AI) und Red Hat OpenShift AI eingesetzt wird, handelt es sich um eine wegweisende Plattform, die Unternehmen in die Lage versetzt, GenAI risikofrei bereitzustellen und zu skalieren.

Inferencing ist das Ausführen von KI, bei dem vortrainierte Modelle aus Daten nutzbare Ergebnisse generieren. Es ist die entscheidende Phase bei der Interaktion von Nutzern mit KI und verlangt nach schnellen und genauen Antworten. Da GenAI-Modelle immer komplexer und in immer größerem Umfang produktiv eingesetzt werden, kann das Inferencing zum Flaschenhals werden.

Es verschlingt viele Hardware-Ressourcen, beeinträchtigt die Reaktionsfähigkeit und treibt die Kosten in die Höhe. Unternehmen sind daher auf robuste Inference-Server angewiesen, wenn sie das Potenzial von KI ausschöpfen und die damit verbundenen Herausforderungen besser bewältigen wollen.

Red Hat unterstützt Unternehmen bei der Bewältigung dieser Herausforderungen mit Red Hat AI Inference Server – einer offenen Inference-Lösung, die mit Blick auf hohe Leistung entwickelt wurde und branchenführende Tools für die Komprimierung und Optimierung von Modellen mitbringt.

Dieser innovative Ansatz ermöglicht es Unternehmen, das transformative Potenzial von GenAI vollständig zu erschließen und mit kurzen Reaktionszeiten optimale Nutzererfahrungen zu bieten. Gleichzeitig profitieren sie von einer beispiellosen Freiheit bei der Auswahl von KI-Beschleunigern, Modellen und IT-Umgebungen.

Inferencing-Innovationen dank vLLM​
Red Hat AI Inference Server basiert auf dem branchenführenden vLLM-Projekt, das Mitte 2023 von der University of California in Berkeley ins Leben gerufen wurde. Das Community-Projekt hat eine Inference-Engine für LLMs entwickelt, die sich durch einen hohen Durchsatz auszeichnet und Eingaben mit langem Kontext, Multi-GPU-Modellbeschleunigung, Continuous Batching und mehr unterstützt.

Die breite Unterstützung von öffentlich verfügbaren Modellen in Verbindung mit der Tag-0-Integration von Modellen des Frontier Model Forum – darunter DeepSeek, Gemma, Llama, Mistral und Phi – sowie von offenen Reasoning-Modellen für Unternehmen wie Llama Nemotron macht vLLM zum De-facto-Standard für zukünftige Innovationen beim KI-Inferencing. Die führenden Anbieter von Frontier-Modellen setzen zunehmend auf vLLM und festigen damit dessen entscheidende Rolle bei der Gestaltung der GenAI-Zukunft.

Inference-Server mit Enterprise-Funktionalitäten​
Red Hat AI Inference Server kombiniert die Innovationen von vLLM mit den Enterprise-Fähigkeiten von Red Hat. Er ist sowohl als containerisierte Stand-alone-Lösung als auch als Teil von RHEL AI und Red Hat OpenShift AI verfügbar. In jeder Bereitstellungsumgebung liefert Red Hat Inference Server den Nutzern eine gehärtete und unterstützte Distribution von vLLM mit:

  • Intelligenten Komprimierungstools zur deutlichen Reduzierung der Größe von Basismodellen und feingetunten Modellen. Dadurch wird der Verbrauch von Rechenressourcen minimiert, während die Modellgenauigkeit beibehalten und möglicherweise auch verbessert wird.

  • Einem optimierten Modell-Repository, gehostet im Bereich von Red Hat AI bei Hugging Face. Dort besteht direkter Zugriff auf eine validierte und optimierte Sammlung von führenden KI-Modellen, die sofort einsatzbereit sind. Auf diese Weise wird die Bereitstellung von KI um das Zwei- bis Vierfache beschleunigt, ohne die Modellgenauigkeit zu beeinträchtigen.

  • Enterprise-Support von Red Hat und jahrzehntelanger Erfahrung beim Einsatz von Community-Projekten in Produktivumgebungen.

  • Third-Party-Support für eine noch flexiblere Bereitstellung. Gemäß den Third-Party-Support-Richtlinien von Red Hat kann Red Hat AI Inference Server auf Linux- und Kubernetes-Plattformen eingesetzt werden, die nicht von Red Hat stammen.

Die Vision von Red Hat: Jedes Modell auf jedem Beschleuniger in jeder Cloud​
KI bietet grenzenlose Möglichkeiten – allerdings nur, wenn sie nicht durch Infrastruktursilos eingeschränkt wird. Red Hat setzt sich daher für eine KI-Zukunft ein, in der Unternehmen beliebige KI-Modelle auf beliebigen KI-Beschleunigern in beliebigen Clouds nutzen können. Auf diese Weise entstehen außergewöhnliche und konsistente Nutzererfahrungen ohne exorbitante Kosten.

Um das wahre Potenzial ihrer KI-Investitionen zu erschließen, sind Unternehmen jedoch auf eine universelle Inference-Plattform angewiesen, die einen Standard für nahtlose und leistungsfähige KI-Erfahrungen setzt, sowohl heute als auch in den nächsten Jahren.

So wie Red Hat mit der Transformation von Linux zum Grundpfeiler einer modernen IT bereits die Basis für ein „Open Enterprise“ geschaffen hat, ist das Unternehmen nun bereit, die Zukunft des KI-Inferencing zu gestalten. Dabei setzt Red Hat auf vLLM, das das Potenzial hat, zum Dreh- und Angelpunkt für standardisiertes GenAI-Inferencing zu werden.

Das Ziel von Red Hat ist es, ein florierendes Ökosystem nicht nur rund um die vLLM-Community, sondern auch um llm-d für verteiltes Inferencing zu schaffen.

Weitere Beiträge....

Wir nutzen Cookies auf unserer Website. Einige von ihnen sind essenziell für den Betrieb der Seite, während andere uns helfen, diese Website und die Nutzererfahrung zu verbessern (Tracking Cookies). Sie können selbst entscheiden, ob Sie die Cookies zulassen möchten. Bitte beachten Sie, dass bei einer Ablehnung womöglich nicht mehr alle Funktionalitäten der Seite zur Verfügung stehen.