Deshalb sind kleine Sprachmodelle die Zukunft der KI

Wichtige Erkenntnisse

  • Große Unternehmen wie Open AI, Google, Microsoft und Meta investieren in SLMs.
  • SLMs gewinnen in der Branche an Popularität und sind besser positioniert als die Zukunft der KI.
  • Beispiele für SLMs sind Google Nano, Microsofts Phi-3 und Open AIs GPT-4o mini.

Mit der Einführung von Open AIs ChatGPT erlebten große Sprachmodelle (LLMs) einen Aufschwung. Seitdem haben zahlreiche Unternehmen ebenfalls ihre LLMs auf den Markt gebracht, aber immer mehr Unternehmen orientieren sich nun an kleinen Sprachmodellen (SLMs). Diese Entwicklung ist von großem Interesse, da SLMs zunehmend an Bedeutung gewinnen und als die Zukunft der Künstlichen Intelligenz angesehen werden. Doch was sind SLMs genau, und wie unterscheiden sie sich von LLMs?

Was ist ein kleines Sprachmodell?

Ein kleines Sprachmodell (SLM) ist eine Art von KI-Modell mit weniger Parametern (man kann diese als Werte betrachten, die während des Trainings im Modell erlernt werden). Ähnlich wie ihre größeren Pendants können SLMs Texte generieren und andere Aufgaben ausführen. Sie verwenden jedoch weniger Datensätze für das Training, haben weniger Parameter und benötigen weniger Rechenleistung, um trainiert und betrieben zu werden.

SLMs konzentrieren sich auf wesentliche Funktionen, und ihr geringerer Ressourcenbedarf ermöglicht den Einsatz auf verschiedenen Geräten, einschließlich mobiler Endgeräte ohne hochwertige Hardware. Ein Beispiel dafür ist Googles Nano, ein SLM, das speziell für mobile Geräte entwickelt wurde. Aufgrund seiner geringen Größe kann Nano lokal betrieben werden, sowohl mit als auch ohne Netzwerkverbindung, so das Unternehmen.

Google

Neben Nano gibt es zahlreiche andere SLMs von führenden und aufstrebenden Unternehmen im KI-Bereich. Zu den beliebten SLMs zählen Microsofts Phi-3, OpenAIs GPT-4o mini, Anthropics Claude 3 Haiku, Meta’s Llama 3 sowie Mistral AIs Mixtral 8x7B.

Es gibt auch andere Optionen, die man für LLMs halten könnte, aber tatsächlich SLMs sind. Dies gilt insbesondere, da die meisten Unternehmen den Multi-Modellansatz verfolgen und mehr als ein Sprachmodell in ihrem Portfolio anbieten, sowohl LLMs als auch SLMs. Ein Beispiel ist GPT-4, das verschiedene Modelle beinhaltet, einschließlich GPT-4, GPT-4o (Omni) und GPT-4o mini.

Kleine Sprachmodelle vs. große Sprachmodelle

Bei der Diskussion von SLMs können wir ihre großen Gegenstücke, die LLMs, nicht ignorieren. Der entscheidende Unterschied zwischen einem SLM und einem LLM ist die Modellgröße, die anhand der Parameter gemessen wird.

Zum Zeitpunkt des Verfassens dieses Textes gibt es in der KI-Branche keinen Konsens darüber, wie viele Parameter ein Modell maximal haben darf, um als SLM zu gelten, oder wie viele Parameter mindestens erforderlich sind, um als LLM zu gelten. Allerdings haben SLMs typischerweise Millionen bis einige Milliarden Parameter, während LLMs weitaus mehr besitzen, bis hin zu Billionen.

Zum Beispiel hat GPT-3, das 2020 veröffentlicht wurde, 175 Milliarden Parameter (und das GPT-4-Modell soll etwa 1,76 Billionen Parameter haben), während Microsofts Phi-3-mini, Phi-3-small und Phi-3-medium SLMs 3,8, 7 und 14 Milliarden Parameter messen.

Microsoft

Ein weiteres Unterscheidungsmerkmal zwischen SLMs und LLMs ist die Menge an Daten, die für das Training verwendet werden. SLMs werden mit kleineren Datenmengen trainiert, während LLMs große Datensätze verwenden. Diese Unterschiede beeinflussen auch die Fähigkeit des Modells, komplexe Aufgaben zu lösen.

Aufgrund der großen Datenmengen, die beim Training verwendet werden, sind LLMs besser geeignet, verschiedene Arten komplexer Aufgaben zu lösen, die fortgeschrittene Schlussfolgerungen erfordern, während SLMs besser für einfachere Aufgaben geeignet sind. Im Gegensatz zu LLMs verwenden SLMs weniger Trainingsdaten, aber die verwendeten Daten müssen von höherer Qualität sein, um viele der in LLMs gefundenen Fähigkeiten in einem kleinen Paket zu erreichen.

Warum kleine Sprachmodelle die Zukunft sind

Für die meisten Anwendungsfälle sind SLMs besser positioniert, um die Standardmodelle zu werden, die von Unternehmen und Verbrauchern zur Ausführung einer Vielzahl von Aufgaben verwendet werden. Sicher, LLMs haben ihre Vorteile und sind besser für bestimmte Anwendungsfälle geeignet, wie zum Beispiel das Lösen komplexer Aufgaben. Dennoch sind SLMs die Zukunft für die meisten Anwendungsfälle aus folgenden Gründen.

1. Geringere Trainings- und Wartungskosten

Timofeev Vladimir/Shutterstock

SLMs benötigen weniger Daten für das Training als LLMs, was sie zur besten Option für Einzelpersonen und kleine bis mittelgroße Unternehmen mit begrenztem Trainingsdatensatz und finanziellen Mitteln macht. LLMs benötigen große Mengen an Trainingsdaten und benötigen folglich enorme Rechenressourcen sowohl zum Trainieren als auch zum Ausführen.

Um dies in Perspektive zu setzen, bestätigte Sam Altman, der CEO von OpenAI, dass es mehr als 100 Millionen Dollar gekostet hat, GPT-4 zu trainieren, während er auf einer Veranstaltung am MIT sprach (laut Wired). Ein weiteres Beispiel ist Metas OPT-175B LLM. Meta sagt, dass es mit 992 NVIDIA A100 80GB GPUs trainiert wurde, die jeweils etwa 10.000 Dollar kosten, laut CNBC. Das setzt die Kosten auf etwa 9 Millionen Dollar, ohne andere Ausgaben wie Energie, Gehälter und mehr zu berücksichtigen.

Mit solchen Zahlen ist es für kleine und mittelgroße Unternehmen nicht realisierbar, ein LLM zu trainieren. Im Gegensatz dazu haben SLMs eine geringere Eintrittsbarriere hinsichtlich der Ressourcen und sind kostengünstiger in der Ausführung, weshalb mehr Unternehmen sie annehmen werden.

2. Bessere Leistung

GBJSTOCK / Shutterstock

Die Leistung ist ein weiterer Bereich, in dem SLMs LLMs aufgrund ihrer kompakten Größe überlegen sind. SLMs haben geringere Latenzzeiten und sind besser geeignet für Szenarien, in denen schnellere Antworten benötigt werden, wie beispielsweise in Echtzeitanwendungen. Ein schnelleres Antwortverhalten ist beispielsweise in sprachgesteuerten Systemen wie digitalen Assistenten von Vorteil.

Der Betrieb direkt auf dem Gerät (darauf später mehr) bedeutet außerdem, dass die Anfrage nicht zu Online-Servern reisen muss, um auf die Anfrage zu antworten, was zu schnelleren Antworten führt.

3. Genauer

ZinetroN / Shutterstock

Wenn es um generative KI geht, bleibt eines konstant: Müll rein, Müll raus. Aktuelle LLMs wurden mit großen Datensätzen aus rohen Internetdaten trainiert. Daher sind sie möglicherweise nicht in allen Situationen genau. Dies ist eines der Probleme mit ChatGPT und ähnlichen Modellen und erklärt, warum man nicht alles glauben sollte, was ein KI-Chatbot sagt. Auf der anderen Seite sind SLMs mit qualitativ hochwertigeren Daten als LLMs trainiert worden und haben daher eine höhere Genauigkeit.

SLMs können außerdem weiter verfeinert werden, indem sie auf spezifische Aufgaben oder Bereiche ausgerichtete Trainings erhalten, was zu einer besseren Genauigkeit in diesen Bereichen im Vergleich zu größeren, allgemeineren Modellen führt.

4. Kann auf dem Gerät laufen

Pete Hansen/Shutterstock

SLMs benötigen weniger Rechenleistung als LLMs und sind daher ideal für Edge-Computing-Szenarien. Sie können auf Edge-Geräten wie Smartphones und autonomen Fahrzeugen implementiert werden, die nicht über große Rechenleistung oder Ressourcen verfügen. Googles Nano-Modell kann direkt auf dem Gerät laufen, was bedeutet, dass es auch ohne aktive Internetverbindung funktioniert.

Diese Fähigkeit stellt eine Win-Win-Situation sowohl für Unternehmen als auch für Verbraucher dar. Erstens ist es ein Gewinn für die Privatsphäre, da Benutzerdaten lokal verarbeitet werden, anstatt in die Cloud gesendet zu werden, was umso wichtiger ist, da immer mehr KI in unsere Smartphones integriert wird, die nahezu jedes Detail über uns enthalten. Zudem ist es ein Vorteil für Unternehmen, da sie keine großen Server bereitstellen und betreiben müssen, um die KI-Aufgaben zu bewältigen.

SLMs gewinnen immer mehr an Bedeutung, wobei die größten Akteure der Branche wie Open AI, Google, Microsoft, Anthropic und Meta solche Modelle herausbringen. Diese Modelle sind besser geeignet für einfachere Aufgaben, was der hauptsächliche Anwendungsbereich von LLMs ist, weshalb sie die Zukunft darstellen.

Dennoch werden LLMs nicht verschwinden. Sie werden vielmehr für fortgeschrittene Anwendungen eingesetzt, die Informationen aus verschiedenen Bereichen kombinieren, um Neues zu schaffen, wie etwa in der medizinischen Forschung.

Zusammenfassung: Kleine Sprachmodelle (SLMs) gewinnen an Bedeutung und bieten Vorteile in Bezug auf Kosten, Leistung, Genauigkeit und die Möglichkeit, direkt auf Geräten zu laufen. Im Gegensatz zu großen Sprachmodellen (LLMs) brauchen sie weniger Ressourcen und sind besser für eine Vielzahl von Anwendungen geeignet. Die Zukunft der KI-Integration wird zunehmend von SLMs geprägt, während LLMs weiterhin für spezialisierte, komplexe Aufgaben eingesetzt werden.