LLMs und ihre Größen

Bedeutung von 1.5B, 7B, 14B bis 671B und technische Anforderungen

Große Sprachmodelle (LLMs, Large Language Models) haben in den letzten Jahren enorme Fortschritte gemacht. Doch was bedeuten Zahlen wie 1.5B, 7B oder gar 671B genau? Diese Zahlen stehen für die Anzahl der Parameter eines Modells, also der gewichteten Verbindungen zwischen den Neuronen. Je größer die Anzahl der Parameter, desto leistungsfähiger ist das Modell – aber desto höher sind auch die Hardwareanforderungen. In diesem Artikel beleuchten wir die Skalierung von LLMs und die technischen Voraussetzungen für den Betrieb.

Was bedeutet die Anzahl der Parameter?

Die Größe eines LLMs wird in Milliarden Parametern (B für Billion) angegeben. Hier einige Beispiele:

ModellgrößeParameteranzahlBeispielhafte Modelle
1.5B1,5 MilliardenGPT-2 Medium, LLaMA-1 1.3B
7B7 MilliardenLLaMA-2 7B, Mistral-7B
14B14 MilliardenFalcon-14B, LLaMA-1 13B
32B32 MilliardenGPT-3 (teilweise)
70B70 MilliardenLLaMA-2 70B, GPT-3.5
175B175 MilliardenGPT-3
540B540 MilliardenPaLM-540B (Google)
671B671 MilliardenMegatron-Turing NLG

Je mehr Parameter ein Modell hat, desto besser kann es komplexe Muster erkennen und tiefere Zusammenhänge verstehen. Allerdings steigen mit der Modellgröße auch die Anforderungen an Speicher und Rechenleistung.

Technische Voraussetzungen für verschiedene Modellgrößen

1. Speicherbedarf

Ein LLM benötigt sowohl Arbeitsspeicher (RAM/VRAM) als auch Speicherplatz für die Modellgewichte. Die Faustregel: Ein Parameter benötigt etwa 2 Byte (FP16) oder 4 Byte (FP32).

ModellgrößeRAM-Anforderung (FP16)RAM-Anforderung (FP32)
1.5B3 GB6 GB
7B14 GB28 GB
14B28 GB56 GB
32B64 GB128 GB
70B140 GB280 GB
175B350 GB700 GB
540B1,08 TB2,16 TB
671B1,34 TB2,68 TB

Da GPUs oft eine begrenzte VRAM-Kapazität haben, wird bei großen Modellen auf quantisierte Formate (z. B. INT8, INT4) gesetzt, um den Speicherbedarf zu reduzieren.

2. Rechenleistung (GPU vs. CPU)

  • Kleine Modelle (1.5B – 7B) können auf leistungsfähigen Consumer-GPUs wie einer RTX 3090 (24 GB) oder einer RTX 4090 (24 GB) ausgeführt werden.
  • Mittelgroße Modelle (14B – 32B) erfordern High-End-GPUs wie A100 (40 GB) oder H100 (80 GB) oder Multi-GPU-Setups.
  • Große Modelle (70B+) benötigen Clusterlösungen mit mehreren H100/A100 GPUs oder TPU-Systeme, da der Speicherbedarf schnell über 100 GB steigt.

3. Skalierbarkeit und Infrastruktur

Für den Betrieb großer Modelle setzen Unternehmen auf:

  • GPU-Cluster mit vernetztem Speicher (NVLink, InfiniBand)
  • TPUs (Tensor Processing Units) für spezialisierte KI-Beschleunigung
  • Cloud-Lösungen von Anbietern wie AWS, Google Cloud, Azure, um die hohen Anforderungen ohne eigene Hardware zu bewältigen

2. Rechenleistung (GPU vs. CPU in Servern)

  • Kleine Modelle (1.5B – 7B) können auf leistungsfähigen Consumer-GPUs wie einer RTX 3090 (24 GB) oder einer RTX 4090 (24 GB) ausgeführt werden.
  • Mittelgroße Modelle (14B – 32B) erfordern High-End-GPUs wie A100 (40 GB) oder H100 (80 GB) oder Multi-GPU-Setups.
  • Große Modelle (70B+) benötigen Clusterlösungen mit mehreren H100/A100 GPUs oder TPU-Systeme, da der Speicherbedarf schnell über 100 GB steigt.

GPU-Anforderungen in einem Server-Setup

In Servern werden spezialisierte GPUs mit hoher Speicherbandbreite und Skalierbarkeit eingesetzt. Diese sind oft über NVLink oder InfiniBand miteinander verbunden, um eine hohe Datenübertragungsgeschwindigkeit zwischen GPUs zu gewährleisten.

GPU-ModellVRAMSpeicherbandbreiteGeeignet für Modelle
RTX 409024 GB1 TB/s1.5B – 7B Modelle
A100 40GB40 GB1.6 TB/s7B – 32B Modelle
A100 80GB80 GB2.0 TB/s32B – 70B Modelle
H100 80GB80 GB3.35 TB/s70B+ Modelle
H100 120GB120 GB3.35 TB/s100B+ Modelle
TPU v4128 GB>3 TB/s100B+ Modelle

Multi-GPU-Setups

Bei Modellen mit mehr als 32B Parametern sind einzelne GPUs oft nicht mehr ausreichend. Stattdessen werden Multi-GPU-Setups mit paralleler Verarbeitung verwendet:

  • Data Parallelism: Mehrere GPUs verarbeiten Teile der Eingabedaten parallel.
  • Model Parallelism: Das Modell selbst wird auf mehrere GPUs verteilt, um große Parameter-Sätze zu bewältigen.
  • Pipeline Parallelism: Das Modell wird schichtweise auf mehrere GPUs verteilt, sodass verschiedene Schichten in einer Pipeline abgearbeitet werden können.

3. Skalierbarkeit und Infrastruktur

Für den Betrieb großer Modelle setzen Unternehmen auf:

  • GPU-Cluster mit vernetztem Speicher (NVLink, InfiniBand)
  • TPUs (Tensor Processing Units) für spezialisierte KI-Beschleunigung
  • Cloud-Lösungen von Anbietern wie AWS, Google Cloud, Azure, um die hohen Anforderungen ohne eigene Hardware zu bewältigen

Fazit

Die Größe eines LLMs beeinflusst sowohl seine Leistungsfähigkeit als auch die Hardwareanforderungen erheblich. Während kleinere Modelle auf handelsüblichen GPUs ausgeführt werden können, benötigen große Modelle spezialisierte Hardware oder Cloud-Ressourcen. Entwickler und Unternehmen müssen daher abwägen, welches Modell für ihre Anwendungsfälle geeignet ist – je nach verfügbarem Budget und Infrastruktur. Server-Setups für LLMs erfordern optimierte GPUs mit hoher Speicherbandbreite sowie effektive Parallelisierungsstrategien für effizientes Training und Inferenz.

Über Raffael Haberland 63 Artikel
Ich habe Informatik an der Technischen Universität Darmstadt sowie Wirtschaftswissenschaften an der Universität Heidelberg studiert. Derzeit bin ich als Testmanager in der Testautomation und Softwareentwicklung im Telekommunikationssektor tätig. Mein Fokus liegt auf der Bewertung von Prototypen sowie der Qualitätssicherung und Optimierung von Prozessen, insbesondere durch die Entwicklung und Implementierung automatisierter Tests.

Ersten Kommentar schreiben

Antworten

Deine E-Mail-Adresse wird nicht veröffentlicht.


*