Der Unified-Memory-Mythos auf dem Prüfstand
Stell dir vor, du scrollst durch Reddit, X oder einen beliebigen Discord-Server. Irgendwo, garantiert, taucht sie auf: „Mac schlägt alles bei großen Modellen — Unified Memory kennt kein VRAM-Limit.“ Sieben Wörter. Klingt wie die endgültige Antwort auf eine Frage, über die Hardware-Enthusiasten seit Jahren streiten. Klingt modern, klingt provokant, klingt nach dem einen Tipp, den du gebraucht hättest, bevor du dein Geld in eine RTX 5090 gesteckt hast.
Das Problem: Die These stimmt. Aber eben nur zur Hälfte.
Und gerade bei KI-Hardware sind halbe Wahrheiten gefährlicher als offensichtliche Fehler, weil sie überzeugend genug klingen, um echte Kaufentscheidungen zu beeinflussen. Wir bei AIFactum zerreißen heute genau diese These. Nicht weil wir Anti-Apple sind. Sondern weil wir der Meinung sind, dass du als Leser die vollständige Wahrheit verdienst, inklusive der unbequemen Details, die in viralen Posts gern weggelassen werden.
Was steckt hinter Unified Memory und warum ist es für LLMs relevant?
Um die Debatte sauber zu führen, muss zuerst die Architektur klar sein. Klassische PC-Systeme trennen Arbeitsspeicher (RAM) und Grafikspeicher (VRAM) strikt voneinander. Die GPU greift auf ihren eigenen dedizierten Speicherbereich zu, schnell, aber begrenzt. Eine RTX 5090 bringt 32 GB VRAM mit. Mehr ist nicht drin. Wächst das Modell über diese Grenze hinaus, muss ausgelagert, aufgeteilt oder auf mehrere GPUs verteilt werden. Das kostet Aufwand, Geld und Performance.
Apple Silicon funktioniert anders. Bei M-Chips teilen sich CPU, GPU und weitere Komponenten einen gemeinsamen Speicherpool, das sogenannte Unified Memory. Es gibt keine starre Trennung mehr. Was das OS nicht braucht, steht potenziell dem KI-Workload zur Verfügung. Klingt erstmal nach einem klaren Vorteil und das ist es auch, aber unter bestimmten Bedingungen.
Warum ist das für große Sprachmodelle so relevant? Weil LLMs extrem speicherhungrig sind. Schon bei der reinen Inferenz müssen Modellgewichte, Zwischendaten und der sogenannte KV-Cache vollständig im Speicher liegen. Als grobe Orientierung gilt: Ein Modell in 16-Bit benötigt rund 2 GB Speicher pro Milliarde Parameter. Ein 70B-Modell, also eines wie Llama 3 70B, schlägt damit mit etwa 140 GB zu Buche. Selbst mit aggressiver 4-Bit-Quantisierung und der Formel M = (P × (Q/8)) × 1.2 landen wir noch bei ungefähr 42 GB, bevor praktische Reserven für Caching und Overhead eingerechnet werden.
Genau an dieser Stelle verliert eine einzelne Consumer-GPU den Kampf. 32 GB VRAM sind für so ein Modell schlicht zu wenig. Ein Mac mit 64, 96 oder 128 GB Unified Memory dagegen kann das Modell komplett laden, ohne Tricks, ohne Auslagerung, ohne Multi-GPU-Aufwand. Das ist kein Marketing-Bluff, das ist echter Architekturvorteil.
Der Denkfehler: Vom Architekturvorteil zum Mythos
Aber jetzt kommt der entscheidende Moment, an dem aus einem validen technischen Vorteil ein irreführender Einzeiler wird.
„Kein VRAM-Limit“ suggeriert grenzenlose Kapazität. Die Realität ist simpler und nüchterner: Das Limit ist lediglich verschoben. Nicht mehr separater VRAM ist der Flaschenhals, sondern der gesamte verfügbare Unified Memory und der ist sehr wohl endlich. Ein Mac mit 48 GB Unified Memory hat 48 GB. Davon beansprucht das Betriebssystem einen Teil. Dazu kommen Framework-Reservierungen, der wachsende KV-Cache bei längeren Konversationen und der Laufzeit-Overhead verschiedener Inference-Stacks.
Noch kritischer: In der Praxis steht nicht der gesamte Unified Memory vollständig für GPU-lastige Workloads zur Verfügung. Wer Systemstabilität priorisiert und das sollte man, rechnet damit, dass effektiv nur rund 75 Prozent des Gesamtspeichers für GPU-nahe Aufgaben nutzbar sind. Bei einem Mac mit 128 GB bedeutet das in der Praxis etwa 96 GB für KI-Workloads. Immer noch viel. Aber eben nicht unendlich.
Wer also behauptet, ein Mac kenne bei großen Modellen „kein Speicherlimit“, beschreibt keinen physikalischen Ausnahmezustand. Er beschreibt schlicht eine andere Architektur, mit echten Vorteilen, aber auch klaren Grenzen.
Wo Apple Silicon in der Praxis glänzt
Das Bild wäre unvollständig, würden wir es dabei belassen. Denn die Stärken von Apple Silicon für lokale KI-Inferenz sind real und in den letzten Monaten deutlich gewachsen.
Aktuelle Forschung zu nativer LLM- und MLLM-Inferenz auf Apple Silicon zeigt, dass optimierte Frameworks wie vllm-mlx die Architektur zunehmend besser ausreizen. Auf einem Apple M4 Max mit 128 GB Unified Memory wurden bis zu 525 Tokens pro Sekunde bei Textmodellen gemessen, mit deutlichen Skalierungseffekten bei parallelen Anfragen. Für multimodale Szenarien konnten durch Content-basierte Prefix-Caches massive Latenzgewinne erzielt werden. Das ist kein Bastler-Niveau mehr. Das ist ernstzunehmende lokale Inferenz.
Dazu kommt ein Faktor, der in technischen Vergleichen oft unterbewertet wird: Energieeffizienz. Apple-Silicon-Systeme der M3- und M4-Generation bewegen sich unter Last grob im Bereich von 40 bis 80 Watt. Eine RTX 4090 zieht im Vergleich dazu bis zu 450 Watt und eine RTX 5090 noch viel mehr. Wer über Stunden hinweg lokal inferiert, spürt diesen Unterschied nicht nur auf der Stromrechnung, sondern auch bei Lautstärke, Wärmeentwicklung und der schieren Alltagstauglichkeit im Büro oder Home Office.
Hinzu kommt, was man den „Single-Machine-Vorteil“ nennen könnte: Große Modelle, die auf einer einzelnen Consumer-GPU schlicht nicht komplett in den VRAM passen, laufen auf einem gut ausgestatteten Mac tatsächlich vollständig, ohne Sharding, ohne komplizierte Multi-GPU-Setups, ohne externe Inferenz-Server. Für Entwickler, Content Creator, Agent-Workflows und private KI-Setups ist das oft wichtiger als das letzte Quäntchen Rohleistung.
Wo NVIDIA klar die Nase vorn hat
Trotzdem wäre es falsch, daraus einen universellen Sieg für Apple Silicon abzuleiten. Sobald ein Modell vollständig in den VRAM einer starken dedizierten GPU passt, verschiebt sich das Bild deutlich zugunsten von NVIDIA.
Der Kerngrund: Speicherbandbreite. Autoregressive Textgenerierung ist in erster Linie bandwidth-limitiert, die Geschwindigkeit der Token-Generierung hängt stark davon ab, wie schnell Gewichte aus dem Speicher gelesen werden können. Ein M4 Pro bewegt sich bei rund 273 GB/s. Eine Profi-GPU wie die RTX 8000 bietet dagegen etwa 672 GB/s. Dieser Unterschied schlägt sich in vielen praktischen Szenarien direkt auf die Inferenzgeschwindigkeit nieder.
Softwareseitig ist das CUDA-Ökosystem weiterhin tiefer und breiter optimiert als Apples MLX oder MPS-Backend. Wer ernsthaft trainieren, feintunen oder produktive Hochdurchsatz-Infrastruktur betreiben will, findet im NVIDIA-Universum reifere Tools, bessere Framework-Unterstützung und eine größere Community mit praxiserprobten Lösungen.
Besonders wichtig ist auch die Unterscheidung zwischen Inferenz und Training. Während für Inferenz grob 2 GB pro Milliarde Parameter in 16-Bit ausreichen, sind es für volles Fine-Tuning rund 16 GB pro Milliarde Parameter. Training ist eine völlig andere Liga. Wer aus der Unified-Memory-Debatte ableitet, Apple Silicon „schlägt alles“, auch beim Training großer Modelle, vermischt zwei grundlegend verschiedene Workloads.
Die ehrliche Entscheidungshilfe
Statt eines Glaubenskriegs braucht es eine nüchterne Einordnung:
Mac und Apple Silicon sind die bessere Wahl, wenn du große Modelle lokal auf einer einzigen, leisen und energieeffizienten Maschine betreiben willst, besonders dann, wenn das Modell in keine einzelne Consumer-GPU mit 24 oder 32 GB VRAM passt und du keine Multi-GPU-Lösung aufbauen möchtest.
NVIDIA und dedizierter VRAM sind die bessere Wahl, wenn dein Modell komplett in den Grafikspeicher passt, du maximale Inferenzgeschwindigkeit brauchst, das ausgereifte CUDA-Ökosystem benötigst oder ernsthafte Trainings-Workloads auf dem Plan stehen.
Was nie hilft: ein viraler Einzeiler, der eine Kaufentscheidung im dreistelligen oder vierstelligen Euro-Bereich auf einen einzigen Architekturvorteil reduziert.
Fazit: Unified Memory ist real, aber kein Freifahrtschein
Halten wir fest, was nach dieser Analyse bleibt. Unified Memory ist kein Mythos. Er ist ein echter, messbarer Architekturvorteil, speziell für lokale Inferenz großer Modelle auf einer einzelnen Maschine. Apple Silicon hat in der LLM-Community zu Recht Aufmerksamkeit bekommen, weil es ein reales Problem löst: das VRAM-Engpass-Problem klassischer Consumer-GPUs.
Aber: Unified Memory ist kein physikalisches Wunder, das Speicherlimits abschafft. Es verschiebt den Flaschenhals, entschärft ihn in bestimmten Szenarien erheblich und stößt dann an seine eigenen, sehr realen Grenzen. Wer 128 GB Unified Memory hat, hat 128 GB. Nicht mehr.
Für uns ist die eigentliche Botschaft deshalb diese: Lass dich nicht von der lautesten These leiten, sondern vom realen Use Case. Was ist deine Modellgröße? Welche Quantisierung planst du? Wie wichtig sind dir Stromverbrauch, Lautstärke und Wartungsaufwand gegenüber roher Inferenzgeschwindigkeit? Was ist dein Budget, nicht nur für die Hardware, sondern für den Betrieb über Monate?
Wer diese Fragen ehrlich beantwortet, trifft eine bessere Entscheidung als jeder, der einem viralen Einzeiler folgt. Apple Silicon ist eine ernstzunehmende Plattform für lokale KI geworden. NVIDIA bleibt die erste Wahl, wo Geschwindigkeit und Ökosystem zählen. Beide Aussagen sind wahr. Gleichzeitig. Und genau das ist der Punkt.
Hinweis: Dieser Artikel enthält Inhalte, die mit Unterstützung eines KI-Systems erstellt wurden. Die Inhalte wurden anschließend von einem Menschen mit Hinweis: Dieser Artikel enthält Inhalte, die mit Unterstützung eines KI-Systems erstellt wurden. Die Inhalte wurden anschließend von einem Menschen mit ❤️ überprüft und bearbeitet, um Qualität und Richtigkeit sicherzustellen.
