Mit Gemma 4 schickt Google DeepMind die vierte Generation seiner offenen Modellfamilie ins Rennen — und zwar nicht in die Cloud, sondern auf deinen eigenen Rechner. Das Besondere an Gemma 4: Das kleinste Modell läuft auf einem Smartphone, das größte zieht eine H100 leer, und alles dazwischen passt erstaunlich gut auf einen normalen Apple-Silicon-Laptop. In diesem Ratgeber bekommst du beides: einen kompakten Überblick, was Gemma 4 technisch leistet — und eine vollständige HowTo-Anleitung, wie du Gemma 4 mit LM Studio in unter zehn Minuten lokal auf einem MacBook Air M3 zum Laufen bringst.
Was ist Gemma 4?
Gemma 4 ist die im April 2026 vorgestellte vierte Generation der offenen KI-Modellfamilie von Google DeepMind. Anders als Gemini ist Gemma 4 vollständig herunterladbar, läuft lokal und steht unter der Apache-2.0-Lizenz — kommerzielle Nutzung inklusive. Die offizielle Ankündigung findest du im Google-Blog zu Gemma 4.
Der zentrale Designansatz heißt „intelligence-per-parameter“: Gemma 4 soll pro Parameter mehr Reasoning-Leistung liefern als jede vorherige Open-Source-Modellfamilie. Das Ergebnis ist eine breite Staffelung an Modellgrößen für sehr unterschiedliche Geräte.
Die Modellfamilie auf einen Blick
Gemma 4 kommt in vier Hauptvarianten:
- Gemma 4 E2B — ca. 2 Mrd. effektive Parameter, gedacht für Smartphones und Edge-Geräte.
- Gemma 4 E4B — ca. 4 Mrd. effektive Parameter, ideal für Laptops mit Apple Silicon oder Mittelklasse-GPU.
- Gemma 4 26B MoE — Mixture-of-Experts-Architektur mit 26 Mrd. Parametern, aktiv aber nur ein Bruchteil pro Token.
- Gemma 4 31B Dense — das vollständige Dense-Modell für Workstations und H100-Server.
Die kleineren Varianten lassen sich auf Endgeräten ausführen — die großen Modellgrößen entfalten ihre Stärke auf RTX-GPUs der 4000er-/5000er-Klasse und auf H100-Setups.
Was Gemma 4 von Gemma 3 und Llama 4 unterscheidet
Gegenüber Gemma 3 hat Google drei Dinge deutlich aufgebohrt: das Kontextfenster (jetzt bis 256.000 Token bei den großen Modellen), die multimodalen Fähigkeiten (Bild, Video, Audio, OCR direkt im Modell statt über separate Encoder) und vor allem die Inferenz-Geschwindigkeit. Dank Multi-Token Prediction (MTP) generiert Gemma 4 laut Google bis zu 3x schneller durch Multi-Token Prediction als der direkte Vorgänger — bei gleicher Antwortqualität.
Im Vergleich zu Llama 4 punktet Gemma 4 vor allem bei Tokens/s pro GB Speicher und in den multimodalen Leistungsbenchmarks. Llama 4 hat dagegen bei reinen Coding-Aufgaben in einigen Tests noch die Nase vorn — die Differenz zwischen Gemma 4 und Llama 4 ist allerdings deutlich kleiner als der Sprung von Gemma 3 auf 4.
Die wichtigsten Fähigkeiten von Gemma 4
Reasoning, Coding und Agentic Workflows
Gemma 4 wurde gezielt auf zwei Aufgaben getrimmt: mehrstufiges Reasoning und agentische Tool-Nutzung. Das Modell kann Folgefragen verfolgen, Zwischenergebnisse strukturieren und externe Werkzeuge wie Funktionen, Suchindizes oder APIs aufrufen. Für Entwickler:innen heißt das: Gemma 4 eignet sich nicht nur als Chatbot, sondern als Reasoning-Kern in echten Agenten — lokal, ohne Cloud-API-Kosten.
Beim Coding liefert Gemma 4 auf den gängigen Benchmarks (HumanEval, MBPP, SWE-Bench) Werte auf Augenhöhe mit deutlich größeren proprietären Modellen. Das gilt besonders für die 26B-MoE-Variante, die bei vergleichsweise niedriger Latenz Code-Aufgaben in Python, TypeScript und Go souverän löst.
Multimodal — Bild, Video, Audio und OCR
Alle Gemma-4-Modelle sind nativ multimodal. Das Modell akzeptiert Bilder, kurze Videoclips, Audio-Snippets und Text in einem gemeinsamen Tokenstrom. In der Praxis bedeutet das: Bilderkennung, Screenshot-Analyse, Transkription von Sprachnachrichten und OCR von Dokumenten passieren in einem einzigen Inferenzlauf — kein separates Vision-Backend, keine API-Kette.
Für die Bildgenerierung selbst ist Gemma 4 nicht zuständig (das übernehmen weiterhin spezialisierte Modelle wie Imagen). Für Verständnis und Beschreibung von Bildmaterial gehört Gemma 4 aber zur Spitze der offenen Modelle.
140+ Sprachen und langer Kontext
Gemma 4 wurde auf über 140 Sprachen trainiert, Deutsch inklusive. Das Modell unterstützt nativ ein langes Kontextfenster: 128.000 Token bei den kleinen Modellen, bis zu 256.000 Token bei den großen Varianten. Das reicht für mehrstündige Meeting-Transkripte, ganze Code-Repos oder umfangreiche Dokumentenbestände — alles in einem einzigen Prompt.
Welches Gemma-4-Modell passt zu welcher Hardware?
Die wichtigste Frage vor der Installation: Welches Modell läuft auf welchem Rechner? Hier eine Übersicht der Speicheranforderungen pro Variante.
Gemma-4-Modelle im Hardware-Vergleich
| Modell | Parameter (aktiv) | Speicherbedarf (Q4-Quantisierung) | Empfohlene Hardware | Use-Case |
|---|---|---|---|---|
| Gemma 4 E2B | 2 Mrd. | ca. 2,5 GB | Smartphone, Edge-Gerät, Raspberry Pi 5 | On-Device-Assistenten |
| Gemma 4 E4B | 4 Mrd. | ca. 6,3 GB | MacBook Air M3, RTX 3060, RTX 4060 | Laptop-Chatbots, lokales RAG |
| Gemma 4 26B MoE | 26 Mrd. (ca. 4 Mrd. aktiv) | ca. 16 GB | MacBook Pro M3 Max, RTX 4090, RTX 5080 | Agenten, Coding, lange Kontexte |
| Gemma 4 31B Dense | 31 Mrd. | ca. 22 GB | RTX 5090, H100, MacBook Pro M4 Max 64 GB | Workstation-Workloads, Forschung |
E2B & E4B für Smartphones und Edge-Geräte
Die beiden kleinen Modelle sind die größte Neuheit in Gemma 4. Gemma 4 E2B läuft auf modernen Smartphones (Pixel 9 Pro, Galaxy S25) mit erträglicher Geschwindigkeit. Gemma 4 E4B ist der Sweet Spot für Apple-Silicon-Laptops: 6,3 GB Download, läuft auf einem MacBook Air M3 mit 24 GB RAM komfortabel und liefert mehr als 30 Tokens/s ohne GPU-Offload-Tricks.
26B MoE & 31B Dense für Workstations
Die MoE-Variante (Mixture of Experts) aktiviert pro Token nur einen Teil ihrer Parameter — daher passt sie trotz 26 Mrd. Parameter noch auf eine RTX 4090 mit 24 GB VRAM. Die Dense-31B-Variante ist die Wahl, wenn maximale Qualität gefragt ist; sie braucht jedoch ein RTX-5090- oder H100-Setup für angenehme Geschwindigkeiten.
Speicheranforderungen und GPU-Empfehlungen
Für die meisten Leser dieses Beitrags ist Gemma 4 E4B die richtige Wahl: läuft auf jedem MacBook ab M2 mit 16 GB RAM, auf jedem Windows-PC mit RTX 3060/4060 oder besser. Wer eine RTX 4090 oder einen M3 Max im Rechner hat, greift direkt zu Gemma 4 26B MoE. Genau das machen wir im folgenden HowTo — allerdings mit der E4B-Variante.
Gemma 4 lokal installieren — HowTo für MacBook Air M3
Das HowTo basiert auf einem realen Testaufbau: MacBook Air 15″, M3, 24 GB RAM, macOS Tahoe 26.3.1.
Voraussetzungen
- Apple-Silicon-Mac (M1, M2, M3, M4) — alternativ Windows-PC mit mindestens 8 GB VRAM
- Mindestens 16 GB RAM (24 GB oder mehr empfohlen)
- macOS Sonoma 14, macOS Sequoia 15 oder macOS Tahoe 26
- Mindestens 8 GB freier SSD-Speicher
- Internetverbindung für den einmaligen Modell-Download
Schritt 1 — LM Studio installieren
Lade LM Studio von der offiziellen Website. Wähle den DMG-Build für Apple Silicon. Nach dem Download das DMG öffnen, LM Studio in den Programme-Ordner ziehen und starten. Beim ersten Start fragt macOS einmalig nach der Berechtigung — bestätige das.
Klicke auf „Get Started“, um in das Onboarding zu kommen.
Schritt 2 — Gemma 4 als erstes Modell auswählen
LM Studio erkennt deine Hardware und schlägt nach dem Onboarding direkt das passende Modell vor. Auf dem MacBook Air M3 ist das google/gemma-4-e4b mit ca. 7,9 Mrd. Parameter und 6,33 GB Download-Größe.
Klicke auf „Download gemma-4-e4b“. Der Download dauert je nach Internetanbindung zwischen drei und zehn Minuten. LM Studio zeigt Fortschritt und Speicherort an.
Schritt 3 — Modell laden und Speicher zuweisen
Nach dem Download wechselt LM Studio in den Load-Dialog. Hier legst du fest, wie das Modell in den Speicher geladen wird.
Wichtige Einstellungen:
- Kontext-Länge: 4096 belassen (ausreichend für die meisten Aufgaben; lässt sich später erhöhen)
- GPU-Offload: auf der M3 alle 42 von 42 Layern auf die GPU schieben (Default)
- Evaluate Batch Size: Default belassen
- Keep model in memory: aktiviert lassen
Klick auf „Load Model“ — die Initialisierung dauert auf dem M3 etwa fünf Sekunden.
Schritt 4 — Ersten Chat mit Gemma 4 starten
Wechsle links in das Chat-Tab. Über „Pick a model“ (⌘L) wählst du das geladene Gemma-4-E4B-Modell aus.
Probier als ersten Prompt:
Erkläre in drei Sätzen, was du am besten kannst — auf Deutsch.
Gemma 4 antwortet typischerweise innerhalb von zwei Sekunden. Die Token-Geschwindigkeit kannst du unten rechts in LM Studio einblenden lassen (Tokens/s).
Schritt 5 — Geschwindigkeit live im Video
So sieht das Ganze in Echtzeit aus — kein Cloud-Round-Trip, kein API-Key, nur lokale Inferenz.
Gemma 4 E4B im Live-Test auf dem MacBook Air M3 — Token-Geschwindigkeit ohne Cloud-Anbindung.
Auf dem Test-MacBook liefert Gemma 4 E4B konstant rund 35–45 Tokens/s. Das reicht für flüssige Chat-Antworten, lange Erklärungen und kürzere Coding-Aufgaben. Wer noch mehr Geschwindigkeit braucht, kann auf die Q3-Quantisierung wechseln (kleiner und schneller, leicht reduzierte Qualität) oder direkt die E2B-Variante laden.
Gemma 4 vs. Gemini 2.5 Pro, ChatGPT und Claude
Wo Gemma 4 die Cloud-Modelle schlägt
Drei Dinge kann Gemma 4 besser als jedes Cloud-Modell: Latenz, Datenschutz und Kosten. Lokale Inferenz hat keine Netzwerk-Latenz, deine Prompts verlassen nie das Gerät, und nach dem einmaligen Download zahlst du keinen Cent pro Token. Für viele Aufgaben — Mail-Entwürfe, Code-Snippets, Zusammenfassungen, Übersetzungen — ist Gemma 4 E4B ausreichend und schlägt Cloud-Chatbots im Workflow-Tempo deutlich.
Wo Gemini 2.5 Pro noch die Nase vorn hat
Für komplexe mehrstufige Reasoning-Ketten, hochaktuelles Weltwissen und sehr lange Generierungen ist Gemini 2.5 Pro (oder Claude Sonnet 4.6) weiterhin überlegen. Auch bei spezialisierten Aufgaben — wissenschaftliche Texte, große Refactorings, RAG über riesige Wissensbasen — ist der Sprung von Gemma 4 31B auf Gemini 2.5 Pro spürbar. Im direkten Vergleich Gemma 4 vs. Gemini 2.5 Pro lohnt sich ein Realitäts-Check: Für 80 % der täglichen KI-Aufgaben reicht das lokale Modell — für die restlichen 20 % bleibt die Cloud-API.
Datenschutz, DSGVO und Lizenzierung
Apache-2.0-Lizenz: kommerzielle Nutzung erlaubt
Gemma 4 steht unter der Apache-2.0-Lizenz. Das bedeutet: kommerzielle Nutzung, Modifikation, Weiterverteilung und Einbau in eigene Produkte sind erlaubt — auch closed-source. Eine Namensnennung ist Pflicht, aber das war es im Wesentlichen. Damit ist Gemma 4 deutlich liberaler lizenziert als Llama 4 (Meta-Lizenz mit Nutzungsgrenzen ab 700 Mio. monatlich aktiver Nutzer).
DSGVO-Vorteile durch lokale Inferenz
Wer Gemma 4 lokal betreibt, hat ein massives DSGVO-Argument: Personenbezogene Daten verlassen das Gerät nicht, es gibt keinen Auftragsverarbeitungsvertrag mit einem US-Cloud-Anbieter, kein Datenexport ins Drittland und keine Schrems-II-Diskussion. Für Anwendungsfälle mit Mandantengeheimnis, Patientendaten oder Betriebsgeheimnissen ist das oft der entscheidende Faktor — und ein guter Grund, eine API gegen eine lokale Inferenz auf einem leistungsstarken Apple-Silicon-Gerät zu tauschen.
Alternativen zu LM Studio
LM Studio ist nicht das einzige Werkzeug, um Gemma 4 auf dem eigenen Rechner zu betreiben. Welcher Leitfaden sich lohnt, hängt davon ab, wie tief du in die Konfiguration einsteigen willst — eine ausführliche Gegenüberstellung findest du in unserem Beitrag Ollama vs LM Studio.
Gemma 4 in Ollama nutzen
Ollama ist das beliebteste CLI-Werkzeug für lokale LLMs. Mit einem ollama pull gemma4:e4b und ollama run gemma4:e4b startest du das Modell in zwei Befehlen — kein GUI nötig, dafür voll skriptbar und ideal für Server- und Headless-Setups.
Wann LM Studio, wann Ollama, wann llama.cpp?
- LM Studio: Wenn du ein grafisches Chat-Fenster willst, Modelle in Ruhe vergleichen möchtest oder eine OpenAI-kompatible API als Toggle brauchst.
- Ollama: Wenn du Modelle in eigene Skripte und Apps einbinden willst, gerne auf der Kommandozeile arbeitest oder einen kleinen Server fürs Heimnetz baust.
- llama.cpp: Wenn du jedes Bit an Geschwindigkeit auspressen willst und mit Build-Skripten und Compiler-Flags vertraut bist.
Auch interessant: Unser Praxisbeitrag zum Thema DeepSeek lokal betreiben — viele der Prinzipien aus diesem Gemma-4-Leitfaden gelten dort genauso.
Häufige Fragen zu Gemma 4
Gemma 4 ist die im April 2026 veröffentlichte vierte Generation der offenen KI-Modellfamilie von Google DeepMind. Sie ist unter Apache-2.0-Lizenz frei verfügbar, multimodal und in vier Größen erhältlich (E2B, E4B, 26B MoE, 31B Dense).
Für Smartphones: E2B. Für Laptops und MacBooks ab M2: E4B. Für Workstations mit RTX 4090 oder M3 Max: 26B MoE. Für H100-Setups oder maximale Qualität: 31B Dense.
Starte mit Gemma 4 E4B. Es läuft auf fast jeder modernen Hardware, ist nur 6,3 GB groß und liefert auf dem MacBook Air M3 rund 35–45 Tokens/s.
Am einfachsten über LM Studio (siehe HowTo oben). Alternativ über Ollama mit ollama run gemma4:e4b oder direkt über llama.cpp.
Ja — sofern dein Rechner mindestens 8 GB RAM (für E2B) oder 16 GB RAM (für E4B) hat. Ein MacBook Air M3 ist ein idealer Einstieg.
Gemini ist Googles geschlossenes, in der Cloud gehostetes Spitzenmodell. Gemma 4 ist die offene, herunterladbare Modellfamilie — kleiner, lokal lauffähig und unter Apache-2.0-Lizenz frei nutzbar.
Bei einfachen bis mittleren Aufgaben (Mails, Coding, Übersetzung, Zusammenfassung) ist Gemma 4 E4B nah am Niveau von GPT-4o-mini und Claude Haiku 4.5. Für komplexes Reasoning und sehr lange Generierungen bleibt der Vorsprung der großen Cloud-Modelle bestehen.
Ja — alle Gemma-4-Modelle sind multimodal und akzeptieren Bilder, kurze Videoclips, Audio und Text in einem gemeinsamen Tokenstrom.
Ja, besonders die 26B-MoE-Variante. Auf HumanEval und SWE-Bench erreicht Gemma 4 Werte, die nah an proprietären Modellen liegen — bei deutlich niedrigerer Latenz.
Ja, Gemma 4 wurde auf mehr als 140 Sprachen trainiert, Deutsch inklusive. Die Qualität deutscher Antworten ist auf dem Niveau führender Open-Source-Modelle.
Ja. Die Apache-2.0-Lizenz erlaubt kommerzielle Nutzung, Modifikation und Weiterverteilung — auch in proprietären Produkten.
Im Sinne der Apache-2.0-Lizenz: ja. Modellgewichte, Tokenizer und Inferenz-Code sind frei verfügbar. Die Trainingsdaten selbst sind — wie bei allen Frontier-Modellen — nicht vollständig öffentlich.
Ja. Download, lokale Ausführung und kommerzielle Nutzung sind kostenlos. Es fallen keine Token- oder API-Gebühren an — du zahlst nur deinen Strom und die Hardware.
Immer dann, wenn Datenschutz, Latenz oder Kosten zählen — und wenn deine Hardware ausreicht. Für DSGVO-sensible Use-Cases ist lokale Inferenz oft die einzige saubere Lösung.
Ja, aber mit Augenmaß lesen. Gemma 4 ist Spitze unter den offenen Modellen seiner Größenklasse. Gegen Gemini 2.5 Pro oder Claude Sonnet 4.6 verliert es in komplexen Reasoning-Benchmarks.
Fazit — für wen lohnt sich Gemma 4?
Gemma 4 ist das erste offene Modell, das auf einem MacBook Air M3 ohne Tricks die Geschwindigkeit eines Cloud-Chatbots erreicht — und dabei vollständig lokal arbeitet. Wer eine Apple-Silicon-Maschine ab M2 oder einen Windows-PC mit RTX 3060 oder besser hat, sollte Gemma 4 E4B in LM Studio installieren und 30 Minuten investieren, um die typischen Workflows einmal lokal durchzuspielen. Du wirst überrascht sein, wie viele Cloud-Tools du gar nicht mehr brauchst.
Für Entwickler:innen, die Agenten oder RAG-Systeme bauen, ist Gemma 4 26B MoE einen ernsten Blick wert. Und wer Forschung, Refactoring oder Sprachverarbeitung im großen Stil betreibt, sollte sich Gemma 4 31B Dense auf einer Workstation gönnen — gerade im Vergleich zu den laufenden API-Kosten amortisiert sich die Hardware schnell.
Die Quintessenz: Open Source ist im Jahr 2026 keine Notlösung mehr, sondern in vielen Use-Cases die rationalere Wahl — schneller, datenschutzfreundlicher, kostengünstiger. Gemma 4 macht den Wechsel so einfach, dass es kaum noch eine Ausrede gibt, es nicht zu probieren.
Stand: 19.05.2026 — Tests durchgeführt auf MacBook Air 15″ M3 (24 GB RAM, macOS Tahoe 26.3.1) mit LM Studio und Gemma 4 E4B.












Das muss man gelesen haben?
Behalten Sie ihr Wissen nicht für sich und teilen Sie diesen Beitrag.