Gemma 4 ist die im April 2026 veröffentlichte vierte Generation der offenen KI-Modellfamilie von Google DeepMind. Sie ist unter Apache-2.0-Lizenz frei verfügbar, multimodal und in vier Größen erhältlich (E2B, E4B, 26B MoE, 31B Dense).

KI & Automation

Gemma 4 lokal nutzen: Anleitung mit LM Studio (MacBook M3)

Q: Welches Gemma-4-Modell sollte ich wählen?

Für Smartphones: E2B. Für Laptops und MacBooks ab M2: E4B. Für Workstations mit RTX 4090 oder M3 Max: 26B MoE. Für H100-Setups oder maximale Qualität: 31B Dense.

Q: Mit welchem Gemma-4-Modell sollte ich beginnen?

Starte mit Gemma 4 E4B. Es läuft auf fast jeder modernen Hardware, ist nur 6,3 GB groß und liefert auf dem MacBook Air M3 rund 35–45 Tokens/s.

Q: Wie führe ich Gemma 4 lokal aus?

Am einfachsten über LM Studio (siehe HowTo oben). Alternativ über Ollama mit ollama run gemma4:e4b oder direkt über llama.cpp.

Q: Kann ich Gemma 4 auf meinem Computer verwenden?

Ja — sofern dein Rechner mindestens 8 GB RAM (für E2B) oder 16 GB RAM (für E4B) hat. Ein MacBook Air M3 ist ein idealer Einstieg.

Q: Was ist der Unterschied zwischen Gemma 4 und Gemini?

Gemini ist Googles geschlossenes, in der Cloud gehostetes Spitzenmodell. Gemma 4 ist die offene, herunterladbare Modellfamilie — kleiner, lokal lauffähig und unter Apache-2.0-Lizenz frei nutzbar.

Q: Wie schneidet Gemma 4 im Vergleich zu ChatGPT und Claude ab?

Bei einfachen bis mittleren Aufgaben (Mails, Coding, Übersetzung, Zusammenfassung) ist Gemma 4 E4B nah am Niveau von GPT-4o-mini und Claude Haiku 4.5. Für komplexes Reasoning und sehr lange Generierungen bleibt der Vorsprung der großen Cloud-Modelle bestehen.

Q: Kann Gemma 4 Bilder und Videos analysieren?

Ja — alle Gemma-4-Modelle sind multimodal und akzeptieren Bilder, kurze Videoclips, Audio und Text in einem gemeinsamen Tokenstrom.

Q: Eignet sich Gemma 4 für Coding?

Ja, besonders die 26B-MoE-Variante. Auf HumanEval und SWE-Bench erreicht Gemma 4 Werte, die nah an proprietären Modellen liegen — bei deutlich niedrigerer Latenz.

Q: Unterstützt Gemma 4 die deutsche Sprache?

Ja, Gemma 4 wurde auf mehr als 140 Sprachen trainiert, Deutsch inklusive. Die Qualität deutscher Antworten ist auf dem Niveau führender Open-Source-Modelle.

Mit Gemma 4 schickt Google DeepMind die vierte Generation seiner offenen Modellfamilie ins Rennen — und zwar nicht in die Cloud, sondern auf deinen eigenen Rechner.

Hendrik Schrandt
19. Mai 2026 ·11 Min. Lesezeit

Mit Gemma 4 schickt Google DeepMind die vierte Generation seiner offenen Modellfamilie ins Rennen — und zwar nicht in die Cloud, sondern auf deinen eigenen Rechner. Das Besondere an Gemma 4: Das kleinste Modell läuft auf einem Smartphone, das größte zieht eine H100 leer, und alles dazwischen passt erstaunlich gut auf einen normalen Apple-Silicon-Laptop. In diesem Ratgeber bekommst du beides: einen kompakten Überblick, was Gemma 4 technisch leistet — und eine vollständige HowTo-Anleitung, wie du Gemma 4 mit LM Studio in unter zehn Minuten lokal auf einem MacBook Air M3 zum Laufen bringst.

Inhalt im Überblick

Was ist Gemma 4?
Die wichtigsten Fähigkeiten
Welches Modell passt zu welcher Hardware?
HowTo: Gemma 4 auf dem MacBook Air M3 installieren
Gemma 4 vs. Gemini, ChatGPT und Claude
Datenschutz, DSGVO und Lizenz
Alternativen zu LM Studio
FAQ — Häufige Fragen zu Gemma 4
Fazit

Was ist Gemma 4?

Gemma 4 ist die im April 2026 vorgestellte vierte Generation der offenen KI-Modellfamilie von Google DeepMind. Anders als Gemini ist Gemma 4 vollständig herunterladbar, läuft lokal und steht unter der Apache-2.0-Lizenz — kommerzielle Nutzung inklusive. Die offizielle Ankündigung findest du im Google-Blog zu Gemma 4.

Der zentrale Designansatz heißt „intelligence-per-parameter“: Gemma 4 soll pro Parameter mehr Reasoning-Leistung liefern als jede vorherige Open-Source-Modellfamilie. Das Ergebnis ist eine breite Staffelung an Modellgrößen für sehr unterschiedliche Geräte.

Die Modellfamilie auf einen Blick

Gemma 4 kommt in vier Hauptvarianten:

Gemma 4 E2B — ca. 2 Mrd. effektive Parameter, gedacht für Smartphones und Edge-Geräte.
Gemma 4 E4B — ca. 4 Mrd. effektive Parameter, ideal für Laptops mit Apple Silicon oder Mittelklasse-GPU.
Gemma 4 26B MoE — Mixture-of-Experts-Architektur mit 26 Mrd. Parametern, aktiv aber nur ein Bruchteil pro Token.
Gemma 4 31B Dense — das vollständige Dense-Modell für Workstations und H100-Server.

Die kleineren Varianten lassen sich auf Endgeräten ausführen — die großen Modellgrößen entfalten ihre Stärke auf RTX-GPUs der 4000er-/5000er-Klasse und auf H100-Setups.

Was Gemma 4 von Gemma 3 und Llama 4 unterscheidet

Gegenüber Gemma 3 hat Google drei Dinge deutlich aufgebohrt: das Kontextfenster (jetzt bis 256.000 Token bei den großen Modellen), die multimodalen Fähigkeiten (Bild, Video, Audio, OCR direkt im Modell statt über separate Encoder) und vor allem die Inferenz-Geschwindigkeit. Dank Multi-Token Prediction (MTP) generiert Gemma 4 laut Google bis zu 3x schneller durch Multi-Token Prediction als der direkte Vorgänger — bei gleicher Antwortqualität.

Im Vergleich zu Llama 4 punktet Gemma 4 vor allem bei Tokens/s pro GB Speicher und in den multimodalen Leistungsbenchmarks. Llama 4 hat dagegen bei reinen Coding-Aufgaben in einigen Tests noch die Nase vorn — die Differenz zwischen Gemma 4 und Llama 4 ist allerdings deutlich kleiner als der Sprung von Gemma 3 auf 4.

Die wichtigsten Fähigkeiten von Gemma 4

Reasoning, Coding und Agentic Workflows

Gemma 4 wurde gezielt auf zwei Aufgaben getrimmt: mehrstufiges Reasoning und agentische Tool-Nutzung. Das Modell kann Folgefragen verfolgen, Zwischenergebnisse strukturieren und externe Werkzeuge wie Funktionen, Suchindizes oder APIs aufrufen. Für Entwickler:innen heißt das: Gemma 4 eignet sich nicht nur als Chatbot, sondern als Reasoning-Kern in echten Agenten — lokal, ohne Cloud-API-Kosten.

Beim Coding liefert Gemma 4 auf den gängigen Benchmarks (HumanEval, MBPP, SWE-Bench) Werte auf Augenhöhe mit deutlich größeren proprietären Modellen. Das gilt besonders für die 26B-MoE-Variante, die bei vergleichsweise niedriger Latenz Code-Aufgaben in Python, TypeScript und Go souverän löst.

Multimodal — Bild, Video, Audio und OCR

Alle Gemma-4-Modelle sind nativ multimodal. Das Modell akzeptiert Bilder, kurze Videoclips, Audio-Snippets und Text in einem gemeinsamen Tokenstrom. In der Praxis bedeutet das: Bilderkennung, Screenshot-Analyse, Transkription von Sprachnachrichten und OCR von Dokumenten passieren in einem einzigen Inferenzlauf — kein separates Vision-Backend, keine API-Kette.

Für die Bildgenerierung selbst ist Gemma 4 nicht zuständig (das übernehmen weiterhin spezialisierte Modelle wie Imagen). Für Verständnis und Beschreibung von Bildmaterial gehört Gemma 4 aber zur Spitze der offenen Modelle.

140+ Sprachen und langer Kontext

Gemma 4 wurde auf über 140 Sprachen trainiert, Deutsch inklusive. Das Modell unterstützt nativ ein langes Kontextfenster: 128.000 Token bei den kleinen Modellen, bis zu 256.000 Token bei den großen Varianten. Das reicht für mehrstündige Meeting-Transkripte, ganze Code-Repos oder umfangreiche Dokumentenbestände — alles in einem einzigen Prompt.

Welches Gemma-4-Modell passt zu welcher Hardware?

Die wichtigste Frage vor der Installation: Welches Modell läuft auf welchem Rechner? Hier eine Übersicht der Speicheranforderungen pro Variante.

Gemma-4-Modelle im Hardware-Vergleich

Modell	Parameter (aktiv)	Speicherbedarf (Q4-Quantisierung)	Empfohlene Hardware	Use-Case
Gemma 4 E2B	2 Mrd.	ca. 2,5 GB	Smartphone, Edge-Gerät, Raspberry Pi 5	On-Device-Assistenten
Gemma 4 E4B	4 Mrd.	ca. 6,3 GB	MacBook Air M3, RTX 3060, RTX 4060	Laptop-Chatbots, lokales RAG
Gemma 4 26B MoE	26 Mrd. (ca. 4 Mrd. aktiv)	ca. 16 GB	MacBook Pro M3 Max, RTX 4090, RTX 5080	Agenten, Coding, lange Kontexte
Gemma 4 31B Dense	31 Mrd.	ca. 22 GB	RTX 5090, H100, MacBook Pro M4 Max 64 GB	Workstation-Workloads, Forschung

E2B & E4B für Smartphones und Edge-Geräte

Die beiden kleinen Modelle sind die größte Neuheit in Gemma 4. Gemma 4 E2B läuft auf modernen Smartphones (Pixel 9 Pro, Galaxy S25) mit erträglicher Geschwindigkeit. Gemma 4 E4B ist der Sweet Spot für Apple-Silicon-Laptops: 6,3 GB Download, läuft auf einem MacBook Air M3 mit 24 GB RAM komfortabel und liefert mehr als 30 Tokens/s ohne GPU-Offload-Tricks.

26B MoE & 31B Dense für Workstations

Die MoE-Variante (Mixture of Experts) aktiviert pro Token nur einen Teil ihrer Parameter — daher passt sie trotz 26 Mrd. Parameter noch auf eine RTX 4090 mit 24 GB VRAM. Die Dense-31B-Variante ist die Wahl, wenn maximale Qualität gefragt ist; sie braucht jedoch ein RTX-5090- oder H100-Setup für angenehme Geschwindigkeiten.

Speicheranforderungen und GPU-Empfehlungen

Für die meisten Leser dieses Beitrags ist Gemma 4 E4B die richtige Wahl: läuft auf jedem MacBook ab M2 mit 16 GB RAM, auf jedem Windows-PC mit RTX 3060/4060 oder besser. Wer eine RTX 4090 oder einen M3 Max im Rechner hat, greift direkt zu Gemma 4 26B MoE. Genau das machen wir im folgenden HowTo — allerdings mit der E4B-Variante.

Gemma 4 lokal installieren — HowTo für MacBook Air M3

Das HowTo basiert auf einem realen Testaufbau: MacBook Air 15″, M3, 24 GB RAM, macOS Tahoe 26.3.1.

Voraussetzungen

Apple-Silicon-Mac (M1, M2, M3, M4) — alternativ Windows-PC mit mindestens 8 GB VRAM
Mindestens 16 GB RAM (24 GB oder mehr empfohlen)
macOS Sonoma 14, macOS Sequoia 15 oder macOS Tahoe 26
Mindestens 8 GB freier SSD-Speicher
Internetverbindung für den einmaligen Modell-Download

Schritt 1 — LM Studio installieren

Lade LM Studio von der offiziellen Website. Wähle den DMG-Build für Apple Silicon. Nach dem Download das DMG öffnen, LM Studio in den Programme-Ordner ziehen und starten. Beim ersten Start fragt macOS einmalig nach der Berechtigung — bestätige das.

Klicke auf „Get Started“, um in das Onboarding zu kommen.

Schritt 2 — Gemma 4 als erstes Modell auswählen

LM Studio erkennt deine Hardware und schlägt nach dem Onboarding direkt das passende Modell vor. Auf dem MacBook Air M3 ist das google/gemma-4-e4b mit ca. 7,9 Mrd. Parameter und 6,33 GB Download-Größe.

Klicke auf „Download gemma-4-e4b“. Der Download dauert je nach Internetanbindung zwischen drei und zehn Minuten. LM Studio zeigt Fortschritt und Speicherort an.

Schritt 3 — Modell laden und Speicher zuweisen

Nach dem Download wechselt LM Studio in den Load-Dialog. Hier legst du fest, wie das Modell in den Speicher geladen wird.

Wichtige Einstellungen:

Kontext-Länge: 4096 belassen (ausreichend für die meisten Aufgaben; lässt sich später erhöhen)
GPU-Offload: auf der M3 alle 42 von 42 Layern auf die GPU schieben (Default)
Evaluate Batch Size: Default belassen
Keep model in memory: aktiviert lassen

Klick auf „Load Model“ — die Initialisierung dauert auf dem M3 etwa fünf Sekunden.

Schritt 4 — Ersten Chat mit Gemma 4 starten

Wechsle links in das Chat-Tab. Über „Pick a model“ (⌘L) wählst du das geladene Gemma-4-E4B-Modell aus.

Probier als ersten Prompt:

Erkläre in drei Sätzen, was du am besten kannst — auf Deutsch.

Gemma 4 antwortet typischerweise innerhalb von zwei Sekunden. Die Token-Geschwindigkeit kannst du unten rechts in LM Studio einblenden lassen (Tokens/s).

Schritt 5 — Geschwindigkeit live im Video

So sieht das Ganze in Echtzeit aus — kein Cloud-Round-Trip, kein API-Key, nur lokale Inferenz.

Gemma 4 E4B im Live-Test auf dem MacBook Air M3 — Token-Geschwindigkeit ohne Cloud-Anbindung.

Auf dem Test-MacBook liefert Gemma 4 E4B konstant rund 35–45 Tokens/s. Das reicht für flüssige Chat-Antworten, lange Erklärungen und kürzere Coding-Aufgaben. Wer noch mehr Geschwindigkeit braucht, kann auf die Q3-Quantisierung wechseln (kleiner und schneller, leicht reduzierte Qualität) oder direkt die E2B-Variante laden.

Gemma 4 vs. Gemini 2.5 Pro, ChatGPT und Claude

Wo Gemma 4 die Cloud-Modelle schlägt

Drei Dinge kann Gemma 4 besser als jedes Cloud-Modell: Latenz, Datenschutz und Kosten. Lokale Inferenz hat keine Netzwerk-Latenz, deine Prompts verlassen nie das Gerät, und nach dem einmaligen Download zahlst du keinen Cent pro Token. Für viele Aufgaben — Mail-Entwürfe, Code-Snippets, Zusammenfassungen, Übersetzungen — ist Gemma 4 E4B ausreichend und schlägt Cloud-Chatbots im Workflow-Tempo deutlich.

Wo Gemini 2.5 Pro noch die Nase vorn hat

Für komplexe mehrstufige Reasoning-Ketten, hochaktuelles Weltwissen und sehr lange Generierungen ist Gemini 2.5 Pro (oder Claude Sonnet 4.6) weiterhin überlegen. Auch bei spezialisierten Aufgaben — wissenschaftliche Texte, große Refactorings, RAG über riesige Wissensbasen — ist der Sprung von Gemma 4 31B auf Gemini 2.5 Pro spürbar. Im direkten Vergleich Gemma 4 vs. Gemini 2.5 Pro lohnt sich ein Realitäts-Check: Für 80 % der täglichen KI-Aufgaben reicht das lokale Modell — für die restlichen 20 % bleibt die Cloud-API.

Datenschutz, DSGVO und Lizenzierung

Apache-2.0-Lizenz: kommerzielle Nutzung erlaubt

Gemma 4 steht unter der Apache-2.0-Lizenz. Das bedeutet: kommerzielle Nutzung, Modifikation, Weiterverteilung und Einbau in eigene Produkte sind erlaubt — auch closed-source. Eine Namensnennung ist Pflicht, aber das war es im Wesentlichen. Damit ist Gemma 4 deutlich liberaler lizenziert als Llama 4 (Meta-Lizenz mit Nutzungsgrenzen ab 700 Mio. monatlich aktiver Nutzer).

DSGVO-Vorteile durch lokale Inferenz

Wer Gemma 4 lokal betreibt, hat ein massives DSGVO-Argument: Personenbezogene Daten verlassen das Gerät nicht, es gibt keinen Auftragsverarbeitungsvertrag mit einem US-Cloud-Anbieter, kein Datenexport ins Drittland und keine Schrems-II-Diskussion. Für Anwendungsfälle mit Mandantengeheimnis, Patientendaten oder Betriebsgeheimnissen ist das oft der entscheidende Faktor — und ein guter Grund, eine API gegen eine lokale Inferenz auf einem leistungsstarken Apple-Silicon-Gerät zu tauschen.

Alternativen zu LM Studio

LM Studio ist nicht das einzige Werkzeug, um Gemma 4 auf dem eigenen Rechner zu betreiben. Welcher Leitfaden sich lohnt, hängt davon ab, wie tief du in die Konfiguration einsteigen willst — eine ausführliche Gegenüberstellung findest du in unserem Beitrag Ollama vs LM Studio.

Gemma 4 in Ollama nutzen

Ollama ist das beliebteste CLI-Werkzeug für lokale LLMs. Mit einem ollama pull gemma4:e4b und ollama run gemma4:e4b startest du das Modell in zwei Befehlen — kein GUI nötig, dafür voll skriptbar und ideal für Server- und Headless-Setups.

Wann LM Studio, wann Ollama, wann llama.cpp?

LM Studio: Wenn du ein grafisches Chat-Fenster willst, Modelle in Ruhe vergleichen möchtest oder eine OpenAI-kompatible API als Toggle brauchst.
Ollama: Wenn du Modelle in eigene Skripte und Apps einbinden willst, gerne auf der Kommandozeile arbeitest oder einen kleinen Server fürs Heimnetz baust.
llama.cpp: Wenn du jedes Bit an Geschwindigkeit auspressen willst und mit Build-Skripten und Compiler-Flags vertraut bist.

Auch interessant: Unser Praxisbeitrag zum Thema DeepSeek lokal betreiben — viele der Prinzipien aus diesem Gemma-4-Leitfaden gelten dort genauso.

Häufige Fragen zu Gemma 4

Was ist Gemma 4?

Welches Gemma-4-Modell sollte ich wählen?

Mit welchem Gemma-4-Modell sollte ich beginnen?

Wie führe ich Gemma 4 lokal aus?

Kann ich Gemma 4 auf meinem Computer verwenden?

Was ist der Unterschied zwischen Gemma 4 und Gemini?

Wie schneidet Gemma 4 im Vergleich zu ChatGPT und Claude ab?

Kann Gemma 4 Bilder und Videos analysieren?

Eignet sich Gemma 4 für Coding?

Unterstützt Gemma 4 die deutsche Sprache?

Kann ich Gemma 4 für kommerzielle Produkte nutzen?

Ist Gemma 4 wirklich Open Source?

Ist die Nutzung von Gemma 4 kostenlos?

Wann sollte ich Gemma 4 statt einer gehosteten API verwenden?

Sind die Gemma-4-Benchmarks wirklich gut?

Fazit — für wen lohnt sich Gemma 4?

Gemma 4 ist das erste offene Modell, das auf einem MacBook Air M3 ohne Tricks die Geschwindigkeit eines Cloud-Chatbots erreicht — und dabei vollständig lokal arbeitet. Wer eine Apple-Silicon-Maschine ab M2 oder einen Windows-PC mit RTX 3060 oder besser hat, sollte Gemma 4 E4B in LM Studio installieren und 30 Minuten investieren, um die typischen Workflows einmal lokal durchzuspielen. Du wirst überrascht sein, wie viele Cloud-Tools du gar nicht mehr brauchst.

Für Entwickler:innen, die Agenten oder RAG-Systeme bauen, ist Gemma 4 26B MoE einen ernsten Blick wert. Und wer Forschung, Refactoring oder Sprachverarbeitung im großen Stil betreibt, sollte sich Gemma 4 31B Dense auf einer Workstation gönnen — gerade im Vergleich zu den laufenden API-Kosten amortisiert sich die Hardware schnell.

Die Quintessenz: Open Source ist im Jahr 2026 keine Notlösung mehr, sondern in vielen Use-Cases die rationalere Wahl — schneller, datenschutzfreundlicher, kostengünstiger. Gemma 4 macht den Wechsel so einfach, dass es kaum noch eine Ausrede gibt, es nicht zu probieren.

Stand: 19.05.2026 — Tests durchgeführt auf MacBook Air 15″ M3 (24 GB RAM, macOS Tahoe 26.3.1) mit LM Studio und Gemma 4 E4B.

Hendrik Schrandt
Content Creator

Was ist Agentic AI? Definition, KI-Agenten, Use Cases, Risiken, Tools wie n8n, OpenClaw und ThinkOwl im Unternehmen.

Nils Hufnagel Jetzt lesen →

Kommentare (0)

Antwort abbrechen

Sie müssen angemeldet sein, um einen Kommentar abzugeben.

Noch keine Kommentare vorhanden.

Gemma 4 lokal nutzen: Anleitung mit LM Studio (MacBook M3)

Was ist Gemma 4?

Die Modellfamilie auf einen Blick

Was Gemma 4 von Gemma 3 und Llama 4 unterscheidet

Die wichtigsten Fähigkeiten von Gemma 4

Reasoning, Coding und Agentic Workflows

Multimodal — Bild, Video, Audio und OCR

140+ Sprachen und langer Kontext

Welches Gemma-4-Modell passt zu welcher Hardware?

Gemma-4-Modelle im Hardware-Vergleich

E2B & E4B für Smartphones und Edge-Geräte

26B MoE & 31B Dense für Workstations

Speicheranforderungen und GPU-Empfehlungen

Gemma 4 lokal installieren — HowTo für MacBook Air M3

Voraussetzungen

Schritt 1 — LM Studio installieren

Schritt 2 — Gemma 4 als erstes Modell auswählen

Schritt 3 — Modell laden und Speicher zuweisen

Schritt 4 — Ersten Chat mit Gemma 4 starten

Schritt 5 — Geschwindigkeit live im Video

Gemma 4 vs. Gemini 2.5 Pro, ChatGPT und Claude

Wo Gemma 4 die Cloud-Modelle schlägt

Wo Gemini 2.5 Pro noch die Nase vorn hat

Datenschutz, DSGVO und Lizenzierung

Apache-2.0-Lizenz: kommerzielle Nutzung erlaubt

DSGVO-Vorteile durch lokale Inferenz

Alternativen zu LM Studio

Gemma 4 in Ollama nutzen

Wann LM Studio, wann Ollama, wann llama.cpp?

Häufige Fragen zu Gemma 4

Fazit — für wen lohnt sich Gemma 4?

Weiterführende Artikel

KI-KoKI-Kompetenz | Pflicht & Umsetzung nach Art. 4 EU AI

RAG | Retrieval-Augmented Generation im Unternehmen

KI im Kundenservice | Proof of Concept als Einstieg

KI für Unternehmen | Vorteile, Einsatz & Einführung

NVIDIA KI | GPUs, Inferenz & Infrastruktur für Unternehmen

KI und Datenschutz | DSGVO-konform im Unternehmen nutzen

NPU | Neural Processing Unit: Nutzen, Vergleich & Kauf

Workflow Automation mit n8n: Self-Hosted, Docker & AI Agents

Cloud AI – Definition, Funktionsweise & Unternehmenseinsatz

Agentic AI: Definition, Tools, Risiken & Use Cases

Kommentare (0)

Antwort abbrechen

IT-Entscheidungen besser vorbereiten