Gemma 4 lokal nutzen: Anleitung mit LM Studio (MacBook M3)

Mit Gemma 4 schickt Google DeepMind die vierte Generation seiner offenen Modellfamilie ins Rennen — und zwar nicht in die Cloud, sondern auf deinen eigenen Rechner.

11 Min. Lesezeit

Mit Gemma 4 schickt Google DeepMind die vierte Generation seiner offenen Modellfamilie ins Rennen — und zwar nicht in die Cloud, sondern auf deinen eigenen Rechner. Das Besondere an Gemma 4: Das kleinste Modell läuft auf einem Smartphone, das größte zieht eine H100 leer, und alles dazwischen passt erstaunlich gut auf einen normalen Apple-Silicon-Laptop. In diesem Ratgeber bekommst du beides: einen kompakten Überblick, was Gemma 4 technisch leistet — und eine vollständige HowTo-Anleitung, wie du Gemma 4 mit LM Studio in unter zehn Minuten lokal auf einem MacBook Air M3 zum Laufen bringst.

Was ist Gemma 4?

Gemma 4 ist die im April 2026 vorgestellte vierte Generation der offenen KI-Modellfamilie von Google DeepMind. Anders als Gemini ist Gemma 4 vollständig herunterladbar, läuft lokal und steht unter der Apache-2.0-Lizenz — kommerzielle Nutzung inklusive. Die offizielle Ankündigung findest du im Google-Blog zu Gemma 4.

Der zentrale Designansatz heißt „intelligence-per-parameter“: Gemma 4 soll pro Parameter mehr Reasoning-Leistung liefern als jede vorherige Open-Source-Modellfamilie. Das Ergebnis ist eine breite Staffelung an Modellgrößen für sehr unterschiedliche Geräte.

Die Modellfamilie auf einen Blick

Gemma 4 kommt in vier Hauptvarianten:

  • Gemma 4 E2B — ca. 2 Mrd. effektive Parameter, gedacht für Smartphones und Edge-Geräte.
  • Gemma 4 E4B — ca. 4 Mrd. effektive Parameter, ideal für Laptops mit Apple Silicon oder Mittelklasse-GPU.
  • Gemma 4 26B MoE — Mixture-of-Experts-Architektur mit 26 Mrd. Parametern, aktiv aber nur ein Bruchteil pro Token.
  • Gemma 4 31B Dense — das vollständige Dense-Modell für Workstations und H100-Server.

Die kleineren Varianten lassen sich auf Endgeräten ausführen — die großen Modellgrößen entfalten ihre Stärke auf RTX-GPUs der 4000er-/5000er-Klasse und auf H100-Setups.

Was Gemma 4 von Gemma 3 und Llama 4 unterscheidet

Gegenüber Gemma 3 hat Google drei Dinge deutlich aufgebohrt: das Kontextfenster (jetzt bis 256.000 Token bei den großen Modellen), die multimodalen Fähigkeiten (Bild, Video, Audio, OCR direkt im Modell statt über separate Encoder) und vor allem die Inferenz-Geschwindigkeit. Dank Multi-Token Prediction (MTP) generiert Gemma 4 laut Google bis zu 3x schneller durch Multi-Token Prediction als der direkte Vorgänger — bei gleicher Antwortqualität.

Im Vergleich zu Llama 4 punktet Gemma 4 vor allem bei Tokens/s pro GB Speicher und in den multimodalen Leistungsbenchmarks. Llama 4 hat dagegen bei reinen Coding-Aufgaben in einigen Tests noch die Nase vorn — die Differenz zwischen Gemma 4 und Llama 4 ist allerdings deutlich kleiner als der Sprung von Gemma 3 auf 4.

Die wichtigsten Fähigkeiten von Gemma 4

Reasoning, Coding und Agentic Workflows

Gemma 4 wurde gezielt auf zwei Aufgaben getrimmt: mehrstufiges Reasoning und agentische Tool-Nutzung. Das Modell kann Folgefragen verfolgen, Zwischenergebnisse strukturieren und externe Werkzeuge wie Funktionen, Suchindizes oder APIs aufrufen. Für Entwickler:innen heißt das: Gemma 4 eignet sich nicht nur als Chatbot, sondern als Reasoning-Kern in echten Agenten — lokal, ohne Cloud-API-Kosten.

Beim Coding liefert Gemma 4 auf den gängigen Benchmarks (HumanEval, MBPP, SWE-Bench) Werte auf Augenhöhe mit deutlich größeren proprietären Modellen. Das gilt besonders für die 26B-MoE-Variante, die bei vergleichsweise niedriger Latenz Code-Aufgaben in Python, TypeScript und Go souverän löst.

Multimodal — Bild, Video, Audio und OCR

Alle Gemma-4-Modelle sind nativ multimodal. Das Modell akzeptiert Bilder, kurze Videoclips, Audio-Snippets und Text in einem gemeinsamen Tokenstrom. In der Praxis bedeutet das: Bilderkennung, Screenshot-Analyse, Transkription von Sprachnachrichten und OCR von Dokumenten passieren in einem einzigen Inferenzlauf — kein separates Vision-Backend, keine API-Kette.

Für die Bildgenerierung selbst ist Gemma 4 nicht zuständig (das übernehmen weiterhin spezialisierte Modelle wie Imagen). Für Verständnis und Beschreibung von Bildmaterial gehört Gemma 4 aber zur Spitze der offenen Modelle.

140+ Sprachen und langer Kontext

Gemma 4 wurde auf über 140 Sprachen trainiert, Deutsch inklusive. Das Modell unterstützt nativ ein langes Kontextfenster: 128.000 Token bei den kleinen Modellen, bis zu 256.000 Token bei den großen Varianten. Das reicht für mehrstündige Meeting-Transkripte, ganze Code-Repos oder umfangreiche Dokumentenbestände — alles in einem einzigen Prompt.

Welches Gemma-4-Modell passt zu welcher Hardware?

Die wichtigste Frage vor der Installation: Welches Modell läuft auf welchem Rechner? Hier eine Übersicht der Speicheranforderungen pro Variante.

Gemma-4-Modelle im Hardware-Vergleich

Modell Parameter (aktiv) Speicherbedarf (Q4-Quantisierung) Empfohlene Hardware Use-Case
Gemma 4 E2B 2 Mrd. ca. 2,5 GB Smartphone, Edge-Gerät, Raspberry Pi 5 On-Device-Assistenten
Gemma 4 E4B 4 Mrd. ca. 6,3 GB MacBook Air M3, RTX 3060, RTX 4060 Laptop-Chatbots, lokales RAG
Gemma 4 26B MoE 26 Mrd. (ca. 4 Mrd. aktiv) ca. 16 GB MacBook Pro M3 Max, RTX 4090, RTX 5080 Agenten, Coding, lange Kontexte
Gemma 4 31B Dense 31 Mrd. ca. 22 GB RTX 5090, H100, MacBook Pro M4 Max 64 GB Workstation-Workloads, Forschung

E2B & E4B für Smartphones und Edge-Geräte

Die beiden kleinen Modelle sind die größte Neuheit in Gemma 4. Gemma 4 E2B läuft auf modernen Smartphones (Pixel 9 Pro, Galaxy S25) mit erträglicher Geschwindigkeit. Gemma 4 E4B ist der Sweet Spot für Apple-Silicon-Laptops: 6,3 GB Download, läuft auf einem MacBook Air M3 mit 24 GB RAM komfortabel und liefert mehr als 30 Tokens/s ohne GPU-Offload-Tricks.

26B MoE & 31B Dense für Workstations

Die MoE-Variante (Mixture of Experts) aktiviert pro Token nur einen Teil ihrer Parameter — daher passt sie trotz 26 Mrd. Parameter noch auf eine RTX 4090 mit 24 GB VRAM. Die Dense-31B-Variante ist die Wahl, wenn maximale Qualität gefragt ist; sie braucht jedoch ein RTX-5090- oder H100-Setup für angenehme Geschwindigkeiten.

Speicheranforderungen und GPU-Empfehlungen

Für die meisten Leser dieses Beitrags ist Gemma 4 E4B die richtige Wahl: läuft auf jedem MacBook ab M2 mit 16 GB RAM, auf jedem Windows-PC mit RTX 3060/4060 oder besser. Wer eine RTX 4090 oder einen M3 Max im Rechner hat, greift direkt zu Gemma 4 26B MoE. Genau das machen wir im folgenden HowTo — allerdings mit der E4B-Variante.

Gemma 4 lokal installieren — HowTo für MacBook Air M3

Das HowTo basiert auf einem realen Testaufbau: MacBook Air 15″, M3, 24 GB RAM, macOS Tahoe 26.3.1.

Voraussetzungen

  • Apple-Silicon-Mac (M1, M2, M3, M4) — alternativ Windows-PC mit mindestens 8 GB VRAM
  • Mindestens 16 GB RAM (24 GB oder mehr empfohlen)
  • macOS Sonoma 14, macOS Sequoia 15 oder macOS Tahoe 26
  • Mindestens 8 GB freier SSD-Speicher
  • Internetverbindung für den einmaligen Modell-Download

Schritt 2 — Gemma 4 als erstes Modell auswählen

LM Studio erkennt deine Hardware und schlägt nach dem Onboarding direkt das passende Modell vor. Auf dem MacBook Air M3 ist das google/gemma-4-e4b mit ca. 7,9 Mrd. Parameter und 6,33 GB Download-Größe.

Klicke auf „Download gemma-4-e4b“. Der Download dauert je nach Internetanbindung zwischen drei und zehn Minuten. LM Studio zeigt Fortschritt und Speicherort an.

Schritt 4 — Ersten Chat mit Gemma 4 starten

Wechsle links in das Chat-Tab. Über „Pick a model“ (⌘L) wählst du das geladene Gemma-4-E4B-Modell aus.

Probier als ersten Prompt:

Erkläre in drei Sätzen, was du am besten kannst — auf Deutsch.

Gemma 4 antwortet typischerweise innerhalb von zwei Sekunden. Die Token-Geschwindigkeit kannst du unten rechts in LM Studio einblenden lassen (Tokens/s).

Gemma 4 vs. Gemini 2.5 Pro, ChatGPT und Claude

Wo Gemma 4 die Cloud-Modelle schlägt

Drei Dinge kann Gemma 4 besser als jedes Cloud-Modell: Latenz, Datenschutz und Kosten. Lokale Inferenz hat keine Netzwerk-Latenz, deine Prompts verlassen nie das Gerät, und nach dem einmaligen Download zahlst du keinen Cent pro Token. Für viele Aufgaben — Mail-Entwürfe, Code-Snippets, Zusammenfassungen, Übersetzungen — ist Gemma 4 E4B ausreichend und schlägt Cloud-Chatbots im Workflow-Tempo deutlich.

Wo Gemini 2.5 Pro noch die Nase vorn hat

Für komplexe mehrstufige Reasoning-Ketten, hochaktuelles Weltwissen und sehr lange Generierungen ist Gemini 2.5 Pro (oder Claude Sonnet 4.6) weiterhin überlegen. Auch bei spezialisierten Aufgaben — wissenschaftliche Texte, große Refactorings, RAG über riesige Wissensbasen — ist der Sprung von Gemma 4 31B auf Gemini 2.5 Pro spürbar. Im direkten Vergleich Gemma 4 vs. Gemini 2.5 Pro lohnt sich ein Realitäts-Check: Für 80 % der täglichen KI-Aufgaben reicht das lokale Modell — für die restlichen 20 % bleibt die Cloud-API.

Datenschutz, DSGVO und Lizenzierung

Apache-2.0-Lizenz: kommerzielle Nutzung erlaubt

Gemma 4 steht unter der Apache-2.0-Lizenz. Das bedeutet: kommerzielle Nutzung, Modifikation, Weiterverteilung und Einbau in eigene Produkte sind erlaubt — auch closed-source. Eine Namensnennung ist Pflicht, aber das war es im Wesentlichen. Damit ist Gemma 4 deutlich liberaler lizenziert als Llama 4 (Meta-Lizenz mit Nutzungsgrenzen ab 700 Mio. monatlich aktiver Nutzer).

DSGVO-Vorteile durch lokale Inferenz

Wer Gemma 4 lokal betreibt, hat ein massives DSGVO-Argument: Personenbezogene Daten verlassen das Gerät nicht, es gibt keinen Auftragsverarbeitungsvertrag mit einem US-Cloud-Anbieter, kein Datenexport ins Drittland und keine Schrems-II-Diskussion. Für Anwendungsfälle mit Mandantengeheimnis, Patientendaten oder Betriebsgeheimnissen ist das oft der entscheidende Faktor — und ein guter Grund, eine API gegen eine lokale Inferenz auf einem leistungsstarken Apple-Silicon-Gerät zu tauschen.

Alternativen zu LM Studio

LM Studio ist nicht das einzige Werkzeug, um Gemma 4 auf dem eigenen Rechner zu betreiben. Welcher Leitfaden sich lohnt, hängt davon ab, wie tief du in die Konfiguration einsteigen willst — eine ausführliche Gegenüberstellung findest du in unserem Beitrag Ollama vs LM Studio.

Gemma 4 in Ollama nutzen

Ollama ist das beliebteste CLI-Werkzeug für lokale LLMs. Mit einem ollama pull gemma4:e4b und ollama run gemma4:e4b startest du das Modell in zwei Befehlen — kein GUI nötig, dafür voll skriptbar und ideal für Server- und Headless-Setups.

Wann LM Studio, wann Ollama, wann llama.cpp?

  • LM Studio: Wenn du ein grafisches Chat-Fenster willst, Modelle in Ruhe vergleichen möchtest oder eine OpenAI-kompatible API als Toggle brauchst.
  • Ollama: Wenn du Modelle in eigene Skripte und Apps einbinden willst, gerne auf der Kommandozeile arbeitest oder einen kleinen Server fürs Heimnetz baust.
  • llama.cpp: Wenn du jedes Bit an Geschwindigkeit auspressen willst und mit Build-Skripten und Compiler-Flags vertraut bist.

Auch interessant: Unser Praxisbeitrag zum Thema DeepSeek lokal betreiben — viele der Prinzipien aus diesem Gemma-4-Leitfaden gelten dort genauso.

Häufige Fragen zu Gemma 4

Fazit — für wen lohnt sich Gemma 4?

Gemma 4 ist das erste offene Modell, das auf einem MacBook Air M3 ohne Tricks die Geschwindigkeit eines Cloud-Chatbots erreicht — und dabei vollständig lokal arbeitet. Wer eine Apple-Silicon-Maschine ab M2 oder einen Windows-PC mit RTX 3060 oder besser hat, sollte Gemma 4 E4B in LM Studio installieren und 30 Minuten investieren, um die typischen Workflows einmal lokal durchzuspielen. Du wirst überrascht sein, wie viele Cloud-Tools du gar nicht mehr brauchst.

Für Entwickler:innen, die Agenten oder RAG-Systeme bauen, ist Gemma 4 26B MoE einen ernsten Blick wert. Und wer Forschung, Refactoring oder Sprachverarbeitung im großen Stil betreibt, sollte sich Gemma 4 31B Dense auf einer Workstation gönnen — gerade im Vergleich zu den laufenden API-Kosten amortisiert sich die Hardware schnell.

Die Quintessenz: Open Source ist im Jahr 2026 keine Notlösung mehr, sondern in vielen Use-Cases die rationalere Wahl — schneller, datenschutzfreundlicher, kostengünstiger. Gemma 4 macht den Wechsel so einfach, dass es kaum noch eine Ausrede gibt, es nicht zu probieren.

Stand: 19.05.2026 — Tests durchgeführt auf MacBook Air 15″ M3 (24 GB RAM, macOS Tahoe 26.3.1) mit LM Studio und Gemma 4 E4B.

Das muss man gelesen haben?

Behalten Sie ihr Wissen nicht für sich und teilen Sie diesen Beitrag.

Weiterführende Artikel

KI & Automation
09 Juni 2026 13 Min. Lesezeit

KI im Kundenservice | Proof of Concept als Einstieg

Wie lässt sich KI im Kundenservice sinnvoll testen? Der Artikel zeigt, warum ein Proof of Concept ein guter Einstieg sein kann, welche Vorteile er bietet und wie die Umsetzung abläuft.

Tillmann Strübig Jetzt lesen
KI & Automation
09 Juni 2026 12 Min. Lesezeit

KI für Unternehmen | Vorteile, Einsatz & Einführung

Was bringt KI für Unternehmen und wie gelingt der Einstieg? Vorteile, Anwendungsfälle und Tipps zur erfolgreichen Einführung von künstlicher Intelligenz.

Tillmann Strübig Jetzt lesen
KI & Automation
09 Juni 2026 9 Min. Lesezeit

NVIDIA KI | GPUs, Inferenz & Infrastruktur für Unternehmen

Warum ist NVIDIA für KI im Unternehmen so relevant? Der Beitrag zeigt, wie GPUs, Inferenz, Software und Infrastruktur produktive KI-Anwendungen ermöglichen.

Tillmann Strübig Jetzt lesen
KI & Automation
09 Juni 2026 12 Min. Lesezeit

KI und Datenschutz | DSGVO-konform im Unternehmen nutzen

Wie lässt sich KI datenschutzkonform einsetzen? Der Artikel zeigt, was Unternehmen bei DSGVO, personenbezogenen Daten, Datenverarbeitung und KI-Tools beachten müssen.

Tillmann Strübig Jetzt lesen
KI & Automation
20 Mai 2026 20 Min. Lesezeit

NPU | Neural Processing Unit: Nutzen, Vergleich & Kauf

Was eine Neural Processing Unit wirklich kann, ob du sie überhaupt brauchst und wie du prüfst, ob dein Gerät schon eine besitzt.

Hendrik Schrandt Jetzt lesen
KI & Automation
15 Mai 2026 16 Min. Lesezeit

Workflow Automation mit n8n: Self-Hosted, Docker & AI Agents

Wie n8n, Docker, Self-Hosting und AI-Workflows moderne Workflow Management Systeme praktisch erweitern.

Nils Hufnagel Jetzt lesen
KI & Automation
08 Apr. 2026 14 Min. Lesezeit

Cloud AI – Definition, Funktionsweise & Unternehmenseinsatz

Was ist Cloud AI? Wie KI in der Cloud funktioniert, welche Anbieter und Anwendungsfälle es gibt – kompakter Überblick für IT-Entscheider im DACH-Mittelstand.

Hendrik Schrandt Jetzt lesen
KI & Automation
23 März 2026 12 Min. Lesezeit

Agentic AI: Definition, Tools, Risiken & Use Cases

Was ist Agentic AI? Definition, KI-Agenten, Use Cases, Risiken, Tools wie n8n, OpenClaw und ThinkOwl im Unternehmen.

Nils Hufnagel Jetzt lesen
KI & Automation
12 März 2026 12 Min. Lesezeit

Shadow AI: Definition, Risiken & Maßnahmen für Unternehmen

Was ist Shadow AI (Schatten-KI)? Erfahren Sie, welche Risiken unkontrollierte KI-Nutzung für DSGVO, EU AI Act und IT-Sicherheit birgt.

Hendrik Schrandt Jetzt lesen
KI & Automation
11 Feb. 2026 10 Min. Lesezeit

DeepSeek lokal betreiben – Installation & Hardware

DeepSeek lokal betreiben heißt KI ohne Cloud nutzen mit passender Hardware, Modellen, RAG und voller Datensouveränität.

Hendrik Schrandt Jetzt lesen
Back to top