Gemma 4 lokal nutzen: Anleitung mit LM Studio (MacBook M3)

Mit Gemma 4 schickt Google DeepMind die vierte Generation seiner offenen Modellfamilie ins Rennen — und zwar nicht in die Cloud, sondern auf deinen eigenen Rechner.

11 Min. Lesezeit

Mit Gemma 4 schickt Google DeepMind die vierte Generation seiner offenen Modellfamilie ins Rennen — und zwar nicht in die Cloud, sondern auf deinen eigenen Rechner. Das Besondere an Gemma 4: Das kleinste Modell läuft auf einem Smartphone, das größte zieht eine H100 leer, und alles dazwischen passt erstaunlich gut auf einen normalen Apple-Silicon-Laptop. In diesem Ratgeber bekommst du beides: einen kompakten Überblick, was Gemma 4 technisch leistet — und eine vollständige HowTo-Anleitung, wie du Gemma 4 mit LM Studio in unter zehn Minuten lokal auf einem MacBook Air M3 zum Laufen bringst.

Was ist Gemma 4?

Gemma 4 ist die im April 2026 vorgestellte vierte Generation der offenen KI-Modellfamilie von Google DeepMind. Anders als Gemini ist Gemma 4 vollständig herunterladbar, läuft lokal und steht unter der Apache-2.0-Lizenz — kommerzielle Nutzung inklusive. Die offizielle Ankündigung findest du im Google-Blog zu Gemma 4.

Der zentrale Designansatz heißt „intelligence-per-parameter“: Gemma 4 soll pro Parameter mehr Reasoning-Leistung liefern als jede vorherige Open-Source-Modellfamilie. Das Ergebnis ist eine breite Staffelung an Modellgrößen für sehr unterschiedliche Geräte.

Die Modellfamilie auf einen Blick

Gemma 4 kommt in vier Hauptvarianten:

  • Gemma 4 E2B — ca. 2 Mrd. effektive Parameter, gedacht für Smartphones und Edge-Geräte.
  • Gemma 4 E4B — ca. 4 Mrd. effektive Parameter, ideal für Laptops mit Apple Silicon oder Mittelklasse-GPU.
  • Gemma 4 26B MoE — Mixture-of-Experts-Architektur mit 26 Mrd. Parametern, aktiv aber nur ein Bruchteil pro Token.
  • Gemma 4 31B Dense — das vollständige Dense-Modell für Workstations und H100-Server.

Die kleineren Varianten lassen sich auf Endgeräten ausführen — die großen Modellgrößen entfalten ihre Stärke auf RTX-GPUs der 4000er-/5000er-Klasse und auf H100-Setups.

Was Gemma 4 von Gemma 3 und Llama 4 unterscheidet

Gegenüber Gemma 3 hat Google drei Dinge deutlich aufgebohrt: das Kontextfenster (jetzt bis 256.000 Token bei den großen Modellen), die multimodalen Fähigkeiten (Bild, Video, Audio, OCR direkt im Modell statt über separate Encoder) und vor allem die Inferenz-Geschwindigkeit. Dank Multi-Token Prediction (MTP) generiert Gemma 4 laut Google bis zu 3x schneller durch Multi-Token Prediction als der direkte Vorgänger — bei gleicher Antwortqualität.

Im Vergleich zu Llama 4 punktet Gemma 4 vor allem bei Tokens/s pro GB Speicher und in den multimodalen Leistungsbenchmarks. Llama 4 hat dagegen bei reinen Coding-Aufgaben in einigen Tests noch die Nase vorn — die Differenz zwischen Gemma 4 und Llama 4 ist allerdings deutlich kleiner als der Sprung von Gemma 3 auf 4.

Die wichtigsten Fähigkeiten von Gemma 4

Reasoning, Coding und Agentic Workflows

Gemma 4 wurde gezielt auf zwei Aufgaben getrimmt: mehrstufiges Reasoning und agentische Tool-Nutzung. Das Modell kann Folgefragen verfolgen, Zwischenergebnisse strukturieren und externe Werkzeuge wie Funktionen, Suchindizes oder APIs aufrufen. Für Entwickler:innen heißt das: Gemma 4 eignet sich nicht nur als Chatbot, sondern als Reasoning-Kern in echten Agenten — lokal, ohne Cloud-API-Kosten.

Beim Coding liefert Gemma 4 auf den gängigen Benchmarks (HumanEval, MBPP, SWE-Bench) Werte auf Augenhöhe mit deutlich größeren proprietären Modellen. Das gilt besonders für die 26B-MoE-Variante, die bei vergleichsweise niedriger Latenz Code-Aufgaben in Python, TypeScript und Go souverän löst.

Multimodal — Bild, Video, Audio und OCR

Alle Gemma-4-Modelle sind nativ multimodal. Das Modell akzeptiert Bilder, kurze Videoclips, Audio-Snippets und Text in einem gemeinsamen Tokenstrom. In der Praxis bedeutet das: Bilderkennung, Screenshot-Analyse, Transkription von Sprachnachrichten und OCR von Dokumenten passieren in einem einzigen Inferenzlauf — kein separates Vision-Backend, keine API-Kette.

Für die Bildgenerierung selbst ist Gemma 4 nicht zuständig (das übernehmen weiterhin spezialisierte Modelle wie Imagen). Für Verständnis und Beschreibung von Bildmaterial gehört Gemma 4 aber zur Spitze der offenen Modelle.

140+ Sprachen und langer Kontext

Gemma 4 wurde auf über 140 Sprachen trainiert, Deutsch inklusive. Das Modell unterstützt nativ ein langes Kontextfenster: 128.000 Token bei den kleinen Modellen, bis zu 256.000 Token bei den großen Varianten. Das reicht für mehrstündige Meeting-Transkripte, ganze Code-Repos oder umfangreiche Dokumentenbestände — alles in einem einzigen Prompt.

Welches Gemma-4-Modell passt zu welcher Hardware?

Die wichtigste Frage vor der Installation: Welches Modell läuft auf welchem Rechner? Hier eine Übersicht der Speicheranforderungen pro Variante.

Gemma-4-Modelle im Hardware-Vergleich

ModellParameter (aktiv)Speicherbedarf (Q4-Quantisierung)Empfohlene HardwareUse-Case
Gemma 4 E2B2 Mrd.ca. 2,5 GBSmartphone, Edge-Gerät, Raspberry Pi 5On-Device-Assistenten
Gemma 4 E4B4 Mrd.ca. 6,3 GBMacBook Air M3, RTX 3060, RTX 4060Laptop-Chatbots, lokales RAG
Gemma 4 26B MoE26 Mrd. (ca. 4 Mrd. aktiv)ca. 16 GBMacBook Pro M3 Max, RTX 4090, RTX 5080Agenten, Coding, lange Kontexte
Gemma 4 31B Dense31 Mrd.ca. 22 GBRTX 5090, H100, MacBook Pro M4 Max 64 GBWorkstation-Workloads, Forschung

E2B & E4B für Smartphones und Edge-Geräte

Die beiden kleinen Modelle sind die größte Neuheit in Gemma 4. Gemma 4 E2B läuft auf modernen Smartphones (Pixel 9 Pro, Galaxy S25) mit erträglicher Geschwindigkeit. Gemma 4 E4B ist der Sweet Spot für Apple-Silicon-Laptops: 6,3 GB Download, läuft auf einem MacBook Air M3 mit 24 GB RAM komfortabel und liefert mehr als 30 Tokens/s ohne GPU-Offload-Tricks.

26B MoE & 31B Dense für Workstations

Die MoE-Variante (Mixture of Experts) aktiviert pro Token nur einen Teil ihrer Parameter — daher passt sie trotz 26 Mrd. Parameter noch auf eine RTX 4090 mit 24 GB VRAM. Die Dense-31B-Variante ist die Wahl, wenn maximale Qualität gefragt ist; sie braucht jedoch ein RTX-5090- oder H100-Setup für angenehme Geschwindigkeiten.

Speicheranforderungen und GPU-Empfehlungen

Für die meisten Leser dieses Beitrags ist Gemma 4 E4B die richtige Wahl: läuft auf jedem MacBook ab M2 mit 16 GB RAM, auf jedem Windows-PC mit RTX 3060/4060 oder besser. Wer eine RTX 4090 oder einen M3 Max im Rechner hat, greift direkt zu Gemma 4 26B MoE. Genau das machen wir im folgenden HowTo — allerdings mit der E4B-Variante.

Gemma 4 lokal installieren — HowTo für MacBook Air M3

Das HowTo basiert auf einem realen Testaufbau: MacBook Air 15″, M3, 24 GB RAM, macOS Tahoe 26.3.1.

Voraussetzungen

  • Apple-Silicon-Mac (M1, M2, M3, M4) — alternativ Windows-PC mit mindestens 8 GB VRAM
  • Mindestens 16 GB RAM (24 GB oder mehr empfohlen)
  • macOS Sonoma 14, macOS Sequoia 15 oder macOS Tahoe 26
  • Mindestens 8 GB freier SSD-Speicher
  • Internetverbindung für den einmaligen Modell-Download

Schritt 2 — Gemma 4 als erstes Modell auswählen

LM Studio erkennt deine Hardware und schlägt nach dem Onboarding direkt das passende Modell vor. Auf dem MacBook Air M3 ist das google/gemma-4-e4b mit ca. 7,9 Mrd. Parameter und 6,33 GB Download-Größe.

Klicke auf „Download gemma-4-e4b“. Der Download dauert je nach Internetanbindung zwischen drei und zehn Minuten. LM Studio zeigt Fortschritt und Speicherort an.

Schritt 4 — Ersten Chat mit Gemma 4 starten

Wechsle links in das Chat-Tab. Über „Pick a model“ (⌘L) wählst du das geladene Gemma-4-E4B-Modell aus.

Probier als ersten Prompt:

Erkläre in drei Sätzen, was du am besten kannst — auf Deutsch.

Gemma 4 antwortet typischerweise innerhalb von zwei Sekunden. Die Token-Geschwindigkeit kannst du unten rechts in LM Studio einblenden lassen (Tokens/s).

Gemma 4 vs. Gemini 2.5 Pro, ChatGPT und Claude

Wo Gemma 4 die Cloud-Modelle schlägt

Drei Dinge kann Gemma 4 besser als jedes Cloud-Modell: Latenz, Datenschutz und Kosten. Lokale Inferenz hat keine Netzwerk-Latenz, deine Prompts verlassen nie das Gerät, und nach dem einmaligen Download zahlst du keinen Cent pro Token. Für viele Aufgaben — Mail-Entwürfe, Code-Snippets, Zusammenfassungen, Übersetzungen — ist Gemma 4 E4B ausreichend und schlägt Cloud-Chatbots im Workflow-Tempo deutlich.

Wo Gemini 2.5 Pro noch die Nase vorn hat

Für komplexe mehrstufige Reasoning-Ketten, hochaktuelles Weltwissen und sehr lange Generierungen ist Gemini 2.5 Pro (oder Claude Sonnet 4.6) weiterhin überlegen. Auch bei spezialisierten Aufgaben — wissenschaftliche Texte, große Refactorings, RAG über riesige Wissensbasen — ist der Sprung von Gemma 4 31B auf Gemini 2.5 Pro spürbar. Im direkten Vergleich Gemma 4 vs. Gemini 2.5 Pro lohnt sich ein Realitäts-Check: Für 80 % der täglichen KI-Aufgaben reicht das lokale Modell — für die restlichen 20 % bleibt die Cloud-API.

Datenschutz, DSGVO und Lizenzierung

Apache-2.0-Lizenz: kommerzielle Nutzung erlaubt

Gemma 4 steht unter der Apache-2.0-Lizenz. Das bedeutet: kommerzielle Nutzung, Modifikation, Weiterverteilung und Einbau in eigene Produkte sind erlaubt — auch closed-source. Eine Namensnennung ist Pflicht, aber das war es im Wesentlichen. Damit ist Gemma 4 deutlich liberaler lizenziert als Llama 4 (Meta-Lizenz mit Nutzungsgrenzen ab 700 Mio. monatlich aktiver Nutzer).

DSGVO-Vorteile durch lokale Inferenz

Wer Gemma 4 lokal betreibt, hat ein massives DSGVO-Argument: Personenbezogene Daten verlassen das Gerät nicht, es gibt keinen Auftragsverarbeitungsvertrag mit einem US-Cloud-Anbieter, kein Datenexport ins Drittland und keine Schrems-II-Diskussion. Für Anwendungsfälle mit Mandantengeheimnis, Patientendaten oder Betriebsgeheimnissen ist das oft der entscheidende Faktor — und ein guter Grund, eine API gegen eine lokale Inferenz auf einem leistungsstarken Apple-Silicon-Gerät zu tauschen.

Alternativen zu LM Studio

LM Studio ist nicht das einzige Werkzeug, um Gemma 4 auf dem eigenen Rechner zu betreiben. Welcher Leitfaden sich lohnt, hängt davon ab, wie tief du in die Konfiguration einsteigen willst — eine ausführliche Gegenüberstellung findest du in unserem Beitrag Ollama vs LM Studio.

Gemma 4 in Ollama nutzen

Ollama ist das beliebteste CLI-Werkzeug für lokale LLMs. Mit einem ollama pull gemma4:e4b und ollama run gemma4:e4b startest du das Modell in zwei Befehlen — kein GUI nötig, dafür voll skriptbar und ideal für Server- und Headless-Setups.

Wann LM Studio, wann Ollama, wann llama.cpp?

  • LM Studio: Wenn du ein grafisches Chat-Fenster willst, Modelle in Ruhe vergleichen möchtest oder eine OpenAI-kompatible API als Toggle brauchst.
  • Ollama: Wenn du Modelle in eigene Skripte und Apps einbinden willst, gerne auf der Kommandozeile arbeitest oder einen kleinen Server fürs Heimnetz baust.
  • llama.cpp: Wenn du jedes Bit an Geschwindigkeit auspressen willst und mit Build-Skripten und Compiler-Flags vertraut bist.

Auch interessant: Unser Praxisbeitrag zum Thema DeepSeek lokal betreiben — viele der Prinzipien aus diesem Gemma-4-Leitfaden gelten dort genauso.

Häufige Fragen zu Gemma 4

Fazit — für wen lohnt sich Gemma 4?

Gemma 4 ist das erste offene Modell, das auf einem MacBook Air M3 ohne Tricks die Geschwindigkeit eines Cloud-Chatbots erreicht — und dabei vollständig lokal arbeitet. Wer eine Apple-Silicon-Maschine ab M2 oder einen Windows-PC mit RTX 3060 oder besser hat, sollte Gemma 4 E4B in LM Studio installieren und 30 Minuten investieren, um die typischen Workflows einmal lokal durchzuspielen. Du wirst überrascht sein, wie viele Cloud-Tools du gar nicht mehr brauchst.

Für Entwickler:innen, die Agenten oder RAG-Systeme bauen, ist Gemma 4 26B MoE einen ernsten Blick wert. Und wer Forschung, Refactoring oder Sprachverarbeitung im großen Stil betreibt, sollte sich Gemma 4 31B Dense auf einer Workstation gönnen — gerade im Vergleich zu den laufenden API-Kosten amortisiert sich die Hardware schnell.

Die Quintessenz: Open Source ist im Jahr 2026 keine Notlösung mehr, sondern in vielen Use-Cases die rationalere Wahl — schneller, datenschutzfreundlicher, kostengünstiger. Gemma 4 macht den Wechsel so einfach, dass es kaum noch eine Ausrede gibt, es nicht zu probieren.

Stand: 19.05.2026 — Tests durchgeführt auf MacBook Air 15″ M3 (24 GB RAM, macOS Tahoe 26.3.1) mit LM Studio und Gemma 4 E4B.

Das muss man gelesen haben?

Behalten Sie ihr Wissen nicht für sich und teilen Sie diesen Beitrag.

Weiterführende Artikel

KI & Automation
15 Mai 2026 16 Min. Lesezeit

Workflow Automation mit n8n: Self-Hosted, Docker & AI Agents

Wie n8n, Docker, Self-Hosting und AI-Workflows moderne Workflow Management Systeme praktisch erweitern.

Nils Hufnagel Jetzt lesen
KI & Automation
08 Apr. 2026 14 Min. Lesezeit

Cloud AI – Definition, Funktionsweise & Unternehmenseinsatz

Was ist Cloud AI? Wie KI in der Cloud funktioniert, welche Anbieter und Anwendungsfälle es gibt – kompakter Überblick für IT-Entscheider im DACH-Mittelstand.

Hendrik Schrandt Jetzt lesen
KI & Automation
23 März 2026 12 Min. Lesezeit

Agentic AI: Definition, Tools, Risiken & Use Cases

Was ist Agentic AI? Definition, KI-Agenten, Use Cases, Risiken, Tools wie n8n, OpenClaw und ThinkOwl im Unternehmen.

Nils Hufnagel Jetzt lesen
KI & Automation
12 März 2026 12 Min. Lesezeit

Shadow AI: Definition, Risiken & Maßnahmen für Unternehmen

Was ist Shadow AI (Schatten-KI)? Erfahren Sie, welche Risiken unkontrollierte KI-Nutzung für DSGVO, EU AI Act und IT-Sicherheit birgt.

Hendrik Schrandt Jetzt lesen
KI & Automation
11 Feb. 2026 10 Min. Lesezeit

DeepSeek lokal betreiben – Installation & Hardware

DeepSeek lokal betreiben heißt KI ohne Cloud nutzen mit passender Hardware, Modellen, RAG und voller Datensouveränität.

Hendrik Schrandt Jetzt lesen
KI & Automation
06 Feb. 2026 4 Min. Lesezeit

Ollama – Lokale LLMs per CLI & API nutzen

Ollama macht lokale LLMs per CLI und API nutzbar, hält Daten intern und braucht saubere Security gegen Fehlkonfig.

Hendrik Schrandt Jetzt lesen
KI & Automation
06 Feb. 2026 6 Min. Lesezeit

Ollama vs. LM Studio – Lokale KI im Vergleich

Ollama oder LM Studio richtig wählen, betreiben und skalieren mit WebUI, RAG und Governance für Teams.

Hendrik Schrandt Jetzt lesen
KI & Automation
14 Jan. 2026 3 Min. Lesezeit

Claude Cowork – Der KI-Desktop-Agent von Anthropic

Claude Cowork bringt agentische KI mit Dateizugriff, mehr Automatisierung, aber auch neue Governance-Risiken.

Hendrik Schrandt Jetzt lesen
KI & Automation
11 Dez. 2025 13 Min. Lesezeit

Maschinelles Lernen – Grundlagen, Arten & Anwendungen

Maschinelles Lernen zeigt, wie KI aus Daten Muster lernt und Vorhersagen trifft, statt Regeln zu codieren.

Hendrik Schrandt Jetzt lesen
KI & Automation
06 Nov. 2025 10 Min. Lesezeit

Prozessautomatisierung – RPA, Workflows & KI

Prozessautomatisierung ersetzt Routinearbeit durch Workflows und KI, senkt Kosten, beschleunigt Abläufe.

Hendrik Schrandt Jetzt lesen
Back to top