Qwen 3.5 4B lokal auf dem Laptop mit Home Assistant verbinden

Julian Suck

04 Apr. 2026 — Lesezeit: 2 Minuten

Ich hab mich eine Weile gefragt, ob ich wirklich ein Cloud-Abo für KI in meinem Home Assistant brauche. Die Antwort ist nein. Mit Ollama und Qwen 3.5 4B läuft das Ganze komplett lokal, ohne dass irgendwelche Daten das Haus verlassen.

Was mich anfangs abgeschreckt hat: Ich dachte, das setzt irgendwelche Monster-Hardware voraus. Das stimmt nicht. Ein halbwegs moderner Laptop mit 16 GB RAM reicht locker. Ich hatte noch einen Laptop mit einer NVIDIA T600 Mobile GPU mit 4GB VRAM liegen, was vollkommen ausreichend für das 4b Modell ist.

Was du brauchst

Eigentlich nicht viel. 16 GB RAM sind komfortabel, mit 8 GB geht es auch – dann läuft das Modell einfach langsamer. Eine dedizierte GPU ist kein Muss, sie macht aber einen spürbaren Unterschied bei der Antwortgeschwindigkeit. Ohne GPU rechnet die CPU, was für Home Assistant aber völlig ausreicht, weil es dort nicht auf Millisekunden ankommt.

Ansonsten: ca. 3 GB freier Speicher für das Modell und ein laufender Home Assistant.

Ollama installieren

Ollama ist im Grunde ein lokaler Server, der Sprachmodelle verwaltet und eine API bereitstellt. Die Installation unter Linux oder macOS ist ein einzelner Befehl:

curl -fsSL https://ollama.com/install.sh | sh

Unter Windows gibt es einen normalen Installer auf ollama.com/download.

Danach läuft Ollama automatisch als Dienst im Hintergrund, erreichbar auf Port 11434.

Qwen 3.5 4B herunterladen

ollama pull qwen3.5:4b

Ollama lädt das Modell herunter und legt es lokal ab. Testen kann man es direkt im Terminal:

ollama run qwen3.5:4b

Wenn das Modell antwortet, ist alles bereit. Mit /bye kommt man wieder raus.

Home Assistant einrichten

Wenn Home Assistant auf einem anderen Gerät läuft als Ollama, also z.B. HA auf einem Raspberry Pi und Ollama auf dem Laptop muss Ollama zunächst auf der Netzwerkadresse lauschen und nicht nur auf localhost.

Dazu unter Linux die Umgebungsvariable setzen. In der systemd-Unit von Ollama (/etc/systemd/system/ollama.service) unter [Service] einfügen:

Environment="OLLAMA_HOST=0.0.0.0:11434"

Dann:

systemctl daemon-reload
systemctl restart ollama

Vom HA-System aus testen:

curl http://LAPTOP-IP:11434/api/tags

Wenn eine JSON-Liste mit Modellen zurückkommt, ist die Verbindung da.

Jetzt in Home Assistant: Einstellungen → Geräte & Dienste → Integration hinzufügen → Ollama

Als URL http://LAPTOP-IP:11434 eintragen, Modell frob/qwen3.5-instruct:4b auswählen, speichern.

Danach unter Einstellungen → Sprachassistenten den Conversation Agent auf Ollama umstellen.

Eine Sache noch: In der Ollama-Integration kann ein eigener System-Prompt hinterlegt werden. Ich hab dort reingeschrieben, dass der Assistent auf Deutsch antworten soll und ausschließlich über die verfügbaren Tools handeln darf - also nie behaupten soll, etwas getan zu haben, ohne wirklich ein Tool aufzurufen. Das hat die Qualität der Antworten merklich verbessert.

Fazit

Funktioniert gut. Ich war ehrlich gesagt positiv überrascht, was Qwen 3.5 4B in diesem Kontext leistet. Das Modell kennt die Entities in meinem Home Assistant, halluziniert kaum und antwortet auf Deutsch ohne Probleme.

Wer schon Home Assistant am Laufen hat und einen halbwegs modernen Rechner im Netz hat, kann das in einer Stunde umsetzen. Viel länger hat es bei mir auch nicht gedauert - wobei ich das Tool Calling Problem da noch nicht verstanden hatte, was mich zusätzliche Zeit gekostet hat 😄

TLDR: