Ollama inkl. Modelle mit NVIDIA GPU-Unterstützung unter Docker offline ausführen + OpenWebUI
Hier wurde Ollama mit NVIDIA-GPU-Unterstützung unter Docker auf einem Windows-11-System ausgeführt. Dabei kam OpenWebUI als benutzerfreundliche Oberfläche zum Einsatz, um lokal KI-Modelle zu betreiben. OpenWebUI bietet den Vorteil, dass Nutzer einfach zwischen verschiedenen Modellen wechseln, Anfragen verwalten und die Nutzung der KI komfortabel über eine grafische Oberfläche steuern können. Zudem ermöglicht es eine bessere Übersicht über laufende Instanzen und erleichtert das Testen unterschiedlicher Modelle ohne manuelle Konfigurationsänderungen.
Falls WSL bereits installiert ist, setze WSL2 als Standard:
NVIDIA CUDA-Treiber installieren
Damit Docker-Container auf die GPU zugreifen können, wird die NVIDIA Container Runtime benötigt. Dies ermöglicht eine schnellere und effizientere Berechnung von KI-Modellen, da rechenintensive Prozesse nicht von der CPU, sondern von der leistungsfähigeren GPU übernommen werden. https://developer.nvidia.com/cuda/wsl
wsl nvidia-smi
Nach der Installation WSL öffnen und prüfen, ob die GPU erkannt wird.
Docker Desktop installieren und überprüfen, ob Docker WSL2 verwendet.
Docker wird benötigt, um Ollama und OpenWebUI in Containern auszuführen. Dadurch wird eine isolierte Umgebung geschaffen, die unabhängig vom restlichen System funktioniert und sich einfach verwalten lässt.
Ollama-Container downloaden und starten
Der Ollama-Container wird heruntergeladen und gestartet, um eine Umgebung bereitzustellen, in der KI-Modelle effizient ausgeführt werden können (LLM-Laufzeitumgebung).
# Falls eine bestimmte Version nötig ist (z. B. v0.5.6): docker pull ollama/ollama:v0.5.6
# Container starten docker run -d --name ollama --gpus all -p 11434:11434 -v ollama_data:/root/.ollama ollama/ollama:latest
# Falls eine bestimmte Version nötig ist (z. B. v0.5.6): docker run -d --name ollama --gpus all -p 11434:11434 -v ollama_data:/root/.ollama ollama/ollama:v0.5.6
Container erstellen & starten
# Prüfen, ob der Container läuft docker ps
# Prüfen, ob Ollama die GPU verwendet docker logs ollama | Select-String "GPU"
OpenWebUI wird gestartet, um eine visuelle Schnittstelle für die Steuerung der KI-Modelle bereitzustellen. Nutzer können hier verschiedene Modelle auswählen, Abfragen stellen und Ergebnisse verwalten.
docker pull ghcr.io/open-webui/open-webui:main
# Falls eine bestimmte Version nötig ist docker pull ghcr.io/open-webui/open-webui:v0.1.0
OpenWebUI Docker-Image herunterladen
docker run -d --name openwebui -p 8080:8080 -v openwebui_data:/app/data ghcr.io/open-webui/open-webui:main
# Überprüfen, ob der Docker Container unter Port 8080 läuft docker logs openwebui | Select-String "Uvicorn running"