Zum Inhalt springen
Runtime voor alle open-weight modellen

Ollama als Runtime der Wahl

Wir betreiben immer das beste Open-Weight Reasoning-Modell auf Ihrem eigenen Server. Ollama ist unsere bevorzugte Runtime, neben vLLM und anderen Inference-Engines. Keine Cloud, keine externen APIs.

Was ist Ollama?

Ollama ist ein Open-Source-Framework zum lokalen Betrieb von LLMs. Wir nutzen Ollama als bevorzugte Runtime, um Modelle wie Kimi K2, GPT-OSS, DeepSeek R1, Qwen 3 und Llama auf Ihrer eigenen Hardware zu betreiben. Pro Anwendungsfall wählen wir das stärkste Open-Weight Reasoning-Modell.

Der richtige Modelltyp für jede Aufgabe

Wir betreiben alle relevanten Open-Weight-Modelle auf Ihrem eigenen Server. Pro Anwendungsfall wählen wir das stärkste Modell.

Reasoning-Modelle

Für komplexe Analysen, Planung und agentische Aufgaben. State-of-the-art Chain-of-Thought-Leistung.

Kimi K2 · GPT-OSS · DeepSeek R1

Mehrsprachige Modelle

Starke Leistung in 100+ Sprachen. Ideal für internationale Organisationen.

Qwen 3 · Llama 3 · Mistral

Code-Modelle

Spezialisiert auf Code-Generierung, Review und Software-Engineering. Für Developer-Tooling und Automatisierung.

Qwen Coder · DeepSeek Coder · Code Llama

Vision-Modelle

Multimodale Modelle für Bilder, Dokumente und Screenshots. Für OCR, Dokumentenanalyse und visuelles Reasoning.

Qwen-VL · Llama 3.2 Vision · LLaVA

Embedding-Modelle

Für semantische Suche, RAG und Wissensabruf. Die Engine hinter jeder Wissensdatenbank.

Nomic Embed · BGE · Jina

Fine-tuned Modelle

Eigene Modelle, trainiert auf Ihren Daten und Ihrer Domäne. Für maximale Präzision in Ihrem Fachgebiet.

Custom Fine-tunes · LoRA-Adapter

Warum Ollama als Runtime?

Lokale Ausführung

Modelle laufen auf Ihren eigenen Servern. Keine externen API-Calls.

Volle Privatsphäre

Daten verlassen nie Ihre kontrollierte Umgebung.

Schnelle Inferenz

GPU-beschleunigt. Vergleichbare Geschwindigkeiten wie Cloud-APIs.

Modellverwaltung

Einfach zwischen Modellen wechseln pro Aufgabe.

Enterprise-ready

Skaliert für Enterprise. Load Balancing und Failover.

Fine-Tuning-ready

Unterstützung für Fine-Tuning auf Ihren Organisationsdaten.

Warum keine Big Tech Modelle?

OpenAI, Google und Anthropic bergen fundamentale Risiken:

Daten an amerikanische Server gesendet
Keine Kontrolle über Modell-Updates
CLOUD Act: US-Regierung kann Daten anfordern
Per-Token-Pricing macht Kosten unvorhersehbar