KI-Modelltypen im Überblick: LLM, Vision, ML & mehr
Welche KI-Modelltypen gibt es?
Hinter dem Begriff "Künstliche Intelligenz" verbergen sich ganz unterschiedliche KI-Modelltypen: Large Language Models für Textgenerierung, Vision Models für Bilderkennung, Bildgenerierung mit Diffusion-Modellen, Speech & Audio für Sprachverarbeitung, Embeddings für semantische Suche und klassisches Machine Learning für strukturierte Daten. Diese Lektion gibt dir den Überblick.
📦 Modellkategorien
💬
LLMs
Large Language Models
Verarbeiten und generieren Text auf menschlichem Niveau
👁️
Bildverarbeitung
Vision Models
Analysieren, verstehen und verarbeiten Bilder und Videos
🎨
Bildgenerierung
Image Generation
Erzeugen neue Bilder aus Text oder anderen Bildern
🎙️
Sprache & Audio
Speech & Audio
Wandeln Sprache in Text um oder erzeugen gesprochene Sprache
🔮
Multimodal
Multimodale Modelle
Kombinieren mehrere Modalitäten (Text, Bild, Audio, Video)
📊
Machine Learning
Klassisches ML
Traditionelle Algorithmen für Vorhersagen und Klassifikation
🎬
Videogenerierung
Video Generation
Erzeugen Videos aus Text oder Bildern
🧮
Embeddings
Embedding Models
Wandeln Text, Bilder oder andere Daten in numerische Vektoren um
👈
Wähle eine Kategorie
Klicke auf eine Modellkategorie, um Details zu sehen
⚖️ Modelltypen im Vergleich
Typ
Input
Output
Beispiel
Hauptanwendung
💬
LLMs
Text (Prompt)
Text (Antwort)
GPT-4
Chatbots
👁️
Bildverarbeitung
Bilder / Videos
Klassifikation, Objekte, Beschreibungen
YOLO
Objekterkennung
🎨
Bildgenerierung
Text-Prompt / Bild
Generiertes Bild
DALL-E 3
Kunst & Design
🎙️
Sprache & Audio
Audio / Text
Text / Audio
Whisper
Spracherkennung (STT)
🔮
Multimodal
Text + Bild + Audio + Video
Text + Bild + Audio + Video
GPT-4o
Bild-Analyse mit Chat
📊
Machine Learning
Strukturierte Daten (Tabellen)
Vorhersagen, Klassen, Cluster
Random Forest
Kundenanalyse
🎬
Videogenerierung
Text-Prompt / Bild
Generiertes Video
Sora
Kurzfilme
🧮
Embeddings
Text / Bild / Audio
Vektor (Zahlenreihe)
OpenAI Embeddings
Semantische Suche
✨ Generative Modelle
Erzeugen neue Inhalte (Text, Bilder, Audio, Video)
LLMsBildgenerierungVideoTTS
🔍 Analytische Modelle
Analysieren, klassifizieren und extrahieren Informationen
VisionKlassisches MLSTTEmbeddings
🔄 Input → Modell → Output
Text-zu-Text (LLM)
💬
Text
"Erkläre Quantenphysik"
→
🧠
GPT-4 / Claude
→
📝
Text
"Quantenphysik beschäftigt sich mit..."
Text-zu-Bild
💬
Text
"Ein Sonnenuntergang am Meer"
→
🧠
DALL-E / Midjourney
→
🖼️
Bild
[Generiertes Bild]
Bild-zu-Text
🖼️
Bild
[Foto von Hund]
→
🧠
Vision Model
→
📝
Text
"Golden Retriever, ca. 3 Jahre"
Sprache-zu-Text (STT)
🎙️
Audio
[Sprachaufnahme]
→
🧠
Whisper
→
📝
Text
"Hallo, wie geht es dir?"
Text-zu-Sprache (TTS)
💬
Text
"Willkommen bei Adacor"
→
🧠
ElevenLabs
→
🔊
Audio
[Gesprochener Text]
Daten-zu-Vorhersage (ML)
📊
Tabelle
[Kundendaten]
→
🧠
XGBoost
→
🎯
Vorhersage
"Kündigungsrisiko: 73%"
🔮 Der Trend: Multimodale Modelle
💬 🖼️ 🎙️ 🎬
Alle Inputs
→
🔮
GPT-4o / Gemini
→
📝 🖼️ 🔊
Alle Outputs
Moderne Modelle wie GPT-4o und Gemini können Text, Bilder, Audio und Video gleichzeitig verarbeiten und erzeugen.
Schulungsmaterial · KI-Modelltypen·KI-Wissen Team·Aktualisiert: 22. Februar 2026