KI-Wissen Logo
Start/🧠 KI-Grundlagen/KI-Modelltypen
KI verstehen · Modelltypen

KI-Modelltypen im Überblick: LLM, Vision, ML & mehr

Welche KI-Modelltypen gibt es?

Hinter dem Begriff "Künstliche Intelligenz" verbergen sich ganz unterschiedliche KI-Modelltypen: Large Language Models für Textgenerierung, Vision Models für Bilderkennung, Bildgenerierung mit Diffusion-Modellen, Speech & Audio für Sprachverarbeitung, Embeddings für semantische Suche und klassisches Machine Learning für strukturierte Daten. Diese Lektion gibt dir den Überblick.

📦 Modellkategorien

💬
LLMs
Large Language Models

Verarbeiten und generieren Text auf menschlichem Niveau

👁️
Bildverarbeitung
Vision Models

Analysieren, verstehen und verarbeiten Bilder und Videos

🎨
Bildgenerierung
Image Generation

Erzeugen neue Bilder aus Text oder anderen Bildern

🎙️
Sprache & Audio
Speech & Audio

Wandeln Sprache in Text um oder erzeugen gesprochene Sprache

🔮
Multimodal
Multimodale Modelle

Kombinieren mehrere Modalitäten (Text, Bild, Audio, Video)

📊
Machine Learning
Klassisches ML

Traditionelle Algorithmen für Vorhersagen und Klassifikation

🎬
Videogenerierung
Video Generation

Erzeugen Videos aus Text oder Bildern

🧮
Embeddings
Embedding Models

Wandeln Text, Bilder oder andere Daten in numerische Vektoren um

👈

Wähle eine Kategorie

Klicke auf eine Modellkategorie, um Details zu sehen

⚖️ Modelltypen im Vergleich

TypInputOutputBeispielHauptanwendung
💬
LLMs
Text (Prompt)Text (Antwort)GPT-4Chatbots
👁️
Bildverarbeitung
Bilder / VideosKlassifikation, Objekte, BeschreibungenYOLOObjekterkennung
🎨
Bildgenerierung
Text-Prompt / BildGeneriertes BildDALL-E 3Kunst & Design
🎙️
Sprache & Audio
Audio / TextText / AudioWhisperSpracherkennung (STT)
🔮
Multimodal
Text + Bild + Audio + VideoText + Bild + Audio + VideoGPT-4oBild-Analyse mit Chat
📊
Machine Learning
Strukturierte Daten (Tabellen)Vorhersagen, Klassen, ClusterRandom ForestKundenanalyse
🎬
Videogenerierung
Text-Prompt / BildGeneriertes VideoSoraKurzfilme
🧮
Embeddings
Text / Bild / AudioVektor (Zahlenreihe)OpenAI EmbeddingsSemantische Suche

Generative Modelle

Erzeugen neue Inhalte (Text, Bilder, Audio, Video)

LLMsBildgenerierungVideoTTS

🔍 Analytische Modelle

Analysieren, klassifizieren und extrahieren Informationen

VisionKlassisches MLSTTEmbeddings

🔄 Input → Modell → Output

Text-zu-Text (LLM)
💬
Text
"Erkläre Quantenphysik"
🧠
GPT-4 / Claude
📝
Text
"Quantenphysik beschäftigt sich mit..."
Text-zu-Bild
💬
Text
"Ein Sonnenuntergang am Meer"
🧠
DALL-E / Midjourney
🖼️
Bild
[Generiertes Bild]
Bild-zu-Text
🖼️
Bild
[Foto von Hund]
🧠
Vision Model
📝
Text
"Golden Retriever, ca. 3 Jahre"
Sprache-zu-Text (STT)
🎙️
Audio
[Sprachaufnahme]
🧠
Whisper
📝
Text
"Hallo, wie geht es dir?"
Text-zu-Sprache (TTS)
💬
Text
"Willkommen bei Adacor"
🧠
ElevenLabs
🔊
Audio
[Gesprochener Text]
Daten-zu-Vorhersage (ML)
📊
Tabelle
[Kundendaten]
🧠
XGBoost
🎯
Vorhersage
"Kündigungsrisiko: 73%"

🔮 Der Trend: Multimodale Modelle

💬 🖼️ 🎙️ 🎬
Alle Inputs
🔮
GPT-4o / Gemini
📝 🖼️ 🔊
Alle Outputs

Moderne Modelle wie GPT-4o und Gemini können Text, Bilder, Audio und Video gleichzeitig verarbeiten und erzeugen.

Schulungsmaterial · KI-Modelltypen·KI-Wissen Team·Aktualisiert: 22. Februar 2026
Zurück
Wie funktioniert ein LLM?
Weiter
Halluzinationen verstehen