Technik 20. März 2026

AI Agent Architektur — Wie KI-Agenten unter der Haube funktionieren

Wenn wir von KI-Agenten sprechen, meinen wir mehr als ein Sprachmodell das Fragen beantwortet. Ein Agent ist ein System das wahrnimmt, entscheidet und handelt — autonom, zielgerichtet und in einer Schleife die so lange läuft bis die Aufgabe erledigt ist. Aber wie funktioniert das technisch?

Die Kern-Architektur: Perceive → Think → Act

Jeder KI-Agent folgt im Kern dem gleichen Muster. Er nimmt einen Input wahr (eine E-Mail, ein Dokument, eine Anfrage), verarbeitet ihn mit einem Sprachmodell (Think), und führt eine Aktion aus (Act). Das Besondere: Die Ergebnisse der Aktion fließen zurück in die Wahrnehmung — eine Schleife entsteht.

Diese Schleife ist der fundamentale Unterschied zwischen einem Chatbot und einem Agenten. Ein Chatbot antwortet einmal. Ein Agent arbeitet iterativ an einer Aufgabe bis sie erledigt ist — oder bis er feststellt dass er menschliche Hilfe braucht.

Prompt Engineering: Die Persönlichkeit des Agenten

Das System-Prompt ist die DNA des Agenten. Es definiert wer er ist, was er kann, welche Regeln er befolgt und wie er kommuniziert. Ein gutes System-Prompt ist kein Wunschzettel — es ist eine präzise Spezifikation.

Die wichtigsten Elemente eines Agent-Prompts:

Rolle und Identität: Wer ist der Agent? Ein E-Mail-Assistent? Ein Dokumenten-Analyst?
Fähigkeiten: Welche Tools stehen zur Verfügung? Was kann der Agent tun?
Regeln: Was darf der Agent nicht? Wann muss er einen Menschen fragen?
Kommunikationsstil: Formell? Direkt? In welcher Sprache?
Kontext: Informationen über das Unternehmen, Prozesse, relevante Daten

Memory: Das Gedächtnis des Agenten

Ein Sprachmodell hat kein inhärentes Gedächtnis. Jede Anfrage startet bei Null. Für einen Agenten der über Tage und Wochen arbeitet ist das ein Problem. Die Lösung: externes Memory.

Es gibt verschiedene Memory-Typen:

Short-term Memory ist der aktuelle Konversationskontext. Was wurde gerade besprochen? Welche Aufgabe wird gerade bearbeitet? Das ist das Kontextfenster des Modells selbst.

Long-term Memory speichert Wissen das über Sessions hinweg relevant bleibt. Kundenpräferenzen, gelernte Regeln, historische Entscheidungen. Technisch wird das oft über Vektordatenbanken realisiert — Texte werden als numerische Vektoren gespeichert und bei Bedarf per Ähnlichkeitssuche abgerufen.

Episodic Memory erinnert sich an konkrete Ereignisse. "Letzte Woche hat der Mandant Müller eine Rechnung mit falschem Betrag geschickt — wir haben das korrigiert." Diese Erinnerungen helfen dem Agenten aus Erfahrung zu lernen.

Tools: Die Hände des Agenten

Ein Agent ohne Tools ist wie ein Mitarbeiter ohne Computer. Tools geben dem Agenten die Fähigkeit mit der Außenwelt zu interagieren:

E-Mail: Lesen, Senden, Suchen in Postfächern
Kalender: Termine erstellen, prüfen, verschieben
Dateisystem: Dokumente lesen, erstellen, organisieren
APIs: Mit externen Systemen kommunizieren (CRM, ERP, Buchhaltung)
Web: Informationen recherchieren
Datenbanken: Strukturierte Daten abfragen und speichern

Das Model Context Protocol (MCP) hat sich als Standard für Tool-Integration etabliert. MCP definiert ein einheitliches Interface über das Agenten mit Tools kommunizieren — unabhängig davon ob es eine E-Mail-API, ein Dateisystem oder eine Datenbank ist.

Multi-Agent-Systeme

Für komplexe Aufgaben arbeiten mehrere spezialisierte Agenten zusammen. Statt einem Generalisten der alles kann (und nichts richtig gut), gibt es:

Einen E-Mail-Agenten der Postfächer verwaltet
Einen Dokument-Agenten der Belege verarbeitet
Einen Kalender-Agenten der Termine koordiniert
Einen Orchestrator der die Zusammenarbeit koordiniert

Wenn eine E-Mail reinkommt die einen Termin und eine Rechnung enthält, erkennt der Orchestrator das, gibt die Termininformation an den Kalender-Agenten und die Rechnung an den Dokument-Agenten weiter. Parallel, effizient, spezialisiert.

Multi-Agent-Systeme sind wie ein gut eingespieltes Team — jeder hat seine Stärke, und der Teamleiter sorgt dafür dass die Zusammenarbeit funktioniert.

Die Loop-Architektur

Das Herzstück eines Agenten ist seine Loop-Architektur. Vereinfacht sieht sie so aus:

Observe: Neuen Input wahrnehmen (E-Mail, Trigger, Zeitplan)
Think: Mit dem Sprachmodell entscheiden was zu tun ist
Plan: Eine Sequenz von Aktionen planen
Act: Die erste Aktion ausführen (Tool-Aufruf)
Evaluate: Das Ergebnis bewerten — Ziel erreicht?
Loop: Falls nicht → zurück zu Think mit neuem Kontext

Diese Schleife läuft so lange bis die Aufgabe erledigt ist, ein Fehler auftritt oder der Agent entscheidet dass er menschliche Hilfe braucht. Die Kunst liegt im Evaluate-Schritt: Weiß der Agent wann er fertig ist? Weiß er wann er feststeckt?

Sicherheit und Guardrails

Ein autonomer Agent braucht Grenzen. Was darf er eigenständig? Was erfordert Bestätigung? Die wichtigsten Guardrails:

Action Approval: Kritische Aktionen (Zahlungen, externe E-Mails) erfordern menschliche Bestätigung
Rate Limits: Maximale Anzahl von Aktionen pro Zeiteinheit
Scope Limits: Klare Definition welche Tools und Daten der Agent nutzen darf
Audit Log: Jede Aktion wird protokolliert und ist nachvollziehbar

Die Architektur eines KI-Agenten ist komplex — aber das muss sie nicht für den Endanwender sein. Die Komplexität gehört unter die Haube. Der Nutzer sieht ein Dashboard, bekommt Zusammenfassungen und bestätigt kritische Aktionen. Den Rest erledigt der Agent.

Emmanuel Michel

AI Agent Engineer & KI-Berater