AI Agent Architektur — Wie KI-Agenten unter der Haube funktionieren
Wenn wir von KI-Agenten sprechen, meinen wir mehr als ein Sprachmodell das Fragen beantwortet. Ein Agent ist ein System das wahrnimmt, entscheidet und handelt — autonom, zielgerichtet und in einer Schleife die so lange läuft bis die Aufgabe erledigt ist. Aber wie funktioniert das technisch?
Die Kern-Architektur: Perceive → Think → Act
Jeder KI-Agent folgt im Kern dem gleichen Muster. Er nimmt einen Input wahr (eine E-Mail, ein Dokument, eine Anfrage), verarbeitet ihn mit einem Sprachmodell (Think), und führt eine Aktion aus (Act). Das Besondere: Die Ergebnisse der Aktion fließen zurück in die Wahrnehmung — eine Schleife entsteht.
Diese Schleife ist der fundamentale Unterschied zwischen einem Chatbot und einem Agenten. Ein Chatbot antwortet einmal. Ein Agent arbeitet iterativ an einer Aufgabe bis sie erledigt ist — oder bis er feststellt dass er menschliche Hilfe braucht.
Prompt Engineering: Die Persönlichkeit des Agenten
Das System-Prompt ist die DNA des Agenten. Es definiert wer er ist, was er kann, welche Regeln er befolgt und wie er kommuniziert. Ein gutes System-Prompt ist kein Wunschzettel — es ist eine präzise Spezifikation.
Die wichtigsten Elemente eines Agent-Prompts:
- Rolle und Identität: Wer ist der Agent? Ein E-Mail-Assistent? Ein Dokumenten-Analyst?
- Fähigkeiten: Welche Tools stehen zur Verfügung? Was kann der Agent tun?
- Regeln: Was darf der Agent nicht? Wann muss er einen Menschen fragen?
- Kommunikationsstil: Formell? Direkt? In welcher Sprache?
- Kontext: Informationen über das Unternehmen, Prozesse, relevante Daten
Memory: Das Gedächtnis des Agenten
Ein Sprachmodell hat kein inhärentes Gedächtnis. Jede Anfrage startet bei Null. Für einen Agenten der über Tage und Wochen arbeitet ist das ein Problem. Die Lösung: externes Memory.
Es gibt verschiedene Memory-Typen:
Short-term Memory ist der aktuelle Konversationskontext. Was wurde gerade besprochen? Welche Aufgabe wird gerade bearbeitet? Das ist das Kontextfenster des Modells selbst.
Long-term Memory speichert Wissen das über Sessions hinweg relevant bleibt. Kundenpräferenzen, gelernte Regeln, historische Entscheidungen. Technisch wird das oft über Vektordatenbanken realisiert — Texte werden als numerische Vektoren gespeichert und bei Bedarf per Ähnlichkeitssuche abgerufen.
Episodic Memory erinnert sich an konkrete Ereignisse. "Letzte Woche hat der Mandant Müller eine Rechnung mit falschem Betrag geschickt — wir haben das korrigiert." Diese Erinnerungen helfen dem Agenten aus Erfahrung zu lernen.
Tools: Die Hände des Agenten
Ein Agent ohne Tools ist wie ein Mitarbeiter ohne Computer. Tools geben dem Agenten die Fähigkeit mit der Außenwelt zu interagieren:
- E-Mail: Lesen, Senden, Suchen in Postfächern
- Kalender: Termine erstellen, prüfen, verschieben
- Dateisystem: Dokumente lesen, erstellen, organisieren
- APIs: Mit externen Systemen kommunizieren (CRM, ERP, Buchhaltung)
- Web: Informationen recherchieren
- Datenbanken: Strukturierte Daten abfragen und speichern
Das Model Context Protocol (MCP) hat sich als Standard für Tool-Integration etabliert. MCP definiert ein einheitliches Interface über das Agenten mit Tools kommunizieren — unabhängig davon ob es eine E-Mail-API, ein Dateisystem oder eine Datenbank ist.
Multi-Agent-Systeme
Für komplexe Aufgaben arbeiten mehrere spezialisierte Agenten zusammen. Statt einem Generalisten der alles kann (und nichts richtig gut), gibt es:
- Einen E-Mail-Agenten der Postfächer verwaltet
- Einen Dokument-Agenten der Belege verarbeitet
- Einen Kalender-Agenten der Termine koordiniert
- Einen Orchestrator der die Zusammenarbeit koordiniert
Wenn eine E-Mail reinkommt die einen Termin und eine Rechnung enthält, erkennt der Orchestrator das, gibt die Termininformation an den Kalender-Agenten und die Rechnung an den Dokument-Agenten weiter. Parallel, effizient, spezialisiert.
Multi-Agent-Systeme sind wie ein gut eingespieltes Team — jeder hat seine Stärke, und der Teamleiter sorgt dafür dass die Zusammenarbeit funktioniert.
Die Loop-Architektur
Das Herzstück eines Agenten ist seine Loop-Architektur. Vereinfacht sieht sie so aus:
- Observe: Neuen Input wahrnehmen (E-Mail, Trigger, Zeitplan)
- Think: Mit dem Sprachmodell entscheiden was zu tun ist
- Plan: Eine Sequenz von Aktionen planen
- Act: Die erste Aktion ausführen (Tool-Aufruf)
- Evaluate: Das Ergebnis bewerten — Ziel erreicht?
- Loop: Falls nicht → zurück zu Think mit neuem Kontext
Diese Schleife läuft so lange bis die Aufgabe erledigt ist, ein Fehler auftritt oder der Agent entscheidet dass er menschliche Hilfe braucht. Die Kunst liegt im Evaluate-Schritt: Weiß der Agent wann er fertig ist? Weiß er wann er feststeckt?
Sicherheit und Guardrails
Ein autonomer Agent braucht Grenzen. Was darf er eigenständig? Was erfordert Bestätigung? Die wichtigsten Guardrails:
- Action Approval: Kritische Aktionen (Zahlungen, externe E-Mails) erfordern menschliche Bestätigung
- Rate Limits: Maximale Anzahl von Aktionen pro Zeiteinheit
- Scope Limits: Klare Definition welche Tools und Daten der Agent nutzen darf
- Audit Log: Jede Aktion wird protokolliert und ist nachvollziehbar
Die Architektur eines KI-Agenten ist komplex — aber das muss sie nicht für den Endanwender sein. Die Komplexität gehört unter die Haube. Der Nutzer sieht ein Dashboard, bekommt Zusammenfassungen und bestätigt kritische Aktionen. Den Rest erledigt der Agent.