# Wie funktioniert eine Telefon-KI? Spracherkennung, Sprachmodell, Sprachausgabe

> Wie funktioniert eine Telefon-KI? Spracherkennung, Sprachmodell und Sprachausgabe im Zusammenspiel, dazu Latenz und der Unterschied von Pipeline zu Live-Modell.

date: 2026-05-27
author: Florestan Peters
source: https://hi-desk.de/de/blog/wie-funktioniert-eine-telefon-ki/

---

# Wie funktioniert eine Telefon-KI? Spracherkennung, Sprachmodell, Sprachausgabe

Eine Telefon-KI verarbeitet jeden Anruf in drei Schritten, die in Echtzeit ablaufen. Zuerst wandelt die Spracherkennung (Speech-to-Text) das Gesagte in Text um. Dann versteht ein Sprachmodell (LLM) das Anliegen und formuliert eine Antwort. Zuletzt spricht die Sprachausgabe (Text-to-Speech) diese Antwort mit natürlicher Stimme. Alles zusammen dauert nur Sekundenbruchteile.

## Das Wichtigste auf einen Blick

- **Drei Bausteine:** Spracherkennung (STT), Sprachmodell (LLM) und Sprachausgabe (TTS) bilden zusammen die Telefon-KI, vergleichbar mit Ohr, Gehirn und Stimme.
- **Echtzeit zählt:** Damit ein Gespräch flüssig wirkt, sollte die Antwort unter 800 Millisekunden beginnen. Über 1,5 Sekunden entsteht eine spürbare Pause.
- **Zwei Bauweisen:** Die klassische Pipeline durchläuft drei getrennte Schritte, ein Live-Modell (Speech-to-Speech) verarbeitet Sprache direkter. Am Telefon hat die Pipeline klare Vorteile.
- **Verstehen plus Handeln:** Den eigentlichen Nutzen bringt nicht das Erkennen, sondern dass der Assistent danach handelt, etwa Termine bucht oder weiterleitet.
- **Daten sind die Grundlage:** Ein Sprachmodell antwortet nur so gut wie die hinterlegte Wissensdatenbank. Klare Grenzen verhindern, dass es etwas erfindet.
- **Transparenzpflicht:** Nach EU AI Act muss der Assistent offenlegen, dass er kein Mensch ist.

## Die drei Schritte im Überblick

| Schritt | Technik | Aufgabe | Vergleich |
|---|---|---|---|
| 1. Spracherkennung | Speech-to-Text (STT) | wandelt gesprochene Sprache in Text um | das Ohr |
| 2. Sprachmodell | Large Language Model (LLM) | versteht das Anliegen und formuliert die Antwort | das Gehirn |
| 3. Sprachausgabe | Text-to-Speech (TTS) | spricht die Antwort mit natürlicher Stimme | die Stimme |

Diese drei Bausteine laufen nicht streng nacheinander, sondern greifen ineinander. Während der Anrufer noch spricht, läuft die Erkennung bereits mit, und sobald das Sprachmodell die ersten Wörter formuliert hat, beginnt die Sprachausgabe schon zu sprechen. Genau diese Verzahnung entscheidet darüber, ob sich ein Gespräch natürlich anfühlt.

## Schritt 1: Spracherkennung (Speech-to-Text)

Sobald der Anrufer spricht, zerlegt die Spracherkennung das Audiosignal und schreibt es in Text um. Moderne Systeme erkennen dabei auch Dialekte, Nuscheln und Nebengeräusche. Große Modelle wie Whisper sind auf rund 680.000 Stunden Audiomaterial trainiert und kommen mit regionalen Akzenten und unsauberer Akustik deutlich besser zurecht als kleinere Varianten.

Diese Genauigkeit ist die Grundlage für alles Weitere. Was hier falsch verstanden wird, kann das Sprachmodell danach nicht mehr korrigieren. Eine Besonderheit am Telefon ist die begrenzte Tonqualität: Telefonie überträgt nur einen schmalen Frequenzbereich, was die Erkennung erschwert. Telefonie-optimierte Modelle sind genau dafür ausgelegt.

Praktisch wichtig ist auch das sogenannte Endpointing, also die Erkennung, wann der Anrufer mit dem Satz fertig ist. Reagiert das System zu früh, fällt es dem Anrufer ins Wort. Wartet es zu lange, entsteht eine unangenehme Pause. Schon die Spracherkennung kostet typischerweise 150 bis 300 Millisekunden, bevor der Text überhaupt beim Sprachmodell ankommt.

## Schritt 2: Sprachmodell (LLM)

Der Text geht an ein Sprachmodell. Es erfasst das Anliegen, auch wenn der Anrufer frei formuliert, und gleicht es mit der hinterlegten Wissensdatenbank ab (Öffnungszeiten, Preise, häufige Fragen). Auf dieser Basis formuliert es eine Antwort.

Über Schnittstellen kann das Modell zusätzlich handeln, etwa einen Termin im Kalender buchen oder den Anruf weiterleiten. Damit das Modell nichts erfindet, braucht es klare Grenzen und gepflegte Daten. Wie Sie das absichern, lesen Sie unter [Halluzinationen am Telefon verhindern](/de/blog/telefon-ki-halluzinationen-verhindern).

Das Sprachmodell ist meist der langsamste Baustein. Die Zeit bis zum ersten Wort (Time-to-First-Token) liegt bei aktuellen Modellen häufig zwischen 400 und 800 Millisekunden. Damit das Gespräch trotzdem flüssig bleibt, beginnt die Sprachausgabe bereits mit den ersten formulierten Wörtern, statt auf den kompletten Satz zu warten.

Wichtig ist die Rolle, die das Modell hat. Es ist kein Lexikon, das alles weiß, sondern ein Sprachverarbeiter, der mit den hinterlegten Informationen arbeitet. Fehlt eine Information in der Wissensdatenbank, sollte das Modell das offen sagen oder weiterleiten, statt eine plausibel klingende, aber falsche Antwort zu erfinden. Genau dieses Verhalten unterscheidet einen zuverlässigen Assistenten von einer netten Spielerei.

> Tipp: Halten Sie die Wissensdatenbank schlank und aktuell. Je präziser die hinterlegten Fakten, desto seltener muss das Sprachmodell raten, und desto schneller und verlässlicher antwortet es.

## Schritt 3: Sprachausgabe (Text-to-Speech)

Die fertige Antwort wird in gesprochene Sprache umgewandelt. Aktuelle Stimmen klingen natürlich, mit Betonung und Sprechpausen, sodass sich das Gespräch kaum von einem menschlichen unterscheidet. Moderne TTS-Systeme liefern den ersten Ton oft schon nach 75 bis 200 Millisekunden, sodass die Antwort fast verzögerungsfrei einsetzt.

Der Assistent stellt sich dabei standardmäßig als digitaler Assistent vor, wie es der EU AI Act vorsieht; diese Begrüßung lässt sich anpassen, weshalb Betreiber den Hinweis aktiviert lassen sollten. Artikel 50 der KI-Verordnung verlangt ab dem 2. August 2026, dass Menschen darüber informiert werden, wenn sie mit einem KI-System interagieren. Eine kurze Vorstellung zu Beginn des Anrufs erfüllt diese Pflicht und schafft zugleich Vertrauen.

## Warum Latenz entscheidend ist

Am Telefon fehlt das Bild. Jede Verzögerung fällt deshalb stärker auf als im Chat. Wenn nach einer Frage eine lange Pause entsteht, wirkt das Gespräch sofort holprig. Als Faustregel gilt: Unter 800 Millisekunden fühlt sich eine Antwort natürlich an, zwischen 800 und 1.200 Millisekunden bleibt sie für Geschäftsgespräche akzeptabel, ab etwa 1.500 Millisekunden wird die Pause unangenehm spürbar.

So setzt sich die Antwortzeit in einem typischen Gespräch zusammen:

| Baustein | Aufgabe | Typische Zeit |
|---|---|---|
| Spracherkennung (STT) | Audio in Text, inklusive Endpointing | 150 bis 300 ms |
| Sprachmodell (LLM) | erstes Wort der Antwort | 400 bis 800 ms |
| Sprachausgabe (TTS) | erster hörbarer Ton | 75 bis 200 ms |

Die Zeiten addieren sich nicht einfach, weil die Schritte sich überlappen. Genau deshalb müssen alle drei eng verzahnt laufen und schon zu sprechen beginnen, während intern noch verarbeitet wird. Ein rein nacheinander abgearbeiteter Ablauf erreicht selbst mit schnellen Einzelkomponenten kaum die angestrebte Sekunde.

## Pipeline oder Live-Modell (Speech-to-Speech)?

Es gibt zwei Bauweisen. Die klassische Pipeline durchläuft die drei Schritte nacheinander. Ein Live-Modell (Speech-to-Speech) verarbeitet Sprache direkter, ohne den Umweg über getrennte Textschritte.

| Merkmal | Pipeline (STT, LLM, TTS) | Live-Modell (Speech-to-Speech) |
|---|---|---|
| Aufbau | drei getrennte Schritte | ein durchgängiges Modell |
| Latenz | gering bei guter Abstimmung | sehr gering bei guter Tonqualität |
| Kontrolle über Antworten | hoch, jeder Schritt prüfbar | geringer, schwerer steuerbar |
| Natürlichkeit | sehr gut | oft besonders natürlich, gutes Gespür für Tonfall |
| Reife für Telefonie | hoch und bewährt, telefonie-optimierte Komponenten verfügbar | jünger, Vorteil schrumpft über die Telefonleitung |

Der Geschwindigkeitsvorteil des Live-Modells zeigt sich vor allem bei hochwertigem Web-Audio. Über das klassische Telefonnetz, das nur einen schmalen Frequenzbereich überträgt, schrumpft dieser Vorteil deutlich, während der Preis meist höher bleibt. Die Pipeline bietet dafür mehr Kontrolle: Jeder Schritt lässt sich einzeln prüfen, und für STT, LLM und TTS können telefonie-optimierte Komponenten gewählt werden. Für den geschäftlichen Telefoneinsatz ist die Pipeline daher häufig die verlässlichere und kostengünstigere Wahl.

## Vom Verständnis zur Aktion

Verstehen ist nur die halbe Miete. Den eigentlichen Nutzen bringt, dass der Assistent danach handelt: Termine bucht, Anrufe weiterleitet oder den Fall ins CRM schreibt. Damit das gelingt, muss das Sprachmodell strukturiert auf Schnittstellen zugreifen, etwa auf einen Kalender oder ein Ticketsystem.

Ein konkretes Beispiel: Ein Anrufer sagt "Ich brauche nächste Woche einen Termin, am liebsten Dienstagvormittag." Die Spracherkennung schreibt den Satz mit, das Sprachmodell erkennt Absicht (Terminbuchung), Zeitraum (nächste Woche) und Wunsch (Dienstagvormittag), prüft den Kalender über die Schnittstelle und schlägt einen freien Slot vor. Bestätigt der Anrufer, wird der Termin eingetragen und der Fall protokolliert. Vom ersten Wort bis zur bestätigten Buchung vergehen so oft weniger als 30 Sekunden, ohne dass ein Mensch eingreifen muss.

Wie der Ablauf in der Praxis klingt und welche Aktionen sinnvoll sind, ordnet der Überblick [Was ein KI-Telefonassistent insgesamt leistet](/de/blog/was-ist-ein-ki-telefonassistent) ein. Wie sich ein solcher Assistent von älteren Systemen abgrenzt, zeigt der [Vergleich von KI-Telefonassistent, IVR und Voicebot](/de/blog/ki-telefonassistent-vs-ivr-voicebot).

## Was während eines ganzen Anrufs passiert

Die drei Bausteine erklären den Weg von einer Frage zu einer Antwort. Ein echtes Telefonat besteht aber aus vielen solcher Runden, und genau in der Steuerung dieser Runden steckt viel Feinarbeit.

Drei Dinge sind dabei besonders wichtig:

- **Gesprächskontext:** Das System merkt sich, was vorher gesagt wurde. Fragt der Anrufer "Und wie spät machen Sie auf?" nachdem zuvor von Samstag die Rede war, bezieht der Assistent die Antwort korrekt auf den Samstag. Ohne dieses Gedächtnis wirkt jede Antwort isoliert.
- **Unterbrechungen (Barge-in):** Spricht der Anrufer mitten in die Antwort hinein, sollte der Assistent verstummen und zuhören, statt stur weiterzureden. Gute Systeme erkennen das in Sekundenbruchteilen.
- **Turn-Taking:** Der Wechsel zwischen Zuhören und Sprechen muss flüssig sein. Hier zahlt sich das bereits beschriebene Endpointing aus, also das saubere Erkennen des Satzendes.

Erst diese Steuerung macht aus drei Bausteinen ein Gespräch, das sich natürlich anfühlt. Technik allein, die nur Frage und Antwort kennt, wirkt schnell mechanisch.

## Rechenbeispiel: ein Anruf in Zahlen

Wie viel ein flüssiges Gespräch wert ist, zeigt ein einfaches Rechenbeispiel. Angenommen, eine Praxis erhält pro Tag 40 Anrufe, von denen 12 in Stoßzeiten unbeantwortet bleiben, weil das Team gerade keine Hand frei hat. Jeder verpasste Anruf, der einen Termin gebracht hätte, ist ein direkter Verlust.

Eine Telefon-KI nimmt alle 40 Anrufe parallel an. Dauert ein Standardgespräch (Begrüßung, Anliegen, Terminbuchung, Verabschiedung) im Schnitt rund zwei Minuten und antwortet das System pro Runde in etwa einer Sekunde statt in drei, wirkt das Gespräch nicht nur natürlicher. Es bleibt auch in Stoßzeiten jeder Anrufer betreut, statt in der Warteschleife aufzulegen. Aus 28 beantworteten Anrufen werden 40, ohne dass zusätzliches Personal nötig ist.

Diese Rechnung macht deutlich, warum Latenz und paralleles Annehmen keine technischen Details sind, sondern direkt auf das Geschäftsergebnis wirken.

## Wo die Verarbeitung stattfindet

Jeder der drei Schritte verarbeitet kurzzeitig den Inhalt des Gesprächs. Spracherkennung und Sprachmodell sehen, was der Anrufer sagt, und in vielen Fällen sind das personenbezogene Daten: ein Name, eine Telefonnummer, ein Anliegen. Wo diese Verarbeitung stattfindet und wie lange Daten gespeichert werden, ist deshalb keine Nebensache.

Für den Einsatz in Deutschland sind drei Fragen relevant:

1. **Serverstandort:** Werden die Sprachdaten in der EU verarbeitet, lässt sich der Datenschutz nach DSGVO leichter sauber regeln.
2. **Speicherdauer:** Werden Aufnahmen oder Transkripte nur so lange gehalten, wie es für die Bearbeitung nötig ist, oder dauerhaft archiviert?
3. **Auftragsverarbeitung:** Gibt es einen Vertrag zur Auftragsverarbeitung, der die Pflichten klar regelt?

Diese Punkte gehören zur Funktionsweise dazu, weil sie bestimmen, unter welchen Bedingungen die drei Bausteine überhaupt eingesetzt werden dürfen. Wer den Aufbau einer Telefon-KI versteht, kann diese Fragen gezielter stellen.

## Häufige Fehler in der Praxis

Viele Schwächen entstehen nicht durch die Technik selbst, sondern durch die Konfiguration. Diese Punkte tauchen besonders oft auf:

1. **Veraltete Wissensdatenbank:** Stehen falsche Öffnungszeiten oder Preise hinterlegt, gibt der Assistent zuverlässig falsche Auskünfte. Die Pflege der Daten ist wichtiger als jede Modellwahl.
2. **Zu enge Endpointing-Einstellung:** Reagiert das System zu früh, unterbricht es den Anrufer mitten im Satz. Eine kurze Toleranz wirkt natürlicher.
3. **Keine klare Eskalation:** Ohne definierten Weg an einen Menschen bleibt ein komplexer Fall stecken. Ein guter Assistent leitet im Zweifel weiter, statt zu raten.
4. **Latenz unterschätzt:** Wer nur auf günstige Einzelkomponenten achtet, summiert leicht Verzögerungen auf, bis das Gespräch holprig wirkt. Entscheidend ist das eng verzahnte Zusammenspiel.

Bei Unklarheit gilt: Lieber nachfragen als raten. Ein gut eingestellter Assistent stellt eine kurze Rückfrage, statt eine unsichere Antwort zu geben.

## Fazit und nächster Schritt

Eine Telefon-KI verbindet drei Bausteine zu einem flüssigen Gespräch: Spracherkennung hört zu, das Sprachmodell versteht und entscheidet, die Sprachausgabe antwortet. Entscheidend für ein gutes Erlebnis sind die enge Verzahnung dieser Schritte, eine niedrige Latenz und gepflegte Daten als Grundlage. Für den Telefoneinsatz hat sich die Pipeline-Bauweise bewährt, weil sie Kontrolle und telefonie-optimierte Komponenten verbindet.

Hören Sie das Zusammenspiel der drei Schritte selbst und erleben Sie, wie sich rund eine Sekunde Antwortzeit anfühlt: [Live-Demo starten](https://hi-desk.de/de/live-demo/).

Genannte Marken sind Eigentum ihrer jeweiligen Inhaber.
