# Telefon-KI selbst bauen (n8n plus Voice-API) oder fertige Lösung kaufen?

> Telefon-KI selbst bauen mit n8n und Voice-API oder fertige Lösung kaufen? Ein ehrlicher Vergleich von Aufwand, Kosten und Wartung, mit Tabelle und Fazit.

date: 2026-06-14
author: Florestan Peters
source: https://hi-desk.de/de/blog/ki-telefonassistent-selbst-bauen-oder-kaufen/

---

# Telefon-KI selbst bauen (n8n plus Voice-API) oder fertige Lösung kaufen?

Eine Telefon-KI lässt sich mit n8n, einer Telefonie- und Voice-API und einem Sprachmodell selbst bauen. Für einen Prototyp reichen Tage, für verlässlichen Produktivbetrieb braucht es jedoch viel mehr Aufbau, Tests und laufende Wartung. Für die meisten KMU ist eine fertige Lösung schneller startklar und über die Gesamtkosten betrachtet günstiger.

## Das Wichtigste auf einen Blick

- **Vier bis fünf Bausteine müssen zusammenspielen.** Telefonie, Spracherkennung, Sprachmodell, Sprachausgabe und eine Ablaufsteuerung wie n8n. Jeden davon wählen, verbinden und pflegen Sie selbst.
- **Die Nutzungsgebühren wirken niedrig, die Arbeitszeit nicht.** In der Produktion landen All-in-Kosten je nach Modellwahl realistisch bei rund 0,25 bis 0,33 US-Dollar pro Gesprächsminute, dazu kommt erhebliche Entwicklungs- und Wartungszeit.
- **Latenz ist die größte technische Hürde.** Für ein natürliches Gespräch sollte die Antwortzeit unter etwa 500 Millisekunden liegen. Das sauber hinzubekommen ist im Eigenbau anspruchsvoll.
- **Datenschutz liegt komplett bei Ihnen.** Jeder Dienst im Stack ist ein eigener Auftragsverarbeiter, AVV, EU-Datenhaltung und Löschkonzepte müssen Sie selbst regeln.
- **Für Standardfälle im KMU gewinnt meist "kaufen".** Eine fertige Lösung ist oft in Minuten eingerichtet, die Wartung übernimmt der Anbieter.

## Was beim Eigenbau zusammenkommt

Eine selbst gebaute Telefon-KI ist kein einzelnes Tool, sondern ein Zusammenspiel mehrerer Bausteine. Jeder davon muss ausgewählt, verbunden, getestet und gepflegt werden.

| Baustein | Aufgabe | Beispielhafte Bausteine |
|---|---|---|
| Telefonie-Anbindung | Anruf annehmen und Audio übertragen | SIP-Trunk oder Telefonie-API (etwa Twilio, sipgate, easybell) |
| Sprache zu Text (STT) | gesprochenes Wort in Text wandeln | Speech-to-Text-Dienst (etwa Deepgram, AssemblyAI) |
| Sprachverständnis | Anliegen erkennen, Antwort formulieren | Sprachmodell (LLM) |
| Text zu Sprache (TTS) | Antwort als natürliche Stimme ausgeben | Text-to-Speech-Dienst (etwa ElevenLabs) |
| Ablaufsteuerung | Schritte verketten, an Systeme übergeben | n8n als Orchestrierung |

Plattformen wie Vapi oder Retell AI bündeln einen Teil dieser Bausteine bereits und lassen sich per Webhook an n8n anbinden. Das verkürzt den Start, verschiebt die Komplexität aber nur, statt sie aufzulösen. Sie tauschen einen Teil der Bastelarbeit gegen eine zusätzliche Abhängigkeit und deren Preisliste ein.

Wichtig zu verstehen: Diese Plattformen sind selbst nur ein Bündel aus denselben Bausteinen. Sie wählen weiterhin Telefonie, Spracherkennung, Sprachmodell und Stimme aus, konfigurieren Unterbrechungsverhalten und Gesprächslogik und tragen die Verantwortung für jede Integration. Der "Eigenbau light" über eine Plattform spart Verkabelung, nimmt Ihnen aber weder das Prompt-Design noch die Tests mit echten Anrufern ab.

> Tipp: Bauen Sie den Prototyp bewusst klein. Ein einziger sauber funktionierender Anwendungsfall (zum Beispiel Terminannahme) sagt mehr über den echten Aufwand aus als zehn halbfertige.

## So spielen die Bausteine in Echtzeit zusammen

Der Knackpunkt ist nicht die Funktion an sich, sondern das Timing. Während der Anrufer spricht, läuft der Audiostrom an die Spracherkennung, das Sprachmodell formuliert eine Antwort, und die Sprachausgabe wandelt sie zurück in eine Stimme. Diese Kette muss bei jedem Gesprächsschritt in Sekundenbruchteilen durchlaufen werden.

Für ein Gespräch, das nicht stockt, sollte die Zeit zwischen dem Ende einer Anruferäußerung und dem ersten Ton der KI unter etwa 500 Millisekunden liegen. Gut abgestimmte Kombinationen aus schneller Spracherkennung, einem kompakten Sprachmodell und einer latenzarmen Sprachausgabe erreichen das, brauchen dafür aber sorgfältige Konfiguration.

Dazu kommt die Robustheit im Alltag. Bei Hintergrundgeräuschen ohne vorgeschalteten Rauschfilter steigt die Fehlerquote der Spracherkennung deutlich an, in Tests auf über 20 Prozent. Wie eine Telefon-KI technisch im Detail funktioniert, also welche Bausteine im Hintergrund zusammenspielen, lesen Sie in unserem Beitrag [wie eine Telefon-KI funktioniert](/de/blog/wie-funktioniert-eine-telefon-ki).

## Das 500-Millisekunden-Budget genauer aufgeschlüsselt

Wer die Latenz im Eigenbau ernst nimmt, sollte sie als Budget begreifen, das sich auf die einzelnen Schritte verteilt. Die menschliche Erwartung an ein Gespräch liegt bei einer Antwortlücke von rund 300 bis 500 Millisekunden. Wird die ganze Kette langsamer als etwa 700 Millisekunden, wirkt das Gespräch zäh, Anrufer beginnen, sich zu wiederholen oder ins Wort zu fallen.

Grob verteilt sich die Zeit so:

- **Spracherkennung (STT):** je nach Dienst rund 100 bis 500 Millisekunden. Schnelle Streaming-Modelle liefern erste Teilergebnisse in etwa 150 Millisekunden.
- **Sprachmodell (LLM):** der größte und schwankungsanfälligste Posten, rund 350 Millisekunden bis über eine Sekunde, je nach Modellgröße und Auslastung.
- **Sprachausgabe (TTS):** rund 75 bis 200 Millisekunden bis zum ersten hörbaren Ton.
- **Netzwerk und Verarbeitung:** noch einmal einige Dutzend Millisekunden, die in der Summe zählen.

Naiv hintereinander gerechnet liegt eine solche Kette schnell bei rund einer Sekunde, also klar über dem Ziel. Erst Streaming bringt sie nach unten: Wenn die Spracherkennung Teilergebnisse schon während des Sprechens weitergibt und das Sprachmodell die ersten Tokens direkt in die Sprachausgabe streamt, lassen sich pro Schritt zwischen 200 und 500 Millisekunden einsparen. Diese Orchestrierung von Streams ist im Eigenbau eine der anspruchsvollsten Aufgaben und einer der Hauptgründe, warum ein Demo-Anruf flüssig wirkt, der Produktivbetrieb aber stockt.

Eine Abkürzung sind multimodale Echtzeitmodelle (etwa OpenAI Realtime oder Gemini Live), die Audio direkt verarbeiten und ausgeben, statt die klassische Kette aus STT, LLM und TTS zu durchlaufen. Das senkt die Latenz, koppelt Sie aber eng an einen einzelnen Anbieter und dessen Datenschutz- und Preismodell.

## Selbst bauen gegen kaufen: der ehrliche Vergleich

| Kriterium | Selbst bauen (n8n plus Voice-API) | Fertige Lösung kaufen |
|---|---|---|
| Aufwand bis Start | hoch: Auswahl, Aufbau, Tests aller Bausteine | gering: Konto anlegen, einrichten |
| Einrichtungszeit | Prototyp in Tagen, Produktivbetrieb deutlich länger | oft rund 5 Minuten bis erste Einrichtung |
| Laufende Kosten | Nutzungsgebühren je Baustein plus eigene Arbeitszeit | fester Monatspreis, hier 59 bis 649 € |
| Wartung | dauerhaft selbst: Updates, Fehler, Ausfälle | übernimmt der Anbieter |
| Ausfallsicherheit | selbst verantwortet | im Betrieb des Anbieters enthalten |
| Datenschutz | Hosting, AVV je Dienst, Löschkonzept selbst | bei EU-Hosting weitgehend abgedeckt |
| Flexibilität | sehr hoch, jede Logik selbst baubar | hoch im Rahmen der Konfiguration |
| Nötiges Know-how | Entwicklung und Betrieb im Haus erforderlich | kein Entwicklungswissen nötig |

## Die versteckten Kosten des Eigenbaus

Die reinen Nutzungsgebühren der Bausteine sind oft niedrig, und genau das macht den Eigenbau auf den ersten Blick attraktiv. Eine Minute Spracherkennung kostet je nach Anbieter grob 0,003 bis 0,012 US-Dollar, ein eingehender Anruf über einen Telefonie-Anbieter wie Twilio liegt für Deutschland im Bereich von rund 0,01 US-Dollar pro Minute, dazu eine Rufnummer für etwa 1 US-Dollar im Monat.

Rechnet man die ganze Kette zusammen (Telefonie plus Spracherkennung plus Sprachmodell plus Sprachausgabe), landet der Minutenpreis in der Praxis je nach Modellwahl meist zwischen rund 0,25 und 0,33 US-Dollar. Das ist tragbar, aber nicht der eigentliche Posten.

Den größeren Posten bildet die Arbeitszeit: Auswahl der Komponenten, Verbindung über n8n, Fehlerbehandlung, natürliche Gesprächsführung, Weiterleitung an Menschen, Tests mit echten Anrufen und danach die laufende Pflege. Kommt eine Komponente in eine neue Version oder ändert sich eine Schnittstelle, müssen Sie nachziehen. Diese Dauerlast trägt bei einer fertigen Lösung der Anbieter. Wenn Sie ohnehin mit n8n arbeiten, lohnt der Blick darauf, wie sich eine fertige Telefon-KI [über n8n und Make anbinden](/de/blog/make-n8n-ki-telefonassistent) lässt, statt die ganze Sprachkette selbst zu betreiben.

Eine ehrliche Rechnung berücksichtigt auch, dass Plattformpreise nur als Startwert wirken. Bei einem typischen Volumen von 10.000 Minuten landen verschiedene Voice-Plattformen rechnerisch sehr unterschiedlich, je nachdem, welche Bausteine im Preis enthalten sind und welche separat abgerechnet werden. Effektiv liegen die Spannen je nach Plattform und Modellwahl grob zwischen rund 0,07 und 0,14 US-Dollar pro Minute, und das ist nur die Technik, ohne einen einzigen Cent für Ihre Arbeitszeit.

## Worked Example: ein Praxisbeispiel mit echten Zahlen

Nehmen wir eine kleine Praxis oder Kanzlei mit 600 angenommenen Anrufen im Monat zu durchschnittlich drei Minuten, zusammen also 1.800 Gesprächsminuten.

- **Reine Bausteinkosten:** Bei rund 0,30 US-Dollar pro Minute ergeben 1.800 Minuten etwa 540 US-Dollar, umgerechnet grob 500 € im Monat, nur für die Technik.
- **Einmaliger Aufbau:** Auswahl, Verkabelung über n8n, Prompt-Design, Fehlerbehandlung und Tests mit echten Anrufen summieren sich schnell auf mehrere Personentage.
- **Laufende Pflege:** Modell-Updates, Schnittstellenänderungen und Tuning der Gesprächsführung kosten jeden Monat Zeit, die im Tagesgeschäft fehlt.

Eine fertige Lösung mit festem Monatspreis (hier 59 bis 649 €) macht diesen Posten planbar und nimmt Ihnen Aufbau und Pflege ab. Was eine fertige Lösung im Monat kostet und welche Pakete es gibt, zeigt unser Beitrag [was ein KI-Telefonassistent kostet](/de/blog/was-kostet-ein-ki-telefonassistent).

## Was im Betrieb dauerhaft Arbeit macht

Der Aufbau ist nur der Anfang. Eine selbst betriebene Telefon-KI ist ein laufendes System, das wie jede produktive Software gepflegt werden muss. Drei Themen unterschätzt man im Eigenbau besonders leicht.

Erstens das Hosting der Ablaufsteuerung. Wer n8n selbst hostet, spart Plattformgebühren, übernimmt dafür aber Updates, Sicherheits-Patches und Verfügbarkeit. Für Telefonie reicht ein Standard-Setup oft nicht, weil zusätzliche Latenz die Sprachantwort spürbar verzögert. Für höhere Lasten und Ausfallsicherheit braucht es eine robustere Architektur, etwa den Queue-Modus mit getrennten Worker-Prozessen, damit gleichzeitige Anrufe nicht ins Stocken geraten.

Zweitens die Zuverlässigkeit der Webhooks. Die ganze Kette hängt daran, dass eingehende Ereignisse von Telefonie und Voice-Plattform zuverlässig bei n8n ankommen. In der Praxis scheitern selbst gehostete Webhooks regelmäßig an Konfigurationsdetails, etwa wenn ein vorgeschalteter Schutzdienst Anfragen blockiert, bevor sie den Server erreichen. Jede solche Störung ist ein verpasster oder abgebrochener Anruf.

Drittens das Monitoring. Sie brauchen Alarme, wenn ein Dienst ausfällt, Auswertungen, warum ein Gespräch nicht funktioniert hat, und einen Plan für den Fall, dass ein Anbieter eine Schnittstelle ändert oder ein Modell abkündigt. Diese Betriebsarbeit ist genau das, was eine fertige Lösung im Monatspreis bündelt.

## Datenschutz: der unterschätzte Aufwand

Im Eigenbau ist jeder einzelne Dienst im Stack ein eigener Auftragsverarbeiter. Für Telefonie, Spracherkennung, Sprachmodell und Sprachausgabe brauchen Sie jeweils einen Auftragsverarbeitungsvertrag (AVV), und Sie müssen prüfen, wo die Daten liegen und ob eine EU-Datenhaltung gegeben ist.

Dazu kommen Pflichten, die unabhängig vom Anbieter bei Ihrem Unternehmen liegen: die Anrufer informieren, eine Rechtsgrundlage dokumentieren und Lösch- sowie Aufbewahrungsregeln technisch umsetzen. Automatische Löschworkflows müssen tatsächlich implementiert sein, manuelle Prozesse skalieren nicht und sind fehleranfällig.

Eine fertige Lösung mit Hosting in der EU bündelt einen Großteil dieser Arbeit beim Anbieter. Welche Punkte beim Datenschutz konkret zählen, fasst unser Beitrag zu DSGVO und KI-Telefonassistent zusammen.

## Transparenzpflicht nach EU AI Act ab August 2026

Ein Punkt, der im Eigenbau gern vergessen wird, ist die Kennzeichnung. Nach Artikel 50 der KI-Verordnung gelten ab dem 2. August 2026 Transparenzpflichten für Systeme, die direkt mit Menschen interagieren. Anrufer müssen unmissverständlich und bereits zu Beginn des Gesprächs erkennen können, dass sie mit einer KI sprechen und nicht mit einem Menschen.

Diese Pflicht trifft den Betreiber, also Sie, unabhängig davon, ob Sie selbst bauen oder kaufen. Praktisch heißt das: Die Begrüßung der Telefon-KI muss den KI-Einsatz offenlegen. Jede einzelne Antwort gesondert zu kennzeichnen, ist nicht nötig, der klare Hinweis am Gesprächsanfang dagegen schon. Verstöße fallen unter die zweite Sanktionsstufe der Verordnung mit Bußgeldern von bis zu 15 Millionen Euro oder 3 Prozent des weltweiten Jahresumsatzes.

Im Eigenbau müssen Sie diesen Hinweis selbst in das Begrüßungs-Skript einbauen, dokumentieren und bei jeder Skript-Änderung mitführen. Eine fertige Lösung liefert die Kennzeichnung üblicherweise als konfigurierbaren Baustein mit. Mehr zum regulatorischen Rahmen lesen Sie in unserem Beitrag zu DSGVO und KI-Telefonassistent (oben verlinkt).

## In 4 Schritten zur richtigen Entscheidung

1. **Anwendungsfall klären:** Brauchen Sie Standardfälle wie Terminannahme und Rückrufe, oder sehr spezielle, eigene Abläufe?
2. **Know-how prüfen:** Haben Sie Entwicklungs- und Betriebs-Know-how im Haus, das auch die Wartung dauerhaft leisten kann?
3. **Gesamtkosten rechnen:** Stellen Sie nicht nur Nutzungsgebühren, sondern auch Arbeitszeit und Wartung den festen Monatspreisen gegenüber.
4. **Datenschutz bewerten:** Können Sie Hosting, AVV je Dienst und Löschkonzepte selbst verantworten, oder soll das der Anbieter abdecken?

Für die meisten KMU mit Standardanliegen fällt die Antwort auf "kaufen", weil Setup in wenigen Minuten möglich ist und die Wartung entfällt.

## Eine kurze Checkliste vor dem Eigenbau

Bevor Sie in den Eigenbau einsteigen, sollten Sie ehrlich vier Fragen mit Ja beantworten können. Fällt auch nur eine davon auf Nein, spricht das stark für die fertige Lösung.

- **Personal:** Steht eine Person bereit, die das System nicht nur baut, sondern dauerhaft betreut, inklusive Bereitschaft bei Ausfällen?
- **Volumen:** Ist Ihr Anrufvolumen so groß oder so speziell, dass sich der Aufwand gegenüber einem festen Monatspreis überhaupt rechnet?
- **Latenz-Anspruch:** Können Sie die Sprachkette so optimieren, dass Antworten zuverlässig unter rund 500 Millisekunden bleiben, auch unter Last?
- **Compliance:** Sind AVV je Dienst, EU-Datenhaltung, Löschkonzept und die KI-Kennzeichnung nach Artikel 50 von Anfang an mitgedacht?

## Häufige Fehler beim Eigenbau

- **Den Prototyp mit dem Produkt verwechseln.** Ein Demo-Anruf im ruhigen Büro funktioniert leicht. Der Abstand zwischen diesem Prototyp und stabilem Betrieb mit echten Anrufern ist größer, als die meisten Tutorials vermuten lassen.
- **Latenz und Störgeräusche unterschätzen.** Ohne Rauschfilter und ohne latenzoptimierte Kette wirkt das Gespräch zäh, und die Spracherkennung patzt bei Nebengeräuschen.
- **Fehlerbehandlung und Eskalation vergessen.** Was passiert, wenn ein Dienst ausfällt oder die KI ein Anliegen nicht versteht? Ohne saubere Weiterleitung an einen Menschen bleibt der Anrufer im Nichts.
- **Datenschutz nachträglich anflanschen.** AVVs, EU-Datenhaltung und Löschkonzepte gehören von Beginn an in die Architektur. Nachträglich ist das teuer.
- **Die Betriebskosten ausblenden.** Hosting, Monitoring, Bereitschaft und das Nachziehen bei Schnittstellenänderungen tauchen in keinem Tutorial-Preis auf, kosten aber dauerhaft Zeit und Geld.

## Wann der Eigenbau trotzdem Sinn ergibt

Ehrlich bleibt fair: Wenn Sie sehr spezielle Abläufe brauchen, eigenes Entwickler-Know-how im Haus haben und die Wartung dauerhaft tragen können, kann der Eigenbau passen. Für alle, die schnell und ohne eigenes Technikteam starten wollen, ist die fertige Lösung der pragmatische Weg.

Sehen Sie selbst, wie schnell eine fertige Lösung einsatzbereit ist: [Live-Demo starten](https://hi-desk.de/de/live-demo/).

Genannte Marken sind Eigentum ihrer jeweiligen Inhaber.