[Intum Dev](https://intum.dev.md) / [Narzędzia AI](https://intum.dev/narzedzia-ai.md)

# [Speech-to-Text API — porównanie dostawców transkrypcji rozmów telefonicznych](https://intum.dev/narzedzia-ai/speech-to-text-api-porownanie.md)

## Po co transkrypcja rozmów?

Masz moduł VoIP, call center, nagrywasz rozmowy — ale nikt ich nie odsłuchuje. Transkrypcja zamienia audio na tekst, który można przeszukiwać, analizować i podpinać pod tickety helpdesku.

Praktyczne zastosowania:

- Automatyczne podsumowanie rozmowy z klientem
- Wyszukiwanie po treści rozmów ("kto rozmawiał o reklamacji?")
- Analiza sentymentu i jakości obsługi
- Podpięcie transkrypcji pod ticket w helpdesku
- Szkolenie nowych pracowników na przykładach rozmów

## Dostawcy API — porównanie

### Specjaliści od real-time transkrypcji

To firmy, które zbudowały własne modele specjalnie pod transkrypcję rozmów w czasie rzeczywistym.

**Deepgram** — najszybszy do voice agents. Jedyny dostawca z STT + TTS + voice agent orchestration w jednym API. Latencja poniżej 300ms. Dobrze rozpoznaje polski. Cena od $0.0043/min dla pre-recorded, $0.0059/min dla real-time.

**AssemblyAI** — najniższy Word Error Rate w benchmarkach (8.14%). Model Universal-3 Pro Streaming z latencją ~150ms. Silna diaryzacja (rozpoznawanie kto mówi). Cena od $0.01/min.

**Gladia** — najlepszy do rozmów wielojęzycznych. Obsługuje code-switching (zmiana języka w trakcie zdania) w 100+ językach. Wbudowana diaryzacja. Model Solaria-1 z latencją 103ms. Cena $0.0092/min ($0.55/h).

**ElevenLabs STT** — nowy gracz, znany głównie z TTS. Speech-to-text z dobrą jakością polskiego. Cena od $0.01/min.

### Duzi gracze chmurowi

Sprawdzone rozwiązania od wielkich dostawców chmury — stabilne, dobrze udokumentowane, łatwa integracja jeśli już jesteś w ich ekosystemie.

**Google Cloud Speech-to-Text** — dedykowany model do rozmów telefonicznych ("phone_call" model). 125 języków, w tym polski. Cena $0.006/15s (~$0.024/min). Dobre jeśli jesteś na GCP.

**Azure AI Speech** — 140+ języków i dialektów. Real-time i batch. Dobra integracja z Microsoft ekosystemem. Cena od $0.01/min.

**Amazon Transcribe** — solidne rozwiązanie w ramach AWS. 100+ języków. Call Analytics z wbudowaną analizą sentymentu. Cena $0.024/min.

### Open-source / self-hosted

**OpenAI Whisper** — model open-source od OpenAI. 100 języków z automatycznym wykrywaniem. Bardzo dobra jakość polskiego. Można hostować na własnych serwerach (pełna kontrola nad danymi, zero kosztów per-minute). Przez API OpenAI: $0.006/min. Idealny do transkrypcji po zakończeniu rozmowy (batch).

## Tabela porównawcza

| Dostawca | Polski | Real-time | Latencja | Cena/min | Koszt 10 min rozmowy | Diaryzacja | Uwagi |
|----------|--------|-----------|----------|----------|---------------------|------------|-------|
| **Deepgram** | Tak | Tak | ~300ms | $0.0059 | ~$0.06 | Tak | STT+TTS+voice agent w jednym API |
| **AssemblyAI** | Tak | Tak | ~150ms | $0.01 | ~$0.10 | Tak | Najniższy WER (8.14%) |
| **Gladia** | Tak | Tak | 103ms | $0.0092 | ~$0.09 | Tak (wbudowana) | Code-switching, 100+ języków |
| **ElevenLabs** | Tak | Tak | ~200ms | $0.01 | ~$0.10 | Tak | Nowy, dobra jakość |
| **Google Cloud** | Tak | Tak | ~300ms | $0.024 | ~$0.24 | Tak | Model "phone_call" |
| **Azure Speech** | Tak | Tak | ~300ms | $0.01 | ~$0.10 | Tak | 140+ języków |
| **Amazon Transcribe** | Tak | Tak | ~500ms | $0.024 | ~$0.24 | Tak | Call Analytics wbudowane |
| **OpenAI Whisper (API)** | Tak | Nie | batch | $0.006 | ~$0.06 | Nie* | Najtaniej, bardzo dobra jakość PL |
| **OpenAI Whisper (self-hosted)** | Tak | Nie** | batch | $0.00 | $0.00*** | Nie* | Pełna kontrola nad danymi |

\* Whisper nie ma wbudowanej diaryzacji, ale można ją dodać biblioteką pyannote
\*\* Można zrobić quasi-real-time przez streaming chunków, ale to nie jest natywne
\*\*\* Koszt to tylko infrastruktura (GPU) — przy GPU za ~$0.50/h to ~$0.08 za 10 min

## Koszt miesięczny — szacunek

Przykład: firma z 500 rozmowami dziennie, średnio 5 minut każda = 2500 minut/dzień = ~75 000 minut/miesiąc.

| Dostawca | Koszt/miesiąc (75k min) |
|----------|------------------------|
| Deepgram | ~$443 |
| AssemblyAI | ~$750 |
| Gladia | ~$690 |
| Google Cloud | ~$1 800 |
| Azure Speech | ~$750 |
| Amazon Transcribe | ~$1 800 |
| OpenAI Whisper API | ~$450 |
| Whisper self-hosted | ~$300-500 (koszt GPU) |

## Co wybrać?

**Potrzebujesz transkrypcji na żywo (w trakcie rozmowy)?**
→ Deepgram lub AssemblyAI. Najniższa latencja, najlepsza jakość real-time.

**Wystarczy transkrypcja po rozmowie (batch)?**
→ OpenAI Whisper (API lub self-hosted). Najtaniej, bardzo dobra jakość polskiego.

**Rozmowy w wielu językach (np. klient polski, support angielski)?**
→ Gladia. Jedyny z natywnym code-switching.

**Jesteś na AWS/GCP/Azure i chcesz minimalną integrację?**
→ Użyj usługi swojego cloud providera. Drożej, ale zero dodatkowej infrastruktury.

**Zależy Ci na prywatności danych (RODO, dane medyczne)?**
→ Whisper self-hosted. Dane nie opuszczają Twoich serwerów.

## Integracja z VoIP

Większość dostawców oferuje WebSocket API do real-time streaming — podłączasz strumień audio z rozmowy VoIP bezpośrednio do API. Dla batch wystarczy wysłać plik nagrania po zakończeniu rozmowy.

Typowy flow:

1. Rozmowa VoIP → nagranie audio (WAV/MP3)
2. Wysłanie do STT API → tekst transkrypcji
3. Zapisanie transkrypcji przy tickecie / połączeniu
4. Opcjonalnie: podsumowanie przez LLM (np. Claude/GPT)