STT (음성 인식) – 현존 최고 성능
1단계: 리턴제로(ReturnZero) STT – 절대 최고 정확도naver+1
한국어 STT 중 절대적으로 가장 높은 정확도를 자랑하며, 평균 오류율 8% 이하 수준입니다. 유료 API 형태로만 운영되지만, 현재 기준으로 최고의 성능을 제공합니다.rtzr
특징:
- 실시간 스트리밍 STT 및 배치 STT 모두 지원developers.rtzr
- WebSocket 및 gRPC 방식 API 제공developers.rtzr+1
- 단어 단위 confidence score 제공
- 한국어에 최적화된 도메인 특화 모델
가격 정책:developers.rtzr
- T1 (0~1,000시간): 시간당 1,000원
- T2 (1,001~10,000시간): 시간당 500원
- T3 (10,000~25,000시간): 시간당 400원
- T4 (25,000시간 초과): 시간당 300원
- 무료 사용량: 가입 후 기본 10시간(600분) 무료
2단계: OpenAI Whisper API – 뛰어난 멀티언어 지원velog
99개 언어 지원하며 한국어 인식률이 최고 수준입니다. 배치 처리 방식으로 실시간은 불가하지만 정확도는 최고 수준입니다.velog
특징:
- 한국어를 포함한 다국어 자동 인식
- 번역 기능 내장
- 노이즈에 강함
- 오픈소스 기반 (로컬 배포 가능)
성능:
- 뉴스/공식 발화 기준 90% 이상 정확도bcuts.tistory
- 일상 대화에서는 다소 정확도 떨어짐
- 띄어쓰기 오류 있음bcuts.tistory
3단계: Naver Clova Speech Recognition (CSR) – 국내 2위zorba-blog.tistory+1
네이버의 자체 개발 모델로 한국어에 최적화되었으며 평균 오류율 약 8~10% 수준입니다.rtzr
특징:
- 한국어, 영어, 일본어, 중국어(간체) 지원
- 네이버에 축적된 데이터 기반 지속적 학습
- REST API 및 SDK 제공
TTS (음성 합성) – 현존 최고 품질
1단계: 타입캐스트(Typecast) – 한국어 특화 최고품질runykim.tistory
한국 TTS 시장의 선두주자로, 한국어 처리 능력이 뛰어나며 자연스러운 음성 합성을 제공합니다.runykim.tistory
특징:
- 2025년 11월 대규모 업데이트로 학습 데이터 10배 이상 증가typecast
- 문맥에 맞는 자동 감정 반영
- 100여 개의 AI 보이스
- 실시간 초저지연 구조 (400ms 이하)typecast
- 보이스 클로닝 기능
- API 제공으로 개발자 친화적
성능:
- 감정 표현과 톤 흐름이 매우 자연스러움
- 일상 대화체도 매끄럽게 표현
2단계: 네이버 클로바 더빙(Clova Dubbing) – 국내 2위runykim.tistory
네이버의 HDTS(High Definition Text-to-Speech) 기술 기반으로 고품질 음성을 제공합니다.
특징:
- 100여 개의 고품질 AI 보이스
- 영상 더빙 특화 (타임라인 기반 싱크)
- 성우 수준의 음성 퀄리티
- 감정 조절 및 말투 선택 가능
3단계: ElevenLabs – 글로벌 최고품질runykim.tistory
국제적으로 인정받은 프리미엄 TTS로, 한국어는 지원하지만 영어 품질에는 미치지 못함runykim.tistory
특징:
- 29개 언어 지원 (한국어 포함)
- 실제 사람과 구분 불가능한 자연스러운 음성
- 보이스 클로닝 기능
- 고급 감정 표현 기능
로컬 배포 오픈소스 STT 모델
실시간 처리와 개인정보 보호가 중요하다면 로컬 배포 모델 고려:
Conformer-CTC 모델:huggingface
- Hugging Face에서 공개 (
stt_kr_conformer_ctc_medium) - 스트리밍 진행 중에도 성능 유지
- Whisper 대비 속도 우수
- E-브랜치포머가 한국어에서 가장 우수한 성능eksss
Wav2Vec2-xlsr-53:github
- 53개 언어로 사전학습
- KsponSpeech 데이터셋으로 파인튜닝
- CPU에서도 실시간 인식 가능
사용 경고: Ollama는 LLM 전용으로, STT/TTS 직접 지원 없음discuss.pytorch
최종 추천
API 사용 시 (클라우드 기반):
1순위: 리턴제로 STT → 최고 정확도 필요한 경우
2순위: OpenAI Whisper API → 비용 효율성 + 다국어 필요 시
1순위 TTS: Typecast → 최고 품질 필요
로컬 배포 (오프라인):
STT: Conformer-CTC 또는 Wav2Vec2 → 정확도와 속도 모두 고려
TTS: 상용 API 권장 (로컬 오픈소스 모델은 품질 현저히 낮음)
성능 비교표
| 항목 | ReturnZero | Whisper API | Naver Clova | Typecast | 클로바더빙 |
|---|---|---|---|---|---|
| 한국어 정확도 | 최고 (92%) | 우수 (90%) | 우수 (90%) | 자연성 우수 | 자연성 우수 |
| 실시간 여부 | ✅ | ❌ (배치) | ✅ | ✅ (400ms) | ✅ |
| API 비용 | 시간당 300-1,000원 | 분당 약 $0.024 | 별도 문의 | 별도 문의 | 별도 문의 |
| 프리티어 | 10시간 무료 | 월 60분 무료 | 있음 | 있음 | 있음 |
| 특화 영역 | 정확도 | 다국어 | 한국어 | 감정/톤 | 영상 더빙 |
- https://blog.naver.com/112fkdldjs/223513947371
- https://blog.rtzr.ai/korean-speechai-benchmark/
- https://developers.rtzr.ai/docs/stt-streaming/websocket/
- https://developers.rtzr.ai/docs/stt-streaming/grpc/
- https://developers.rtzr.ai/docs/pricing/
- https://velog.io/@hks_0827/AI-STT%EC%99%80-%ED%8F%89%EA%B0%80-%EB%AA%A8%EB%8D%B8-%EB%B9%84%EA%B5%90-%EA%B2%80%EC%A6%9D
- https://bcuts.tistory.com/209
- https://zorba-blog.tistory.com/16
- https://runykim.tistory.com/67
- https://typecast.ai/kr/learn/typecast-2025-update/
- https://typecast.ai/kr/learn/2025%EB%85%84-ai-%EB%B3%B4%EC%9D%B4%EC%8A%A4-%ED%8A%B8%EB%A0%8C%EB%93%9C/
- https://huggingface.co/SungBeom/stt_kr_conformer_ctc_medium
- https://www.eksss.org/archive/view_article?pid=pss-16-3-79
- https://github.com/kthworks/Wav2Vec2-Korean
- https://discuss.pytorch.kr/t/june-ollama-w-llama-3-openai-whisper-coqui-tts/4691
- https://bcuts.tistory.com/140
- https://www.facebook.com/groups/TensorFlowKR/posts/1884673791873670/
- https://www.youtube.com/watch?v=m_X-Xw72v-o
- https://www.unicornfactory.co.kr/article/2024080214174947566
- https://www.ncloud.com/product/aiService/csr
- https://blog.naver.com/calmroad/223394295417
- https://blog.naver.com/hub-herb/223118156987
- https://nathaniel1.tistory.com/9
- https://blog.essayreview.co.kr/topic/language-rules/quotation-marks/
- https://sites.google.com/site/snowcau/home/r
- https://ko.wikipedia.org/wiki/%CE%95
- https://apps.apple.com/kr/app/t-world-skt-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%9A%94%EA%B8%88-%ED%99%95%EC%9D%B8-%EB%A7%9E%EC%B6%A4-%ED%98%9C%ED%83%9D/id428872117
- https://namu.wiki/w/U
- https://naver.worksmobile.com/pricing/clovanote/
- https://speechify.com/ko/blog/real-time-tts-at-scale/
- https://jaey0ng.tistory.com/57
- https://github.com/bab2min/Kiwi
- https://github.com/SUNGBEOMCHOI/Korean-Streaming-ASR
- https://chlduswns99.tistory.com/43
- https://cloud.google.com/speech-to-text/docs/v1/measure-accuracy?hl=ko
답글 남기기