Channel TTS: Towards Real-World Prosody for Conversational Agents

Seungyoun Shin1, Jiwoo Kim1, Dongha Ahn1, Sungwook Jeon1

1Channel Corp.

오디오 비교

안녕하세요 채널톡 AI 에이전트 알프입니다.
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
서류상 이상이 있다면 알려주시면 감사하겠습니다.
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
FAQ나 도큐먼트에서 '홈페이지 주소를 입력하거나 이미지를 등록하면 텍스트, 이미지 등을 크롤링하여 답변하는 기능'에 대한 정보가 없어 조금 더 자세한 설명을 부탁드려도 될까요?
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours

자체 벤치마크 성능 비교

Internal Testset (Normal) CER benchmark across models
그림 1. Channel TTS와 글로벌 TTS 경쟁모델들의 음성발화 벤치마크 성능 (CER) 비교 으로 낮을수록 성능이 좋습니다. 자체 모델(Ours)은 GRPO 이후 가장 낮은 CER을 달성했습니다. 대다수가 한글로만 구성된 internal testset으로 평가하였으며, 샘플레이트를 8khz (전화음성)로 변환하지 않고 각각 Provider 모델의 원본 샘플을 사용하였습니다.

정성 평가

둥둥레스토랑 성인 요금은 평일 런치 19,992원, 평일 디너 25,940원, 주말 및 공휴일은 37,771원입니다.
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
한국경제는 지난해보다 0.2%p 성장하는데 그쳤습니다.
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
안녕하세요. 저는 채널톡 AI 상담사 로빈입니다. 혹시 전화주신 분의 전화번호가 011-1234-1234 맞으실까요?
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
2025년 8월20일 ~ 2025년 8월 25일 까지 이벤트가 진행됩니다.
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
ChatGPT 는 RAG를 통해 외부 실시간 지식에 접근할 수 있습니다.
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
주문번호는 HXE23872 입니다.
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
고객님 주문하신 상품은 어제 DHL Express로 출고되었고, 현재 tracking number는 ABC123456입니다. 배송 조회는 DHL 홈페이지에서 바로 확인 가능합니다.
GPT-4o-mini-tts (sage)
ElevenLabs (Multilingual v2 - Anna Kim)
국내 TTS
Ours
안녕하세요. 저는 알프입니다. 무엇을 도와드릴까요?
Ours
Ours + GRPO

강화학습으로 더 잘하는 모델 만들기

Objective

\[ \text{Reward} = \frac{\lambda_c + \lambda_n} {\frac{\lambda_c}{U_{\mathrm{CER}}} + \frac{\lambda_n}{U_{\mathrm{NLL}}}} \]

유틸리티 정의

\[ U_{\mathrm{CER}} = 1 - \tanh(\beta_c \cdot \mathrm{CER}), \qquad U_{\mathrm{NLL}} = e^{-\frac{\mathrm{NLL}}{\tau_n}} \]

GRPO
그림 2. GRPO 전 후 생성된 발화의 에너지 레벨 비교.
기존에 사용하던 유심은 재사용이 어렵기 때문에 통신사 변경시 새로운 유심을 구매해야합니다.
Lose Sample
Win Sample
안녕하세요 저는 알프입니다. 무엇을 도와드릴까요?
baseline
DPO
GRPO
Online DPO 과정
그림 3. Online DPO 학습 과정. 여러 라운드의 선호도 학습을 반복함으로써 발화 자연스러움과 문자 오류율(CER) 모두 개선됨.

Future Work

참고문헌