'전화 AI'는 고객 목소리를 텍스트로 바꿨다가 다시 목소리로 돌려준다고요? — STT와 TTS, 그 사이에서 일어나는 일

전화 AI와 통화해 본 적 있으신가요? 신기하게도 제법 알아듣고, 제법 잘 대답합니다. 그런데 그 짧은 순간에 도대체 무슨 일이 벌어지고 있는 걸까요?

1단계 — 귀로 듣고 글자로 받아 적는다 (STT)

고객이 말을 하면, AI는 그 음성을 먼저 텍스트(글자)로 바꿉니다. 이것을 업계에서는 STT(Speech-to-Text)라고 부릅니다. 우리말로 하면 '음성→문자 변환'이죠. 마치 회의 때 속기사가 말을 듣는 즉시 타이핑하듯, AI도 고객의 목소리를 실시간으로 받아 적습니다. 이 단계가 잘못되면? 아무리 뒤가 완벽해도 엉뚱한 대답이 나올 수밖에 없습니다.

2단계 — 받아 적은 글자를 '이해'하고 답을 고른다

글자로 바뀐 문장은 이제 AI의 두뇌(언어 모델)로 넘어갑니다. '예약하고 싶다'는 말인지, '취소하고 싶다'는 말인지, 아니면 단순히 영업시간을 묻는 건지 파악하죠. 이 단계는 문자열을 해석하는 작업이라, 말하는 속도나 억양이 아니라 의미를 봅니다. 그래서 사투리나 말이 빠른 손님도 텍스트로 바뀌고 나면 같은 방식으로 처리됩니다.

3단계 — 정해진 답을 다시 목소리로 읽어준다 (TTS)

답이 정해지면 이번엔 반대 방향입니다. 글자를 다시 목소리로 바꾸는 TTS(Text-to-Speech) 기술이 출동합니다. '문자→음성 변환'이죠. 이 목소리는 미리 학습된 발음·억양 데이터를 바탕으로 만들어지기 때문에, 매번 같은 문장을 똑같이 안정적으로 읽어줄 수 있습니다.

결국 전화 AI의 한 마디 대답 뒤에는 '듣기 → 이해하기 → 말하기'라는 세 단계가 눈 깜짝할 사이에 돌아가고 있는 겁니다. 사람은 이 세 과정을 무의식적으로 하지만, AI는 각 단계를 별도 기술로 나눠서 처리합니다.

실제 통화는 이렇게 흘러가요

안녕하세요, 오늘 점심 자리 있나요?

네, 안녕하세요! 몇 분 오실 예정인가요?

두 명이요, 12시 반쯤요.

12시 30분 2인석으로 예약해 드릴게요. 성함을 알려주시겠어요?

이 짧은 대화 안에서 STT→이해→TTS 사이클이 무려 두 번 돌아간 셈입니다. 기술 이름은 어렵게 들려도, 원리는 결국 '받아 적고, 생각하고, 읽어주는 것'입니다. 이 구조를 알면, 전화 AI가 왜 빠르게 대답하는지, 왜 가끔 못 알아듣는지도 조금 더 이해가 되실 거예요.

'전화 AI'는 고객 목소리를 텍스트로 바꿨다가 다시 목소리로 돌려준다고요? — STT와 TTS, 그 사이에서 일어나는 일

1단계 — 귀로 듣고 글자로 받아 적는다 (STT)

2단계 — 받아 적은 글자를 '이해'하고 답을 고른다

3단계 — 정해진 답을 다시 목소리로 읽어준다 (TTS)

직접 만들어 볼까요? 🚀

다른 글도 살펴보세요