AI 전화를 처음 들었을 때 이런 생각 해보신 적 없으신가요? "저 목소리, 어디서 배운 거지?"
사람은 어릴 때 부모님 말을 들으며 말하는 법을 배웁니다. AI도 비슷한 방식으로 배웁니다. 다만 선생님이 한 명이 아니라, 수십만 명의 목소리 녹음이라는 점이 다르죠.
📼 녹음을 잔뜩 듣고, 패턴을 찾는다
AI는 처음에 아무 말도 못 합니다. 그 대신 사람이 미리 녹음해 둔 수많은 문장을 반복해서 듣습니다. "어디가 올라가고, 어디가 내려가는지", "어떤 단어 다음에 잠깐 쉬는지" 같은 패턴을 통계로 익히는 거예요. 마치 외국어를 드라마로만 공부한 사람이 어느 날 자연스럽게 말하게 되는 것처럼요.
🎙️ '읽는 AI'에서 '말하는 AI'로
글자를 소리로 바꾸는 기술을 전문가들은 TTS(Text-to-Speech)라고 부릅니다. 초기 TTS는 단어를 조각조각 이어 붙여서 말했기 때문에 로봇처럼 들렸습니다. 요즘은 통째로 자연스러운 흐름을 학습하기 때문에 억양이 훨씬 사람답게 들립니다. 녹음 조각을 '붙이는' 방식에서, 말하는 방식 자체를 '모방하는' 방식으로 진화한 것입니다.
🌍 왜 전 세계에서 비슷한 시기에 발전했을까요?
목소리 학습에는 막대한 양의 데이터와 컴퓨터 연산이 필요합니다. 2010년대 중반 이후 클라우드 서버 비용이 크게 낮아지면서, 대형 기업만 할 수 있던 이 작업을 더 많은 곳에서 시도할 수 있게 됐습니다. 미국·유럽·일본에서 전화 AI가 동시에 퍼진 배경에는 이 '컴퓨팅 비용 하락'이 공통 원인으로 꼽힙니다.
사장님이 알아두면 좋은 한 가지
AI 목소리는 한 번 만들어지면 끝이 아닙니다. 고객 반응을 통해 계속 조금씩 개선됩니다. 처음엔 어색하게 들렸던 AI 목소리가 시간이 지나면서 자연스러워지는 것도 이 때문입니다. 기술이 어느 날 갑자기 완성된 게 아니라, 꾸준히 배우고 있는 중이라고 보시면 됩니다.