전화를 받아본 사장님이라면 이런 경험 한 번쯤 있으시죠. 어떤 손님은 말이 빠르고, 어떤 분은 느릿느릿하고, 또 어떤 분은 지역 특유의 말투가 강해서 처음엔 잘 못 알아들을 때도 있습니다. 사람 직원도 이렇게 느끼는데, AI는 도대체 어떻게 다양한 목소리를 알아듣는 걸까요?
목소리는 생김새처럼 제각각입니다
사람의 목소리는 지문만큼 다양합니다. 높낮이, 빠르기, 억양, 주변 소음까지 모두 다르죠. 전화 AI가 이 목소리를 텍스트로 바꾸는 과정(STT, 음성-텍스트 변환)에서 가장 어려운 부분이 바로 이 '다양성'입니다.
비유를 들면, AI는 수많은 사람들의 목소리 샘플을 마치 악보처럼 분석해 왔습니다. '이 높이에 이 리듬이면 이 말일 가능성이 높다'는 패턴을 엄청난 양의 데이터로 익혀 둔 거예요. 덕분에 말이 조금 빨라도, 끝이 흐려져도, 어느 정도는 '아, 저 말이겠구나' 하고 유추할 수 있는 것입니다.
소음은 어떻게 걸러낼까요?
주방에서 전화하는 손님, 길거리에서 거는 손님처럼 배경 소음이 섞일 때도 있습니다. AI는 통화 신호가 들어오는 순간, 소음처럼 반복·균일하게 깔리는 소리와 사람의 목소리처럼 불규칙하게 변하는 소리를 구분하려고 시도합니다. 마치 카페에서 대화할 때 사람 뇌가 배경 음악을 자동으로 무시하는 것과 비슷한 원리예요.
그래도 못 알아들을 때가 있다면?
아무리 잘 만들어진 AI라도 100%는 없습니다. 그래서 좋은 전화 AI는 '못 알아들었을 때'를 대비한 흐름도 미리 준비해 둡니다. 다시 여쭤보거나, 사람 담당자에게 연결하는 것처럼요. 중요한 건 실수 자체보다, 실수를 자연스럽게 수습하는 설계입니다.
AI가 소음 때문에 첫 번째 말을 놓쳤어도, 당황하지 않고 다시 여쭤보며 대화를 이어갔죠. 이처럼 '완벽하게 듣는 것'보다 '자연스럽게 수습하는 것'이 실제로 더 중요한 기술입니다. 전화 AI를 고를 때 이 부분도 꼭 살펴보세요.