ElevenLabs CEO의 비전
필자의 지난 피지컬AI 관련 글 관점에서 보면, 자연스러운 흐름으로 이제 인공지능(AI)의 새로운 인터페이스로 목소리가 떠오르고 있다. ElevenLabs(일레븐랩스)의 공동 창립자이자 CEO인 마티 스타니셰프스키(Mati Staniszewski)는 최근 카타르 도하에서 열린 웹서밋(Web Summit)에서 목소리가 인간과 기계 간의 상호작용 방식을 혁신적으로 변화시키고 있다고 주장하였다. 그는 목소리 모델이 단순한 음성 모방을 넘어 인간의 감정과 억양까지 재현할 수 있게 되었으며, 이제는 대규모 언어 모델의 추론 능력과 협업할 수 있는 단계에 이르렀다고 밝혔다.
목소리와 기술의 통합
스타니셰프스키는 앞으로 우리의 스마트폰이 주머니로 돌아가고, 사람들이 실제 세계에 몰입할 수 있는 시대가 올 것이라며, 이 모든 것이 기술을 제어하는 메커니즘으로서의 목소리 덕분이라고 설명하였다. 이러한 비전은 ElevenLabs가 최근 5억 달러를 모금하고 110억 달러의 기업 가치를 평가받는 데 영향을 주었다. 뿐만 아니라, 이와 같은 추세는 AI 산업 전반에 걸쳐 널리 공유되고 있다. 오픈AI와 구글 모두 차세대 모델에서 목소리를 중심에 두고 있으며, 애플은 Q.ai와 같은 인수합병을 통해 항상 켜져 있는 음성 기술을 조용히 구축하고 있는 중이다. AI가 웨어러블 기기, 자동차 및 새로운 하드웨어로 확장됨에 따라, 화면을 터치하는 것보다 말을 하는 방식으로 제어하는 것이 더욱 중요해지고 있다. 이러한 변화는 AI 발전의 다음 단계에서 목소리가 중요한 전장이 될 것임을 암시한다.
한국어도 최고 수준의 품질을 자랑하는 일레븐랩스
일레븐랩스의 보이스 라이브러리에서는 다양한 한국어 모델을 선택할 수 있는데, 한국어 지원 수준이 최고 수준임을 알 수 있다. 이래서 일레븐랩스가 이 분야에서 최고라고 하는구나. 라는 생각이 절로 들 정도다.
가령, 한국어 보이스 AI 모델 중 하나인 이러한 음성(링크 – 간편하게 로그인 후 들어볼 수 있다)을 들어보면, AI인지 실제 사람인지 구분이 어려울 정도로 정교하다.
변화하는 상호작용 방식
아이코닉 캐피탈(Iconiq Capital)의 파트너인 세스 피에리펀트(Seth Pierrepont)는 웹서밋 무대에서 화면이 게임 및 엔터테인먼트에서 여전히 중요한 역할을 하지만, 전통적인 입력 방법인 키보드가 점점 더 구식처럼 느껴지고 있다고 말했다. AI 시스템이 점점 더 자율성을 가지게 됨에 따라, 사용자로부터의 명확한 프롬프트 없이도 반응할 수 있는 상황과 문맥이 필요하다고 강조했다.
스타니셰프스키는 사용자와의 상호작용 방식이 근본적으로 변화하고 있다는 점을 지적하였다. 미래의 음성 시스템은 점점 더 지속적인 기억 및 시간에 따라 축적된 문맥에 의존하게 되어, 사용자와의 상호작용이 더욱 자연스럽고 수월해질 것이라고 덧붙였다. 이러한 진화는 음성 모델이 클라우드 기반에서 작동하던 과거와는 달리, 클라우드와 기기 내 처리 기능을 혼합한 하이브리드 접근법으로 전환됨을 시사한다.
확장된 협력
스타니셰프스키는 메타와 협력하여 인스타그램 및 호라이즌 월드와 같은 제품에 자신의 음성 기술을 적용하고 있으며, 이러한 목소리 기반 인터페이스가 새로운 형태로 확장될 경우 메타의 레이밴 스마트 안경과의 협업도 고려하고 있다고 밝혔다.
필자는 일레븐랩스의 비전에 공감하면서도 이러한 변화가 소비자들에게 편리함을 제공하는 동시에 개인 정보 보호 문제와 같은 새로운 도전과제를 안겨줄 것이라고 생각한다. AI와 목소리의 결합은 기술 혁신의 길이 될 수 있지만, 그 과정에서 우리는 개인의 프라이버시와 데이터 관리에 대한 윤리적 기준을 세워야 할 필요성이 있다. AI가 나날이 발전함에 따라, 이에 따른 책임 있는 사용과 정책이 수반되어야 할 것이다.
함께 보면 좋은 글
AI 활용을 극대화할 PC를 찾고 있다면?
현시점엔 오히려 가성비 제품으로, 애플 맥미니와 아이맥이 제격이다.
파트너스 활동: 구매 시 소정의 수수료를 제공받으며, 사이트의 지속적인 운영에 큰 도움이 됩니다.
참고 및 출처: TechCrunch, ElevenLabs Voice: Min-joon - Neutral, Measured and Clear (High Quality Korean Voice AI Model)