[개발] 장시간 음성을 자연스럽고 일관되게 생성하는 음성 언어 모델
  • 2025-07-03
  • 신윤오 기자, yoshin@elec4.co.kr

KAIST, 24시간 말하는 AI비서 가능성 여는‘스피치SSM’개발

기존 음성 언어 모델은 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서 한계가 두드러졌는데, 한국 연구진이 이런 한계를 뛰어넘어, 시간 제약 없이 일관되고 자연스러운 음성 생성을 실현한 ‘스피치SSM’을 개발하는데 성공했다. 

음성 언어 모델(Spoken Language Model, SLM)은 텍스트 없이 인간의 음성을 학습해 음성의 언어적, 비언어적 정보를 이해 및 생성하는 기술로 텍스트 기반 언어 모델의 한계를 넘어서는 차세대 기술로 각광받고 있기 때문이다.  

KAIST(총장 이광형)는 전기및전자공학부 노용만 교수 연구팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성 언어 모델 ‘스피치SSM(SpeechSSM)’을 개발했다고 밝혔다. 
 
노용만 교수, 박세진 박사과정

연구 배경

기존의 음성 언어 모델들은 짧은 시간의 음성 데이터는 자연스럽게 생성할 수 있었으나, 장시간으로 갈수록 의미적, 화자적 일관성이 급격히 저하되는 문제가 있었다. 이러한 한계는 음성의 높은 시간적 해상도, 긴 시퀀스를 효율적으로 처리하지 못하는 모델의 구조적 한계, 그리고 추론 시 요구되는 막대한 메모리 비용 때문이었다. 따라서 긴 시간 동안 자연스럽고 일관된 음성 생성을 가능하게 하는 새로운 기술이 요구되어 왔다.

연구 내용

이번 연구에서 개발한 음성 언어 모델인 SpeechSSM은 하이브리드 상태 공간 모델(State-Space Model)을 기반으로 하는 선형 시간 시퀀스 모델링(Linear-time Sequence Modeling)을 활용하여 장시간 음성 데이터를 효율적으로 처리하고 생성하는 기술이다. 

이 모델은 게이트드(Gated) 선형 순환 유닛(LRU)과 국소 어텐션(Local Attention) 블록을 교차 배치한 Griffin 아키텍처를 사용하여 순환을 통해 전체 맥락을 장기적으로 유지하고 어텐션(attention)은 최신 정보에 집중하도록 설계되었다. 이는 기존 트랜스포머(Transformer) 기반 모델의 시퀀스 길이 확장 문제를 구조적으로 해결한다.

또한, 긴 음성을 처리하기 위해 고정된 컨텍스트 길이에서 컨텍스트 경계가 부자연스러워지는 문제와 그 이상 생성이 불가능한 한계를 극복하기 위해, 연구자는 윈도우 기반 토크나이징과 디코딩 방식을 제안했다. 이 방식은 긴 음성을 짧은 윈도우로 나누어 각 윈도우를 독립적으로 토큰화하고 생성한 후 자연스럽게 이어 붙여 무한 길이(unbounded)의 음성 시퀀스를 처리할 수 있도록 한다.


SpeechSSM 개요. SpeechSSM의 하이브리드 상태공간 모델은 중첩된 고정 크기 윈도우로 인코딩된 의미 토큰(USM-v2)에 대해 LM 목표로 학습됨. 비자기회귀 방식의 음성 디코더(SoundStorm)는 중첩된 의미 토큰 윈도우를 화자 조건에 따라 음향 코덱(SoundStream)으로 변환함.


더 나아가, 음성의 언어적 정보만 담는 semantic token으로 모델을 학습한 후, 음성 생성 단계에서는 SoundStorm과 같은 비자기회귀 오디오 합성기를 결합해 비언어적 화자 정보를 후처리 방식으로 추가하여 빠른 생성 속도와 고품질 음성을 긴 생성 구간에서도 안정적으로 유지할 수 있도록 했다. 이와 같은 하이브리드 상태 공간 모델 구조, 언어 정보와 비언어 정보의 분리 모델링, 그리고 윈도우 기반 처리 방식은 장시간 음성을 안정적으로 생성할 수 있다는 점에서 기존 모델과 뚜렷한 차별성을 가진다.

연구팀은 기존에 없는 장시간 음성 생성을 평가하기 위해 자체 구축한 'LibriSpeech-Long' 벤치마크를 통해 기존 10초 평가에서 4분 및 16분의 장시간 음성 생성 평가 방식을 새롭게 제안했다. 기존의 평가 지표인 PPL은 긴 시퀀스의 품질을 평가하기에는 부족하다는 점에서, 임베딩 기반 유사도 평가와 대규모 언어 모델(LLM)을 활용한 side-by-side 비교 평가를 추가로 제안했다. 또한 시간 경과에 따른 의미적 일관성(SC-L)과 자연성 평가(N-MOS-T)를 도입하여 긴 음성의 품질 변화를 더욱 정밀하게 평가할 수 있도록 했다.

연구 결과 SpeechSSM은 기존 모델과 달리 장시간 긴 생성에서도 의미적 일관성을 뛰어나게 유지하였다. 모델이 생성한 음성은 초기 제시된 맥락을 유지하면서 새로운 정보를 자연스럽게 연결하는 능력을 보였으며, 기존 모델의 메모리 소비 문제를 극복한 결과로 나타났다.

기대 효과

대용량 언어 모델(LLM)의 산업 기술적 파급 효과가 커지고 있는 시점에서, 인간과 더욱 밀접하게 연결되는 방식으로‘음성 언어 모델’이 주목받고 있다.

이는 텍스트 기반의 LLM과 달리, 인간의 음성 데이터를 직접 처리함으로써 화자의 고유한 음향적 특성을 활용할 수 있어, 음성 생성의 품질과 속도 면에서 큰 장점을 갖는다. SpeechSSM 기술은 오디오북, 팟캐스트, 온라인 강의 등과 같은 긴 음성 콘텐츠의 자연스러움과 품질 향상에 크게 기여할 것으로 기대된다.

특히 음성 비서나 인공지능 기반 상담 시스템에서는 긴 대화에서도 일관된 맥락을 유지하면서 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 실제 사람과의 대화에 가까운 자연스러운 소통 경험을 제공할 수 있을 것이다. 또한, 텍스트가 아닌 음성 데이터만으로도 의미 있는 콘텐츠를 생성할 수 있는 능력을 통해 다양한 응용 분야에서 새로운 가능성을 열 것으로 전망된다.

 

<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>


#소프트웨어   #인공지능  

  • 100자평 쓰기
  • 로그인

TOP