다양한 임베디드 기기에 사용되고 있는 NOR형 플래시 메모리 업체인 스팬션(Spansion Inc.)이 음성인식 기능 전용의 코프로세서인 어쿠스틱 코프로세서(Acoustic Coprocessor, ACP)를 들고 나왔다. 뉘앙스 VoCon짋 소프트웨어 엔진을 이용하고 있으며, 맞춤형으로 설계된 로직과 하드웨어가 통합된 ACP는 음성인식 시 애플리케이션 프로세서(AP)에 걸리는 부하를 최대 50% 낮출 수 있다.
![]() |
앨빈 웡(Alvin Wong) 마케팅 및 비즈니스 개발 부사장 |
“스팬션과 뉘앙스가 가장 주력했던 분야가 바로 2단계를 개선하는 것이었다. 그만큼 2단계가 프로세싱 및 MIPS 집약적이고 많은 메모리가 필요한 단계이기 때문이다. 바로 이 병목현상을 해결하는데 필수적인 지적재산을 스팬션이 보유하고 있다”
애플의 아이폰 4S에 탑재된 시리(Siri) 음성 입력 유저 인터페이스(UI)와 이 회사의 대대적인 광고 캠페인으로, 음성인식 기술이 더 이상 공상과학이 아닌 현실로 성큼 다가온 느낌이다. 구글이 지난 몇 년간 자사의 모바일 앱에 음성 입력을 통합하는 동안에, 시리에 음성 응답이 추가됨으로써 스탠리 큐브릭(Stanley Kubrick) 감독의 1968년 영화 ‘2001: 스페이스 오딧세이’에 등장한 H.A.L. 9000 컴퓨터에 대한 상상을 자극하고 있다.
구글은 최근 폐막한 구글 IO 개발자 컨퍼런스에서 안드로이드(Android) 버전 4.1, 일명 젤리빈(Jelly Bean)의 검색 기능에 음성 응답을 추가함으로써 애플에 화답했다. 안드로이드의 음성 검색 기능은 시리와 매우 유사하다. 음성으로 검색이나 질문을 던지면 결과를 음성으로 답변한다. 여기서 구글은 ‘지식 그래프(knowledge graph)’라는 것을 사용한다.
구글은 애플보다 한발 더 나아가 안드로이드 젤리빈의 오프라인 음성 입력까지 소개했다. 대개의 아이폰 사용자들이 구글의 음성 검색처럼 시리가 클라우드 서버에 연결돼 있다는 사실을 인식하지 못할 수 있지만, 구글은 이제 구글 음성 인식기를 스마트폰에 맞게 줄여야 한다고 주장하고 있다. 이것이 온라인 음성 검색의 지능적인 응답 기능을 제공하진 못하지만, 이 기능을 제공함으로써 구글은 예를 들어 인식 알고리즘과 언어 데이터베이스를 실행하기 위해 지속적으로 인터넷에 연결해야 하는 음성 UI의 문제점 중 하나를 해결했다.
음성 UI의 또 다른 문제점은 응답 시간이다. 구글이 IO 개발자 컨퍼런스에서 밝힌 바와 같이, 느린 연결 속도는 음성 입력을 ‘빛 좋은 개살구’로 만들 수 있다. 따라서, 스마트 기기에 음성 인식기를 내장함으로써 안드로이드 개발자들이 좀 더 자신 있게 자신들의 애플리케이션에 음성 입력을 포함시킬 수 있다. 그러나 구글 IO에서 시연한 기기는 최고 사양의 넥서스 스마트폰이었기 때문에, 적어도 오프라인 안드로이드 음성 입력 기능이 어떻게 확대될 지는 두고 볼 일이다. 구글은 소프트웨어를 통해 이러한 기능들을 실행하기 위해 범용 애플리케이션 프로세서(AP) 성능과 온보드 메모리 자원에 의존하게 될 것이다. 미국에서 영어만을 지원한다는 구글의 이번 발표는 주목할 만하지만, 현재 다중 언어 데이터베이스에 대응하지 못한다는 것은 의심의 여지가 없다.
플래시 메모리 솔루션 업체로 잘 알려진 스팬션은 자사의 ACP를 통해, 바로 이러한 문제를 해결하려 하고 있다. ACP는 음성 실행 HMI(human machine interfaces)의 속도를 가속화하고 최적화하기 위해 맞춤형 로직과 스팬션의 고속 플래시 메모리 기술인 미러비트(MirrorBit)를 결합했다. 또한 시리에 음성인식 기술을 제공한 뉘앙스 커뮤니케이션스(Nuance Communications)의 음성인식 소프트웨어 VoCon짋을 활용했다. 스팬션의 발표에 따르면, ACP는 자동차, 게임, 소비가전 등의 음성인식 시스템에 이상적이며 음향(acoustic)과 관련된 방대한 데이터베이스를 지원함으로써 기존 음성 인터페이스와 비교해 응답 시간과 정확도를 크게 향상시킬 수 있다. 특히, 주목을 끄는 것은 기존 CPU를 통한 음향 처리 작업 부하를 없애준다는 것이다. 사실 오늘날의 컴퓨팅 기기에서 CPU는 고속 인터넷 접속, HD 비디오에서 3D 내비게이션 및 음성인식에 이르는 모든 것을 처리해야하므로 프로세싱 마력과 메모리 대역폭 모두에서 병목현상이 일어나고 있다.
![]() |
3단계 음성인식 프로세스. ACP를 사용하면 가장 부하가 큰 어쿠스틱 스코어링을 하드웨어로 처리할 수 있다. ACP에는 두 개의 블록이 있다. 하나는 뉘앙스의 어쿠스틱 스코어링 알고리즘을 하드웨어화한 맞춤형 로직, 다른 하나는 어쿠스틱 스코어링에 사용되는 어쿠스틱 데이터베이스(뉘앙스의 IP)를 포함하고 있는 고속 NOR형 플래시 메모리다. |
스팬션의 글렌다 돌첵(Glenda Dorchak) 수석 부회장 겸 글로벌 비즈니스 총괄 책임자는 “대개 음성 인터페이스가 사용되는 환경은 범용 하드웨어에 다목적 CPU를 사용하는 경우가 대부분이다. 따라서, 영상을 본다거나 내비게이션을 사용한다거나 인터넷 접속을 하는 등 다른 자원 집약형 애플리케이션에 CPU 자원이 할당되면 음성인식을 위한 대용량의 자원을 할당할 추가적인 여유가 없다”며 “ACP을 이용하면, 보다 빠르고 정확한 음성인식 기능을 구현할 수 있다”고 말했다.
ACP의 최초 구현은 자동차 시장에서 이뤄졌다. 자동차 시장에서 음성인식 기술은 차량에 연결되는 더욱 안전하고 스마트한 방법으로 제시되고 있으며 휴대형 기기를 통해 발생되는 시각적 매뉴얼의 부주의를 최소화시켜 줄 수 있기 때문이다. 지금까지 음성인식 기능을 제공하는 몇몇 자동차 모델은 있었다. 그러나 인식률이 그다지 높지 않아서 실용성이 떨어졌다.
스팬션 데모 플랫폼은 스팬션의 반도체 기술과 뉘앙스의 음성인식 소프트웨어가 통합돼 있으며 현재 주요 자동차 제조업체들을 통해 평가되고 있다. 디자인 샘플 공급은 올 3분기로 예정돼 있다.
돌첵 수석 부회장은 “차량용 반도체는 높은 내열성과 내진동성, 엄격한 품질관리, 공급 안정성 등이 요구된다. 스팬션은 차량용 NOR 플래시 메모리 시장 점유율 70%를 자랑하며, ACP를 차량용 정보기기 메이커에 공급할 수 있는 체제가 이미 갖춰져 있다”고 말했다.
음성인식 과정은 크게 3단계로 이뤄진다. 먼저 음성 처리(sound processing) 단계로, 음성 신호가 입력되면 이 신호는 아날로그에서 디지털로 변환된다. 다음은 어쿠스틱 스코어링(acoustic scoring) 단계로, 1단계에서 디지털 신호로 변환된 음성 데이터가 입력되어 시스템에 내장돼 있는 사운드 라이브러리, 바꿔 말해 어쿠스틱 데이터베이스(acoustic database)와 대조가 이뤄진다. 그 다음에 매칭이 된다. 이 매칭 프로세스의 결과로 나오는 것이 ‘사운드 스코어’라는 값이다. 마지막으로 검색 단계다. 여기서는 언어 모델과 사전 데이터베이스(language & dictionary databases)를 사용해 추론(대화 관리)을 행해 의미의 매칭을 수행한다. 이처럼 3단계로 이뤄지는 음성인식 과정에서 상대적으로 가장 많은 CPU 부하가 걸리는 곳이 2단계 어쿠스틱 스코어링 단계다.
스팬션의 앨빈 웡(Alvin Wong) 마케팅 및 비즈니스 개발 부사장은 “스팬션과 뉘앙스가 가장 주력했던 분야가 바로 2단계를 개선하는 것이었다. 그만큼 2단계가 프로세싱 및 MIPS 집약적이고 많은 메모리가 필요한 단계이기 때문이다. 바로 이 병목현상을 해결하는데 필수적인 지적재산을 스팬션이 보유하고 있다”면서 “축적된 메모리 관련 기술과 여기에 맞춤형 로직을 접목시키고, 전용 와이드 데이터 버스(wide data bus)까지 할당하게 되면 스팬션의 고유 아키텍처 상에서 병렬 처리가 가능하다. 그 결과 매칭 과정이 좀 더 빨리 일어나게 된다”고 말했다.
ACP에는 두 개의 블록이 있다. 하나는 뉘앙스의 어쿠스틱 스코어링 알고리즘을 하드웨어화한 맞춤형 로직, 다른 하나는 어쿠스틱 스코어링에 사용되는 어쿠스틱 데이터베이스(뉘앙스의 IP)를 포함하고 있는 고속 NOR형 플래시 메모리다. 두 블록 간에는 대역폭이 1.2GB/s의 고속 와이드 데이터 버스로 연결돼 있다. 앨빈 웡 부사장에 따르면, 와이드 데이터 버스가 음성인식에 100% 할당되기 때문에 1.2GB/s의 대역폭을 다 활용할 수 있다. 이를 통해 좀 더 빠르게 2단계의 매칭 프로세스를 지원할 수 있게 되는 것이다. 또한 애플리케이션 프로세서와 ACP 접속에는 SPI(Serial Peripheral Interface)를 사용한다.
지난 7월 10일 열린 기자 회견에서는 소프트웨어 기반의 기존 시스템에 비해 반응 속도가 약 50%까지 향상되고 애플리케이션 프로세서 부하도 약 50%까지 저감됨을 보이기 위한 주소 인식 데모의 시연이 이뤄졌다. 실제로 앨빈 웡 부사장이 말로 텍사스 오스틴에 위치한 스팬션 공장 주소를 말하자, ACP를 이용한 경우 구글 맵에 주소가 표시되기까지의 시간이 2배 가까이 빨라짐을 확인할 수 있었다. 이 때의 CPU에 대한 부하도 50%까지 줄었다. 실제 현장 데모에서, ACP를 이용한 경우의 반응 속도는 5초 대를 초과했다. 그러나 앨빈 웡 부사장은 데모의 오류라며, 정상적인 경우에 평균 3.5초라고 주장했다.
이번 데모는 엄밀히 말해 소프트웨어 처리 기반의 기존 시스템과 ACP를 사용한 경우에 음성인식 처리 부하와 시간을 비교한 것이다. 기존 시스템은 음성인식 반응 시간을 단축하기 위해 규모가 작은 어쿠스틱 데이터베이스를 사용하고 있다. ACP의 경우, NOR형 플래시 메모리에 대용량 어쿠스틱 데이터베이스를 저장해 보다 정확한 음성인식이 가능하다. 음성인식에 필요한 표준적인 어쿠스틱 모델에서는 20~30 MB 정도, 주소와 같은 사전을 넣는 경우라도 100 MB 정도면 되기 때문에 NOR 플래시는 최적의 용량 사이즈라고 할 수 있다.
스팬션은 플래시 메모리에 1~3가지 언어의 어쿠스틱 데이터베이스를 저장하는 저가의 제품과, 10~12가지 언어의 어쿠스틱 데이터베이스를 저장할 수 있는 고사양 제품을 준비하고 있다. 언어는 사용자가 선택할 수 있다. 이처럼 ACP는 다중 언어, 남성/여성의 음성 차이, 음의 고저가 필요한 성조음(tonal sound) 등 방대한 데이터베이스를 지원할 수 있다. 이를 통해 정확도와 자연스런 언어 이해 성능을 향상시킨다.
스팬션은 제품 출시 초기에 미국과 유럽에서 음성인식 기능의 탑재 비율이 상승하고 있는 차량 정보기기를 중심으로 시장을 확대해 나갈 계획이다. 이미 주요 자동차 제조업체에서는 선행 평가가 진행되고 있다.
차량용 인포테인먼트에서 ACP를 사용하는 경우에는 음성인식 과정 중 ACP가 담당하지 않는 음성 처리 및 검색을 애플리케이션 프로세서에서 실행하기 위한 미들웨어가 필요하다. 이 미들웨어는 ACP 전용으로 뉘앙스가 개발, 스팬션이 ACP에 번들로 제공한다. 스팬션은 지난 6월 19일(미국 시간) 프리스케일 반도체의 연례 주력 이벤트인 FTF Americas 2012에서 프리스케일의 차량용 마이크로컨트롤러(MCU)인 바이브리드(Vybrid)와 ACP를 결합한 형태의 인포테인먼트 시스템을 발표한 바 있다. 쫟
Speaker's Comment “스팬션과 뉘앙스는 최적의 조합이다”
스팬션이 주력으로 생산하고 있는 제품이 바로 플래시 메모리다. 이 분야에서는 스팬션은 이미 20년째 성공적으로 비즈니스를 해오고 있다. 스팬션은 NOR 플래시 메모리 분야에서 타의 추종을 불허하는 입지를 굳히고 있다. 세계 유수의 모든 OEM을 포함한 임베디드 시장의 고객사가 6,500개사에 이른다. 스팬션은 일상적인 기기 활용에 있어서 전원을 켜는 즉시 부팅되는 ‘인스턴트 온’ 기능이라든지 탁월한 견고성을 자랑하는 제품을 생산하고 있다. |
<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>