[이슈] 디지털 생명체와 자연스러운 대화, 음성인식 AI 어디까지 왔나
  • 2022-03-21
  • 신윤오 기자, yoshin@elec4.co.kr

다양한 분야 확장하는 음성인식 기술, 메타버스 시대에 중요성 더해

최근 메타버스 기반 신규 비즈니스 창출에 대한 기대가 커지고 있는 가운데, 자연어 음성인식 핵심기술의 선도적 개발이 필요하다는 주장이 제기됐다.

한국전자통신연구원의 김상훈 책임은 최신 보고서(자연어 음성인식 AI 산업 동향 및 시사점)에서 “디지털 생명체와의 자연스러운 대화가 매우 중요해지면서 영상 오디오 융합 멀티모달을 이용하여 자연어 음성인식을 고도화해야 한다”고 밝혔다. 



자연어 음성인식 AI는 다양한 스마트 기기의 보급과 맨-머신 음성 인터페이스 접목을 통한 사용자 편의성 개선으로 기존 컴퓨터, 전화 ARS, 스마트폰에서 AI 스피커, 스마트 TV, 커넥티드 카, 의료지원시스템, 자동통역, 대화 로봇, 키오스크, 원격회의시스템 등을 통해 일상생활 속으로 적용이 확산되고 있다. 

음성인식 시장은 현재 

이에 꾸준한 성장세를 나타내고 있는 음성인식 시장은 연평균 성장률(CAGR) 16%로 2027년까지 약 70~80억 달러로 성장 예상된다.

글로벌 인더스트리 어날리스트(Global Industry Analysts)는 세계 음성인식 시장 규모는 2020∼2027년 동안에 연평균 10.8% 성장하며 2020년 13억 달러에서 2027년에는 27억 달러에 달할 것으로 예측하고 있다. 글로벌 리서치사 포츈(FORTUNE)에 따르면, 미국내 음성인식 시장규모가 2019년에는 13억 달러로 평가되었고, 2027년까지 50억 달러로 성장할 것으로 전망한다.

일본 야노경제연구소는 2021년도 일본 음성인식 시장은 2020년부터 2025년까지 연평균 16.4%로 성장해 2025년에는 2.1억 달러에 이를 것으로 내다봤다. 중국 쳰잔산업연구원은 2020년 중국 음성인식 시장규모는 전년 대비 19.2% 증가한 18억 달러를 기록, 향후 AI 음성 서비스 확산에 따라 2026년 시장규모는 52억 달러까지 확대될 것으로 전망했다. 

최근 자연어 음성인식은 딥러닝 모델의 최적화, 비지도 학습방식 개발, 멀티모달(Multi-Modal) 융합으로 기술적 성능 개선이 급격히 이루어지고 있다.  

트랜스포머 기반 종단형 음성인식은 현재 SOTA 성능을 내는 최적 모델로 대부분 음성인식 시스템의 기반을 이루고 있다. 기존 음성인식은 음향모델과 언어모델, 후처리 등을 개별적으로 학습, 추론하여 최적화 미흡 및 오류 전파로 인해 성능 한계가 있었으나 종단형 음성인식은 개별 모델을 단일 학습·추론으로 통합함에 따라 이러한 문제 해결이 가능하다. 종단형 음성인식의 경우, 학습에 소요되는 데이터가 기존 대비 몇 배 이상 필요함에 따라 데이터 증강(Data Augmentation), 자가 지도학습(Self-supervised) 기반 비지도 학습 등 새로운 방법론 도입이 필요하다.

자연어 음성인식 기술의 국제경쟁력 확보의 일환으로 주요 언어 외 주변국으로의 다국어 확장이 필요하며 이 경우 로우 리소스(low resource) 문제가 생긴다. 동남아어, 동유럽어, 아랍어권 등 주변국 언어의 경우, 현실적으로 대량의 데이터 확보가 매우 어려우며 이에 이미 구축한 다국적 언어(영, 중, 일, 유럽어 등)를 통합 학습하여 희소 언어와 유사한 음향 특성을 사전학습 모델에 반영해야 한다.

ETRI는 다국어가 통합된 사전학습 모델 기반으로 신규 언어의 소규모 데이터로만으로 추가 전이학습하여 구글과 유사한 성능을 확보하였고, 남미 등 희소 언어를 포함 총 24개 언어에 대한 음성인식용 모델을 개발했다. 2022년 상반기 중에 국내외 API 공개를 준비 중이라고 김 책임은 밝혔다. 최근 네이버에서도 여러 명의 음성이 섞여 있거나 매우 시끄러운 환경에서도 음성과 영상정보를 이용해서 타겟 음성을 정밀하게 추출하여 멀티모달이 매우 효과적임을 증명했다. 

생태계 확장하는 AI 스피커

음성인식 AI는 주로 인공지능 스피커를 통해 대중화되고 있다. AI 스피커 기반 생태계 확장을 위해 글로벌 기업간 경쟁이 치열하다. 뉘앙스와 세렌스는 의료분야, 자동차 분야에 각각 특화한 엔진으로 세계 시장을 주도하고 있으며, 국내 기업들은 한국어 위주 콜센터 녹취, 회의록 전사, 외국어 교육 등의 시장을 확대하고 있다.

국내에서는 인공지능 비서(스피커, 스마트TV)를 가정내 모든 가전기기를 연동할 수 있는 AI 허브로 만들려는 가전, 포털, 통신 업체간 주도권 싸움이 치열하다. 
SK텔레콤은 KB국민은행의 뱅킹앱에 AI 서비스를 탑재했다.

SK텔레콤은 최근 AI 스피커 ‘누구’를 기반으로 어르신들의 노쇠 예방 시범사업에 나섰다. 이 회사는 평창군, 서울아산병원 등과 함께 평창군 지역 어르신의 건강증진과 삶의 질 향상을  ‘인공지능 돌봄서비스’를 제공한다고 밝혔다. 운동과 식이요법 등을 활용해 어르신들의 근감소증과 영양 불균형 개선을 위한 노쇠 예방 시범사업을 실시할 계획이다. SK텔레콤은 그동안 어르신들을 위해 AI스피커 ‘누구’를 기반으로 인지(두뇌톡톡), 정서(음악?감성대화), 안전(긴급 SOS 서비스) 서비스를 제공해 왔다. 

이에 앞서 SK텔레콤은 KB국민은행의 뱅킹앱에 AI 서비스를 탑재했다고 밝혔다. KB국민은행 ‘리브 Next’ 앱에 ‘누구 SDK’를 적용하여, 고객이 음성으로 송금/조회 등의 뱅킹 업무를 이용할 수 있게 하고, ‘누구’ 자체 서비스인 날씨/감성대화/백과사전 등의 AI 서비스를 선보이게 된 것이다. 이를 통해 고객들은 ‘리브 Next’ 앱을 통해 음성으로 “콜리야, 아빠한테 송금해줘”, “콜리야, 잔액 알려줘”, “콜리야, 다른 은행 등록해 줘” 등 뱅킹 업무를 좀더 친근하고 편리하게 이용할 수 있게 됐다.

KT는 최근, 주행 중에도 차량 내에서 이용할 수 있는 AI 음성인식 서비스를 출시했다.

KT는 최근, 주행 중에도 차량 내에서 이용할 수 있는 AI 음성인식 서비스를 출시했다.

이 회사는 미국의 차량용 AI 음성인식 솔루션기업 세렌스(Cerence)와 협력해 S-Class, EQA 등 메르세데스-벤츠 차종에 AI 음성인식 서비스를 제공한다. KT는 AI 음성인식 커넥티드카 솔루션으로 주행 중에도 운전자가 필요로 하는 정보를 음성 기반 시스템에 연결해서 정보를 안전하고 직관적으로 제공한다.

예를 들면, 운전자가 “안녕 벤츠, 서울시청 경로 알려줘” 라고 발화하면, KT의 위치 검색 기능을 통해 서울시청의 위치 정보를 전달하며, “안녕 벤츠, 달러 환율 정보 알려줘” 등의 온라인 콘텐츠 검색이 가능하다. KT는 국내 시장에 특화된 차량용 AI 음성인식 커넥티드카 솔루션을 선보이기 위해 세렌스와 2018년부터 공동 R&D를 추진해왔다. 세렌스는 메르세데스-벤츠, BMW, 아우디, 현대자동차 등 전 세계 2억대 이상의 자동차에 음성인식 기능을 제공하는 글로벌 기업이다. 

고객 센터에, 의료분야에 음성 인식

AI 음성 인식 및 AI 번역 전문 기업 엘솔루는 최근 오토브레인의 AI 컨택센터 내 음성 인식(STT) 기술을 공급한다고 밝혔다. 오토브레인은 전문 상담사의 업무 효율성과 생산성을 향상하고, 상담 만족도를 높이기 위해 엘솔루의 AI 기술을 도입하기로 결정했다.

최대 98% 이상의 음성 인식 품질을 제공하는 엘솔루의 AI 음성 인식 기술은 오토브레인의 모든 고객, 상담사, 정비사의 목소리를 실시간으로 인식해 고객 데이터를 생성해 줌으로써 수입차 브랜드의 서비스 세일즈에 반영된다. 엘솔루의 AI 음성 인식 솔루션은 기존 콜센터를 AI 컨택센터(AICC)로 디지털 전환하는 핵심 AI 기술로 녹취 분석부터 불완전 판매 요소 제거, 디지털 점포, AI 콜봇 분야 등까지 적극적으로 활용되고 있다. 
 
코어에이아이는 환자 만족도를 높이고치료 효과를 극대화할 수 있도록 지원하는 의료용 대화형 AI 가상 비서를 발표했다.

대화형 AI 기업인 코어에이아이는 환자 만족도를 높이고, 주요 인력 부족을 해소하며, 치료 효과를 극대화할 수 있도록 지원하는 의료용 대화형 AI 가상 비서인 ‘헬스어시스트(HealthAssist)’를 출시했다. 이 회사는 의료서비스 제공자, 건강 보험 관계자, 생명 과학 기업에서 활용되는 심도 깊은 의료 전문 지식과 강력한 AI 기반 노코드 경험 최적화 플랫폼을 결합하여 ‘헬스어시스트’를 개발했다.

헬스어시스트는 의료 기업이 환자와 회원, 간병인, 공급자, 에이전트, 직원 및 소비자들을 지원하는 전반의 업무에서 음성 및 디지털 상호 작용을 통해 상담원과 실제로 이야기하는 것과 같은 대화 경험을 제공한다. 또한 조직의 전자 의료 기록 시스템(EHR/EMR), 병증과 처방, 약재 등의 정보를 컴퓨터로 처리할 수 있는 '온톨로지(Ontology)' 시스템 운영을 위한 다양한 정보들, 입원-퇴원-전원(ADT) 정보, 환자 모니터링, 청구 및 기타 수익 창출 솔루션들과의 유연하게 연결하여 사용할 수 있어, 최적의 정보를 바탕으로 일반 환자와의 상호작용을 자동화하는 직관적인 셀프 서비스 솔루션으로 제공된다.

코어에이아이 지난해말, 엔비디아로부터 추가 투자를 받아 시리즈 C 펀딩 라운드를 연장하여 총 7350만 달러를 확보했다고 발표했다. 코어에이아이와 엔비디아는 기업을 위한 대화형 AI 기반 플랫폼 및 솔루션의 혁신을 가속화하기 위해 협력한다.

음성인식 AI의 미래

지난해말 마이크로소프트가 글로벌 컨퍼런스 '이그나이트(Microsoft Ignite)'를 통해 공개한 메타버스 기술은 향후 음성인식 기술이 어떻게 진화해갈지 잘 보여줬다. 

이중 마이크로소프트 메시(Mesh)는 디바이스에서 구현되는 가상 세계의 현실 전달감을 높이고 또 AI 기반 리소스는 음성 및 시각 머신러닝 모델을 통해 메타버스에서 이뤄지는 상호작용을 더욱 자연스럽게 한다고 강조했다.
 
팀즈에서는 팀즈용 메시(Mesh for Microsoft Teams)를 통해 특별한 장비 없이 개인화된 아바타로 현실감 있는 회의를 진행할 수 있다.

새로운 의사소통 방식을 제시하는 팀즈용 메시(Mesh for Microsoft Teams)를 이용하면, 이제 특별한 장비가 없이 어떤 기기에서도 개인화된 아바타를 통해 가상 환경에서 현실감 있는 회의 진행이 가능하다. 아바타는 AI를 기반으로 사용자의 움직임이나 제스처 등을 표현한다. 회의실, 디자인 센터, 네트워킹 라운지 등 실재하는 공간을 닮은 몰입형 공간도 활용이 가능해 회의의 재미를 높일 수 있다. 

마이크로소프트는 오픈AI와의 파트너십을 기반으로 애저 오픈AI 서비스(Azure OpenAI Service)를 발표, 앞으로 고객이 GPT-3를 API(응용 프로그램 인터페이스)를 통해 접근할 수 있도록 했다. 특히 이 서비스는 오픈AI의 강력한 자연어 처리 모델에 접근하는 동시에 별도의 레이어 생성 없이도 애저의 보안, 안정성, 컴플라이언스, 기타 엔터프라이즈급 기능을 제공받을 수 있다는 점에서 더욱 의미가 있다.

마이크로소프트는 앞으로 이를 통해 자연어를 활용한 혁신을 광범위하게 공유할 예정이다. 올해 초 마이크로소프트는 GPT-3 AI 기술을 파워 앱스에 적용, 코드를 모르는 ‘시민 개발자’도 자연어를 통해 앱을 개발할 수 있는 기능을 공개한 바 있다.

이 밖에도 메타버스 확산으로 음성인식 수요 증가하고 있다. 미국 로블록스, 국내 네이버 제페토 등 가상공간인 메타버스 플랫폼에서 새로운 비즈니스 모델이 창출되고 있다. 페이스북이 메타로 사명을 변경하고, 국내에서는 2020년 한컴은 싸이월드와 공동으로 게더타운인 ‘한컴타운’을 출시하였고, 지난 12월엔 싸이월드 한컴타운 베타 서비스를 오픈했다. 부동산 앱 서비스 업체인 직방은 자체 메타버스 ‘메타폴리스’를 만들어 근무 공간을 임대하는 신규 사업에 진출했다. 

김상훈 책임연구원은 “물리적인 제약이 사라짐에 따라 외국인과의 언어소통이 매우 중요해지고 모든 언어 간 실시간 통역이 가능하도록 다국어 통번역 기술의 고도화가 필요하다”며, “비대면 디지털 커뮤니케이션 수단으로 메타버스가 대안으로 부상함에 따라 디지털 생명체 즉 아바타와의 자연스러운 대화, 외국인과의 의사소통을 가능하게 하는 다국어 음성인식 기술의 요구가 대폭 증가할 것”이라고 예상했다.


  

<저작권자(c)스마트앤컴퍼니. 무단전재-재배포금지>


#가상/증강현실   #디스플레이   #모바일   #소프트웨어   #인공지능   #클라우드   #헬스케어   #IoT  

  •  홈페이지 보기
  •  트위터 보기
  •  페이스북 보기
  •  유투브 보기
  • 100자평 쓰기
  • 로그인

세미나/교육/전시
TOP