AWS, 3개의 신규 아마존 AI 서비스 발표

2016-12-05
박종배 기자, jbpark@elec4.co.kr

- Amazon Alexa 기술에 기반한 Amazon Lex, 개발자가 웹, 모바일, 및 커넥티드 기기 대상 앱을 위한 풍부한 대화형 사용자 경험을 손쉽게 구축하도록 지원
- Amazon Polly, 텍스트를 실제와 같은 음성으로 변환시켜, 24개 언어로 47개의 실제와 같은 음성을 앱에 적용
- Amazon Rekognition, 강력한 딥 러닝 기반의 이미지 및 안면 인식 기술을 사용해 애플리케이션에 손쉽게 이미지 분석 기능 추가

아마존웹서비스는 Amazon Lex, Amazon Polly, Amazon Rekognition 등 3개의 신규 AI(Artificial Intelligence) 서비스를 출시한다고 밝혔다. 이번에 새롭게 발표된 서비스를 통해 개발자들은 자연어를 인식하고, 텍스트를 실제 사람의 말과 같은 음성으로 바꾸어 주며, 음성이나 텍스트를 통해 대화를 진행하고, 이미지 분석, 사람의 얼굴이나 물체, 특정 장면 등을 인식하는 애플리케이션을 손쉽게 개발할 수 있다. Amazon Lex, Amazon Polly, Amazon Rekognition은 수 천여 명의 아마존 딥 러닝, 머신 러닝 전문가들이 개발한 검증되고, 고도의 확장성을 갖춘 아마존 기술에 기반했다.

Amazon AI 서비스는 모두 우수한 품질과 높은 정확도를 자랑하는 AI 기능을 제공하며, 탁월한 확장성을 갖추고, 비용 효율적이다. 아마존의 AI 서비스는 아마존이 모든 관리 서비스를 제공해, 별도의 알고리즘을 구축하거나, 머신 러닝 모델을 트레이닝 할 필요가 없고, 선지불(up-front commitments)이나 인프라 투자를 필요로 하지 않는다. 이는 개발자들에게 자유를 선사해, 사람처럼 주변 환경을 보고, 듣고, 말하고, 이해하고, 상호 작용을 할 수 있는 새로운 애플리케이션 개발에 집중할 수 있도록 해 줄 것이다.

지금까지, 인공지능 기능을 지닌 애플리케이션을 개발, 구축하고 이를 대규모로 확장할 수 있는 개발자의 수는 매우 적었다. 왜냐하면, 이러한 과정은 방대한 양의 데이터에 접근할 수 있어야 하고, 고도의 머신 러닝 및 신경망 관련 전문 지식을 필요로 했기 때문이다. 인공지능 기술을 효과적으로 적용하기 위해서는, 여러 가지 서로 다른 종류의 머신 러닝 및 딥 러닝 알고리즘을 개발하고 조율하는 광범위한 수작업이 필요했다(예: 자동 음성 인식, 자연어 처리, 이미지 분류 기능). 그리고 나서, 트레이닝 데이터(training data)를 수집 및 클린(clean)하고, 다시 머신 러닝 모델을 훈련하고 튜닝하는 작업이 추가적으로 요구되었다.

하나의 애플리케이션을 개발하는 과정에서도 모든 사물, 얼굴, 음성, 언어 특징 별로 이러한 과정을 반복해야 했다. 그러나 Amazon AI는 완전 관리 서비스로서, 모든 앱 개발자들은 AWS Management Console에서 API 콜이나 몇 번의 클릭 만으로 서비스에 접속해 아마존의 강력하고 검증된 딥 러닝 알고리즘과 기술들을 활용할 수 있어 이러한 작업의 어려움을 없애 준다. Amazon AI 서비스는 아마존의 자연어 처리 기능, 음성 인식 기능, 텍스트 음성 변환(text-to-speech) 기능, 이미지 분석 기능을 앱과 기기, 장소와 규모를 가리지 않고 자유롭게 사용할 수 있도록 해 준다.

AWS의 데이터베이스, 애널리틱스 및 AI 담당 부사장인 라주 굴라바니(Raju Gulabani)는 “알고리즘의 발전, 방대한 데이터에 대한 폭 넓은 접근, 클라우드로 인한 컴퓨팅 성능 비용 절감 등의 여러 요인 등이 결합해 애플리케이션 개발자들에게 AI는 더욱 구체적인 현실이 됐다. AWS는 오늘날 사용되는 가장 혁신적이고 창조적인 주요 AI 애플리케이션의 중심에 있다. 아마존의 머신 러닝 및 딥 러닝 전문가들 수 천여 명이 여러 해 동안 인공 지능 기술을 개발해 왔다.

이들이 개발해 온 인공지능 기술은 사람들이 선호할 만한 읽을거리를 예측하고, 로봇 기술과 컴퓨터 비전 기술을 통해 물류 센터(fulfillment center) 업무의 효율성을 증대시키며, 고객들에게 아마존이 개발하고 있는 인공지능 기반 가상 비서, Alexa를 선보일 수 있게 해 주었다. 이제 AWS는 이러한 혁신의 근간 기술을 모든 개발자들이 공유할 수 있도록 3 가지 종류의 관리형 Amazon AI 서비스를 출시하게 되었다. 이 서비스들은 사용이 쉽고 성능이 뛰어나며 비용효율적이다. 앞으로 고객들이 어떻게 Amazon Lex, Amazon Polly, Amazon Rekognition를 사용해 인간과 같은 지성을 지니고 사람처럼 보고, 듣고 말하며, 인간 및 주변 환경과 상호작용할 차세대 앱을 어떻게 개발할지 매우 기대된다”고 말했다.

Amazon Lex를 통한 지능형 대화 기능 구현

Amazon Lex는 대화형 인터페이스(conversational interfaces) 구축을 위한 새로운 서비스로, Amazon Alexa에서 사용되는 것과 동일한 자동 음성 인식 기술(ASR, automatic speech recognition) 및 자연어 처리 기술(NLU, natural language understanding) 기술을 기반으로, 음성과 텍스트를 이용한다. Amazon Lex가 거의 모든 앱에서 복잡한 자연어 처리 기능을 가능하게 한 것이다.

개발자들은 Amazon Management Console에서 봇(날씨 확인, 항공기 예약 등의 자동화 기능을 수행하는 대화형 앱)을 생성해 간단한 어구를 타이핑 해 시험해 볼 수 있다(예: “항공편을 찾아봐”, 또는 “비행기를 예약해라”). 또, 해당 과업을 수행하는 데에 필요한 추가적인 매개 변수를 얻기 위해 지시를 내릴 수도 있으며(예: 여행 일자 및 목적지) 그에 해당하는 상세한 정보를 위한 질문을 받기도 한다(예: “어디로 가기를 원하십니까?”, “어디에 가고 싶으세요?”). 이후부터는 Amazon Lex가 언어 모델을 구성하고, 추가적인 질문을 제시하여 주어진 과업을 완수한다. Amazon Lex는 AWS Lambda와 통합되어 있으므로, 개발자들은 AWS Lambda 기능을 사용해 적절한 백엔드 서비스(항공권 예약 서비스 등)를 Amazon Lex로 불러 오도록 설정할 수 있다.

또한 개발자들은 세일즈포스(Salesforce), 마이크로소프트 다이나믹스(Microsoft Dynamics), 마케토(Marketo), 젠데스크(Zendesk), 퀵북(QuickBooks), 허브스팟(HubSpot) 등의 엔터프라이즈 시스템에서 데이터를 불러와서, “Salesforce.com에서 내 상위 10대 계정이 무엇인가?”와 같은 질문에 답하도록 AWS Lambda 기능을 수행하는 사전 구축된 엔터프라이즈 커넥터를 사용할 수 있다.

Amazon Lex를 사용해 구축한 봇은 웹 애플리케이션부터 페이스북 메신저(Facebook Messenger)나 슬랙(Slack) 등의 채팅 및 메신저 앱을 비롯해, 모바일 또는 커넥티드 디바이스의 음성을 통해 어디서든 사용이 가능하다. Amazon Lex는 개발자들로 하여금 각 플랫폼마다 사용자 인증 코드(custom code)를 입력하도록 요구하지 않고도 각각의 플랫폼에 필요한 인증 절차를 처리하고, 사용자 인터페이스 설계를 간소화한다. 뿐만 아니라, Amazon Lex는 트래픽이 증가함에 따라 자동으로 확장이 이루어지기 때문에 이제 개발자들은 인프라 확장에 대해 걱정하지 않고, Amazon Lex API 호출에 따른 비용만 지불하면 된다.

캐피탈 원(Capital One)은 소기업 및 상용 서비스 고객을 대상으로, 다수의 채널을 통해 다양한 종류의 금융 상품과 서비스를 제공하는 기업이다. 캐피탈 원 산하 Capital One Labs 의 CTO인 파이로즈 라피에르(Firoze Lafeer)는 “AWS 서비스를 많이 이용하고 있는 캐피탈 원에게 Amazon Lex는 AWS Lambda, Amazon DynamoDB 등 AWS의 다른 서비스와 유기적으로 통합될 수 있다는 점에서 매력적이다. 확장성이 매우 뛰어난 솔루션인 Amazon Lex는 캐피탈 원이 최근 발표한 Capital One skill for Alexa 등, 새로운 세대의 음성 및 텍스트 인터랙션 서비스의 출시 기간을 크게 단축시켜 줄 것으로 기대된다”고 말했다.

오하이오 헬스(Ohio Health)는 미국 전역에 잘 알려진 의료 기관으로, 47개 국의 11개 이상의 병원과 네트워크를 형성하고 있다. 오하이오 헬스의 CIO이자 운영 지원 담당 수석 부사장인 마이클 크루즈(Michael Krouse)는 “이렇게 진화하는 음성 인식 및 자연어 처리 기능을 활용할 수 있게 되어, 앞으로 고객의 생활을 더욱 개선할 수 있을 것으로 기대된다. Amazon Lex는 환자들에게 새로운 경험을 제공할 수 있는 좋은 기회가 될 것이다. 오하이오 헬스에서 우리가 하는 모든 일은 궁극적으로 환자들에게 적시에, 적절한 장소에서 적절한 치료를 제공하기 위함이다. Amazon Lex의 차세대 기술과 이를 바탕으로 오하이오헬스가 개발하고 있는 혁신적인 애플리케이션이 만나, 고객들에게 더 나은 체험을 제공할 수 있을 것으로 기대된다. 그러나 이것은 앞으로의 무한한 가능성의 시작에 불과하다”고 말했다.

허브스팟(HubSpot)은 마케팅 및 영업 소프트웨어 분야의 선도 기업이다. 허브스팟 창립자이자 CTO인 다르메시 샤(Darmesh Shah)는 “허브스팟의 GrowthBot는 마케터 및 영업 담당자들을 대상으로 대화형 인터페이스를 통해 관련 데이터 및 서비스를 제공함으로써 더 높은 생산성을 지닐 수 있도록 해주는 올인올(all-in-one) 챗봇이다. GrowthBot을 통해 마케터들은 콘텐츠 생상, 경쟁사 연구, 분석된 데이터 모니터링에 도움을 받을 수 있다. Amazon Lex를 통해 허브스팟은 GrowthBot이 사용자에게 좀 더 직관적인 UI를 제공할 수 있도록 고도화된 자연어 처리 기능을 추가하고 있다. Amazon Lex는 직접 알고리즘 코드를 작성하지 않고도 첨단 머신 러닝 기능 및 AI 기술의 이점을 누릴 수 있도록 해 준다”고 말했다.

트윌리오(Twilio)는 기업이 실시간 커뮤니케이션 및 인증 기능을 직접 소프트웨어 애플리케이션에 적용하도록 하여, 맥락에 충실하고 적절한 커뮤니케이션을 실현할 수 있도록 하는 기업이다. 트윌리오의 메시징 제품 담당 이사 벤자민 스테인(Benjamin Stein)은 “개발자나 기업고객들은 트윌리오를 통해 전 세계 모든 지역의 고객과 소통할 수 있는 앱을 개발하고 있다.” “Amazon Lex는 개발자로 하여금 사용이 간편한 모듈형 아키텍쳐 및 종합적인 API를 이용하여 모바일 플랫폼에서 대화형 봇을 손쉽게 개발하고 구축할 수 있도록 할 것이다. 앞으로 고객들이 트윌리오와 Amazon Lex를 활용해 선보일 서비스에 대해 높은 관심을 갖고 있다”고 말했다.

Amazon Polly를 통한 지능형 음성 기능

Amazon Polly는 개발자로 하여금 사람의 음성과 같은 자연스러운 음성 출력 기능을 신문 읽기 앱이나, 이러닝 플랫폼 등 기존의 애플리케이션에 쉽게 추가할 수 있도록 한다. 또는 이를 통해 모바일 앱, 디바이스, 애플리케이션 등의 분야에서 전혀 새로운 종류의 음성 지원 제품(speech-enabled products)을 개발할 수 있다. Amazon Polly는 사용이 간편하다. 개발자들은 Amazon Polly에게 SDK를 사용하거나 AWS 관리 콘솔에서 메시지를 보낼 수가 있으며, Polly는 즉각 음성으로 이를 출력한다.

출력되는 음성은 바로 재생 가능하고, 표준 오디오 파일 형식으로 저장할 수 있다. 전 세계 24개 언어로 47개의 실제와 같은 음성을 제공하는 Polly를 통해, 이제 개발자들은 성별, 억양 등을 자유롭게 선택하여 전 세계 사용자들을 대상으로 하는 애플리케이션을 개발할 수가 있게 되었다.

Amazon Polly는 텍스트를 매끄러운 발음으로 읽어 주므로, 다양한 텍스트 포맷에 걸쳐 우수한 품질의 음성을 애플리케이션을 출력할 수 있다. Amazon Polly는 확장성이 뛰어나며, 대량의 음성 변환 작업에도 고품질의 음성을 빠른 속도로 출력한다. 개발자는 오직 변환되는 텍스트의 양 만큼만 비용을 지불하면 되고, 생성된 음성 파일은 저장 후 자신이 원하는 만큼, 아무런 제약 없이 재생할 수 있다.

워싱턴 포스트(Washington Post)는 퓰리처 상에 빛나는 미디어 및 기술 기업으로, 매일 1,200 건 이상의 기사를 서비스한다. 워싱턴 포스트 수석 제품 관리자, 조셉 프라이스(Joseph Price)는 “워싱턴 포스트는 오래 전부터 음성으로 기사를 서비스하고자 하였지만, 기존의 음성 변환 솔루션은 높은 비용에도 불구하고 음성의 품질이 좋지 않았다. Amazon Polly가 제공하는 우수한 품질의 음성 서비스를 사용할 수 있게 되어, 독자들이 더 풍부하고 다양한 방식으로 워싱턴 포스트의 컨텐츠를 즐길 수 있게 될 것으로 기대하고 있다”고 말했다.

고애니메이트(GoAnimate)는 클라우드 기반의 비디오 애니메이션 생성 플랫폼이다. 이를 통해 애니메이션 제작에 대해 전혀 모르는 일반인들도 쉽게 애니메이션 비디오를 만들 수 있다. 고애니메이트 창립자 겸 CEO인 엘빈 헝(Alvin Hung)은 “Amazon Polly는 고애니메이트 유저들이 자사의 플랫폼을 이용해 생성한 애니메이션 캐릭터에 쉽게 음성을 심을 수 있도록 한다.

특히 이 기능은 여러 언어로 동영상을 제작하거나, 프리프로덕션 단계에서 승인 절차를 빨리 진행해야 하는 경우 등 실제 음성 녹음이 비용상, 시간상 어려울 때에 매우 유용하다. Amazon Polly의 음성 출력 기능은 고애니메이트의 프리 애니메이션(pre-animated) 자산들과 긴밀하게 통합되어 더 쉽게 고애니메이트를 사용하도록 하고, 고객들이 더 효율적이고 효과적으로 시장에 제품을 선보일 수 있도록 해 줄 것이다”고 말했다.

Amazon Rekognition을 통한 지능형 이미지 분석

Amazon Rekognition은 개발자들이 빠르고, 손쉽게 이미지를 분석하고, 안면이나 사물, 장면 등을 인식하는 애플리케이션을 개발할 수 있도록 해 준다. Amazon Rekognition은 딥러닝 기술을 이용해 자동으로 차량이나 애완동물, 가구 등 사물과 장면을 식별한 후, 신뢰도 점수(confidence score)를 제공한다. 이를 통해 개발자들은 이미지에 태그를 적용하여 애플리케이션 사용자들이 키워드를 통해 이미지를 검색할 수 있게 한다.

Amazon Rekognition은 이미지 내에서 얼굴을 인식하고, 웃고 있는지, 눈을 감았는지 등의 속성을 감지해 낸다. 또한 고급 안면 분석 기능을 제공해 안면 비교나, 안면 검색 등도 수행할 수 있다. Amazon Rekognition을 이용해 개발자들은 동일 인물을 촬영한 두 개의 이미지를 놓고 안면의 유사성을 측정할 수 있으며, 이를 통해 거의 실시간으로 참고 사진과 대조하여 사용자의 신원을 검증할 수 있다. 마찬가지로, 수 백만 장의 얼굴 이미지(사진에서 탐지)를 모을 수도 있고, 기준이 되는 얼굴을 데이터베이스에서 검색할 수도 있다.

Amazon Rekognition은 종합적인 이미지 분류, 탐지, 관리 기능을 신뢰할 수 있는 AWS 서비스 형태로 쉽고, 저렴하게 제공하며, 고가의 이미지 처리 시스템을 구축하고 관리하는 데에 소요되는 복잡성과 오버헤드를 줄여 준다. Amazon Rekognition 사용 시, 선투입 비용(upfront costs)은 발생하지 않으며, 개발자는 저장하는 안면 형태 벡터 및 분석 이미지의 양에 따라 비용을 지불하면 된다.

레드핀(Redfin)은 현대적인 기술을 사용해 사람들이 집을 사고 팔 수 있도록 도와주는 본격적인 부동산 중개 서비스이다. 레드핀의 빅데이터 및 애널리틱스 담당 이사, 용 후앙(Yong Huang)은 “레드핀 이용자들은 사이트나 모바일 앱에서 매물 이미지를 살펴 보는 것을 좋아한다. 이에 사용자들이 이러한 수 백만의 등록 매물 리스트와 이미지 속에서 더 간편하게 감별 할 수 있도록 하고자 한다.

Amazon Rekognition은 건물 이미지에서 직접 다양한 태그를 생성해 낸다. 이를 통해 사용자들이 화로, 뒤뜰, 수영장 등 자신들이 필요로 하는 주택을 찾을 수 있는 스마트 검색 기능을 좀 더 쉽게 구축할 수 있다. 또한 Amazon S3 URL를 지원해 이미지를 여기 저기 옮기지 않고도 바로 각종 사물이나 장면, 얼굴 등을 검색할 수 있어 시간을 크게 줄일 수 있다”고 말했다.

스머그머그(SmugMug)는 매일 수백만의 사용자들이 수십억 장의 사진을 안전하게 보관할 수 있도록 하는 사진 공유 사이트이다. 스머그머그 대표이사 겸 공동 창업자, Chief Geek인 돈 맥어스킬(Don MacAskill)은 “SmugMug 고객들은 사진을 관리하면서 시간을 보내고 싶은 것이 아니라 더 많은 추억을 만들고 싶어 한다. Amazon Rekognition은 고객의 사진 속에서 자동으로 컨텐츠를 탐지할 수 있도록 해주고, 그 외에도 방문객과 이용자들이 사진을 보고 인생을 즐기는 데에 더 많은 시간을 보낼 수 있도록 해 주는 다양한 기능을 제공한다”고 말했다.

AWS의 인공지능과 딥러닝

Amazon Polly는 미국 동부 지역(북 버지니아), 미국 동부(오하이오), 미국 서부(오레곤), 유럽(더블린) 지역에서 바로 이용 가능하며, 향후 수 개월 간 서비스 지역을 넓혀 나갈 예정이다. Amazon Rekognition은 미국 동부(북 버지니아), 미국 서부(오레곤), 유럽(더블린) 지역에서 이용이 가능하며, 향후 수 개월 간 다른 지역으로 서비스 지역을 확대할 예정이다. Amazon Lex는 현재 프리뷰를 이용할 수 있다.

위 서비스에 더해, AWS는 최근 오픈소스로 배포되는 딥 러닝 프레임워크인 MXNet에 대규모 투자를 단행한다고 발표했다. 카네기 멜론 대학 등 유명 대학 연구진에 의해 최초로 개발된 MXNet에 대해 Amazon은 코드 기여 및 개발자 환경 개선 등을 진행해 왔다. MXNet은 머신 러닝 분야의 과학자들을 대상으로 확장성을 지니는 딥 러닝 모델을 개발할 수 있도록 해 주며, 이는 이들의 애플리케이션을 훈련 시키는 데에 소요되는 기간을 크게 단축시킬 수 있다.

뿐만 아니라 AWS에서는 개발자들이 AWS를 개반으로 자기만의 인공지능 플랫폼을 개발하는 데에 소요되는 머신 러닝 및 딥 러닝 작업 부하 실행 부담을 덜어주기 위해 노력하고 있다. Amazon Elastic Compute Cloud(Amazon EC2)는 방대한 양의 메모리와 다양한 GPU 및 인스턴스 타입을 지원함으로써, 딥러닝 훈련에 가장 이상적인 체제다.

2016년 9월 출시된 P2 인스턴스는 대규모 머신 러닝 및 딥 러닝 작업을 위해 설계된 제품으로, 최대 8개의 NVIDIA Tesla K80 Accelerators를 통합할 수 있으며, 이는 각각 한 쌍의 12GiB NVIDIDA GK210 GPU 및 2,496 병렬 처리 코어를 실행한다. 또한 고객은 AWS의 Deep Learning AMI를 이용할 수 있는데, 여기에는 모든 종속성(dependencies), Nvidia 드라이버, 그리고 Jupyter나 Anaconda와 같은 데이터 사이언스 툴을 포함해, 사전에 설정 및 시험을 완료한 6개의 딥러닝 프레임워크가 포함되어 있다. 추가로 AWS CloudFormation 템플릿은 단 몇 번의 클릭 만으로 대규모의 딥러닝 신경망 훈련을 실시할 수 있는 기능을 제공한다.

#신제품 #인공지능 #AI #딥러닝 #프레임워크 #GPU

관련 기사