향후 유망한 빅데이터 기술 베스트 10

2016-09-02
박성규 기자, pskcom21@naver.com

지능형 반도체 시장의 급성장이 예상되는 가운데, 이를 견인하는 원인 중 하나인 빅데이터 시장의 전망 역시 매우 밝게 점쳐지고 있다. 이에 빅데이터의 현황과 사례, 그리고 빅데이터 시장에서 앞으로 주목 받을만한 기술에 대해 살펴보도록 한다.
사물인터넷(IoT), 스마트 카, 웨어러블 디바이스 등의 분야에서 핵심적인 기능을 담당하는 지능형 반도체 시장이 급성장할 것으로 전망되고 있다. 글로벌 시장조사 기관인 TMR(Transparency Market Research)의 보고서에 따르면 전 세계 시스템 반도체(SoC, System on Chip) 시장은 2014년 359억 5,000만 달러에서 2021년 719억 8,000만 달러로, 해당 기간 동안 연평균 10.5%의 성장률을 기록할 것으로 보인다.
지능형 반도체는 스마트 카, 웨어러블 디바이스, 특히 IoT 등에서 스마트 디바이스가 지능형 서비스를 제공할 수 있도록 하는 소프트웨어(SW)와 시스템 반도체(SoC)의 융합 기술을 의미한다. 지능형 반도체의 주요 응용 분야는 스마트 인지·제어, 스마트 통신, 초고속 컴퓨팅으로 구분할 수 있는데, 해당 분야별로 파생되는 세부 기술들은 매우 광범위해 향후 지속적인 성장이 예상되고 있다.
이 중 초고속 컴퓨팅 반도체는 초고속 연산처리가 가능한 지능형 반도체 소프트웨어 SoC 기술로 IoT, 빅데이터, 스마트 로봇 등 제품 구현에 사용되는 기반제품이라 할 수 있다. 특히 지속적으로 증가하고 있는 데이터양을 고려할 때, 빅데이터를 고속으로 처리할 수 있는 기술은 다량의 정보를 실시간 분석하고 고속 연산처리를 감안한다면 반드시 필요한 부분이다.
올해 하반기 전 세계 3대 반도체 기업들이 공격적인 설비 투자에 나선 것은 장기적으로 중국 기업들의 상장을 대비하기 위한 것도 있지만, 빅데이터 산업의 급증 역시 한몫하고 있다. 시장조사 기관인 IC인사이츠와 반도체 업계에 따르면, 삼성전자, TSMC, 인텔의 하반기 설비 투자액은 총 200억 달러(약 22조 1,2000억 원)으로, 이는 상반기 105억 달러(약 11조 6,100억 원)보다 90% 늘어난 금액이다(메모리·비메모리 반도체 제조사, 팹리스, 파운드리 등 모두 포함).

하반기에 투자가 집중된 것은 고성장이 예상되는 메모리 반도체 생산량을 늘리기 위함이다. 일례로 삼성전자의 경우, 현재 경기도 평택시에 15조 6,000억 원을 투자해 세계 최대 규모의 반도체 단지를 조성하고 있다. 삼성전자는 평택 단지의 가동 시점을 2017년 초로 잡고 있어 올해 하반기 내로 대부분의 설비를 갖춰야 한다. 반도체 업계에서는 삼성전자의 평택 단지가 3D 낸드 플래시를 주로 양산할 것으로 예상하고 있는데, 이는 SSD의 인기와 대용량 저장장치가 필요한 빅데이터 산업의 빠른 성장세로 해당 제품의 생산에 박차를 가하기 위함이다.
한발 더 나아가 삼성전자는 8월 10일 미국 산타클라라 컨벤션 센터에서 열린 ‘플래시 메모리 서밋 2016(Flash Memory Summit)’에서 차세대(4세대) V낸드 솔루션을 공개했다. 삼성전자의 4세대 V낸드 기술은 3D 메모리 분야에서의 리더십을 더욱 강화하고 빅데이터시대를 맞아 초고용량 ‘테라’ 시대를 주도해 나가기 위한 중장기 전략이다.
4세대 V낸드는 데이터를 저장하는 3차원 셀(Cell)을 기존의 48단보다 1.3배 더 쌓아 올리는 것으로 512 Gb까지 구현이 가능해 고용량 제품을 소형 패키지로 만들 수 있으며, 입출력 속도 역시 800 Mbps까지 향상시켰다.

세계 빅데이터 시장 2020년 573억 달러 규모
이렇듯 반도체 시장을 견인하는 분야중 하나인 빅데이터 산업은 ‘21세기 원유’라 불릴 정도로 미래의 4차 산업혁명에 있어 핵심 가치로 부상하고 있는 중이다. 물론 마치 조지 오웰(George Orwell)의 소설 〈1984〉(1949)에 등장하는 정보의 독점으로 사회를 통제하는 관리 권력, 혹은 사회체제를 의미하는 ‘빅 브라더(Big Brother)’처럼 데이터 회의론자들의 감시, 프라이버시 침해에 대한 우려도 존재한다. 실제 IoT로 연결되는 세상에서 보안은 매우 중요한 부분이기도 하며, 이를 위해 반도체 회사들은 보안 기능을 강화한 제품들(예를 들어 ARM의 ARMv8-M 등)을 강도 높게 개발하고 있다.
IoT가 ‘피할 수 없는 물결’이 된 것처럼, 연결과 연결 속에서 탄생하는 데이터들 역시 인간에게 더할 나위 없이 중요한 의미로 다가오는 시대가 열렸다.

IDC의 ‘전 세계 반년도 빅데이터 및 애널리틱스 지출 가이드’에 따르면, 빅데이터와 애널리틱스 분야의 매출은 2015년 1,220억 달러 규모에서 2019년 1,870억 달러로 5년간 50% 이상 성장할 것으로 전망된다. 세부적으로 서비스 분야의 매출이 빅데이터 및 애널리틱스 전체 매출의 50% 이상을 차지할 것으로 보이며, 소프트웨어는 2019년 550억 달러, 하드웨어는 280억 달러의 규모를 형성할 것으로 보인다.
특히 IDC는 2015년 말에 빅데이터 시장이 2019년까지 연평균 23.1%씩 성장해 486억 달러에 이른다고 전망했다. IDC는 빅데이터 시장을 인프라, 소프트웨어, 서비스로 분류했다. 이 중 소프트웨어 시장은 정보관리, 정보검색과 분석, 애플리케이션 소프트웨어로 구성되며 연평균 26% 성장할 것으로 보인다. 서비스 시장(전문 서비스, 지원 서비스)은 연평균 22.7% 성장을, 인프라 시장(컴퓨팅, 네트워킹, 스토리지 인프라, 기타 보안 등 데이터센터 인프라)는 연평균 21.7%씩 성장한다고 전망하고 있다.
한편, 스태티스타(Statista)는 전 세계 빅데이터 시장이 2016년 274억 달러에서 2020년 573억 달러로 예상했다.

페이팔, 사기 막기 위해 딥러닝 도입

물론 빅데이터는 미래에 유망한 시장이지만 현재도 활발히 활용되고 있다. 빅데이터가 과연 실제 어떻게 활용되고 있는 지 해외 사례를 살펴보자.
페이팔은 갈수록 증가하고 있는 온라인 쇼핑몰 사기수법을 분석 및 예방하기 위해 딥러닝(Deep Learning)을 도입했다. 딥러닝 기술은 빅데이터 융합 인식기술로, 머신러닝(Machine Learning)이나 인공지능(Artificial Intelligence)에 대한 또 다른 접근 방법이며 구글, 페이스북, 마이크로소프트, 바이두 등이 수년간 연구하고 있는 분야이기도 하다.
딥러닝은 사람의 뇌가 정보를 처리하는 방식과 유사한 인공 신경세포 네트워크 알고리즘을 사용하게 된다. 이 알고리즘은 뇌에서 영감을 얻어 유사 분석시스템을 마련하는 것이다.

페이팔은 사기방지 전문가와 함께 ‘탐정이 하는 것과 같은 방법론(Detectivelike Methodology)’을 적용할 수 있게 했다. 이로 인해 페이팔은 전 세계에서 이뤄지고 있는 온라인 결제에서 발견된 수만 개의 잠재적 특징을 분석해 특정 사기유형과 비교하거나 사기방식을 탐지하고 다양한 유사수법을 파악할 수 있게 됐다.
따라서 딥러닝으로 사기가 가능한 모델이 탐지되면 사기방지 전문가는 현실에서 일어날 수 있는 일인지, 다음에 무슨 일이 발생할 수 있는지를 파악하게 된다.
딥러닝 모델을 도입하면서 페이팔은 ‘챔피언-챌린저(Champions-and-Challengers)’ 방식의 접근법을 사용했는데, 전통적인 챔피언-챌린저 방식에서 새로운 전략(챌린저)이 기존에 사용중인 전략(챔피언)보다 뛰어나다면, 새로운 챔피언 전략으로 선택하는 과정을 거친다. 이 과정은 결과에 대한 챌린저 모델을 적용해봄으로써 새로운 전략이 나타낼 결과를 미리 예상할 수 있으며, 프로그램의 90%가 챔피언 모델을 통해 처리되는 동안 나머지 10%는 챌린저 모델을 통해 처리된다. 결국 결과를 비교해 더 우수한 전략을 선택하게 되는 것이다.
페이팔은 이런 접근법을 통해 어떤 사기탐지 모델에 무게를 둘 지를 결정하고 있으며, 딥러닝에 의한 방식은 새로운 전략(챌린저)에서 출발해 점점 새로운 챔피언 모델로 자리를 잡아가고 있다.
MLB, NFL에 빼앗긴 시장 되찾기 위해 빅데이터 도입

미국 프로야구인 MLB(Major League Baseball)도 빅데이터를 도입했다. 146년의 역사(1869년 설립)를 지닌 MLB는 1950년대까지만 해도 가장 인기 있는 스포츠였다. 하지만 TV의 등장 이후 NFL(National Football League)의 등장으로 시청률, 스폰서십, 구단용품 판매 등 다방면에서 MLB는 NFL에 시장을 빼앗겼으며, 야구팬의 고령화와 시청자수 감소로 대책 마련이 필요했다.
2014년 ESPN의 시청률 조사에서도 MLB 팬 평균 연령이 53세로 NFL(47세), NBA(37세)보다 높게 나타났으며, 월드시리즈 시청자 수만 보더라도 1978~1982년 3,800만 명에서 2014년 1,380만 명으로 64%나 급감했다.
MLB는 이러한 현실을 타개하기 위해 2015년부터 투구, 타구, 선수들의 움직임을 모두 포착하는 스탯캐스트(Statcast) 시스템을 30개 구장 모두에 설치하고 공의 궤적을 추적할 수 있는 레이더 장비업체인 트랙맨(Trackman)과 영상 장비 업체 카이론 히고(ChyronHego)와 협력했다.

덴마크의 레이더 회사인 트랙맨(Trackman)에서 들여온 도플러 효과를 이용한 레이더 카메라로 공의 궤적을 분석하고, 카이론히고(ChyronHego)의 카메라는 모든 선수들을 1초당 30개의 사진으로 찍어 움직임을 추적하고 분석할 수 있었다. 도플러 효과란 레이더 카메라가 전파를 발송하면 날아오는 공으로 인해 반사전파의 진동수가 증가하는데, 진동수 변화로 속도와 궤적을 측정하는 것을 말한다.
MLB는 이 스탯캐스트 시스템을 통해 모든 경기 이닝마다 투수의 피칭, 타자의 배팅, 타구에 대한 수비수들의 움직임 등을 추적하고 기록했다. 이 엄청난 양의 데이터는 메이저리그를 분석하고 운영하는 방송사는 물론 통계 및 분석 전문 회사를 통해 가공·공급됨에 따라 경기를 즐기는 방식이 단순한 경기 시청에서 데이터 야구에 대한 새로운 기대효과를 낳았다.
즉 축적된 기록은 세밀한 통계 분석을 가능하게 해 야구의 흥미를 배가시켰고, 그 흐름은 과학적 통계로 야구를 분석해 의미 있는 인사이트를 찾아내는 것에 초점을 맞출 수 있게 됐다. 투구 분석뿐만 아니라 타구와 선수의 움직임을 모두 처리한 데이터양은 경기당 3 TB ~ 7 TB에 이른다. 미국 메이저리그 사무국의 자회사인 MLBAM(MLB Advanced Media)을 통해 모든 데이터를 무료로 공개하고 있으며 누구나 접근이 가능하다.

스탯캐스트 시스템은 투구의 속도와 궤적, 공의 회전 방향부터 투수의 보폭과 자세를 보고 타자가 예측하는 속도와 어떻게 다른 지까지 분석할 수 있다. 기존의 야구중계가 “투수의 공 끝에 힘이 없다”거나 “배트 속도가 느리다”, “주자의 발이 느리다” 등 주관적인 표현이 중심이었다면, 지금은 구속(km/h)도 초속과 종속으로 나눠 시청자에게 전달되며, 타구속도, 비거리, 공의 궤적, 스트라이크 존 등 실질적이고 객관적인 수치 중심의 중계가 가능해졌다.
스탯캐스트 시스템은 모든 선수들을 1초당 30개의 사진으로 찍어 움직임을 추적·분석하며, 타격 후에는 기후에 따라 어떻게 공이 날아가고 수비수들의 반응과 공이 떨어지는 지점까지 얼마나 효율적으로 움직였는지도 추적한다. 또한 경기장 안에서 선수와 공의 움직임을 다양한 각도에서 시각화된 이미지를 추가해 보여준다.
이러한 서비스로 팬과 시청자는 스마트폰이나 TV를 통해 심판의 판정이 정확했는지도 실시간으로 살펴볼 수 있게 됐다.
스탯캐스트 시스템을 통해 축적된 빅데이터는 MLB의 인기 상승은 물론 구단과 선수의 객관적인 평가 자료로도 활용이 가능하다. 일례로, 2015년 MLB 선수들 중 가장 빠른 선수로는 도루왕 디고든으로 알려져 있으나 스탯캐스트를 통해 실질적인 통계를 분석하니 텍사스의 델리노 드실즈가 가장 빠른 선수로 나타났다.
델리노 드실즈는 스탯캐스트로 스피드를 측정한 결과 121경기에서 110번 출장해 21마일(33.8 km/h) 이상 속도의 주루플레이를 총 132번 기록했다.
MLB의 빅데이터 도입은 데이터 분석을 통해 고객 만족 실현에 있었으며, 이외에 다양한 채널을 통한 야구 중계, 게임, 마케팅, 스포츠 교육 등 다양한 분야에 활용할 수 있음을 보여주고 있다.
DB Systel, 센서 데이터 분석으로 기관차 운행 관리 개선

독일의 철도회사인 DB Systel은 센서 데이터 분석을 통해 기관차 운행 관리를 개선한 사례로 꼽히고 있다.
독일은 5,700개의 기차역과 3만 4,000여 km에 이르는 철도 네트워크를 갖추고 있다. 철로에서의 열차 사고는 상당한 비용, 운송 지연, 만족/신뢰도 하락의 원인이 된다.
특히 독일 사회에서 철도가 차지하는 비중이 매우 높은 편이어서, 한 기관차의 연착은 전체 철도 스케줄에 영향을 끼칠 정도다.
이에 DB Systel은 기관사의 경험보다 데이터 분석 기반의 관리 시스템을 갖추기로 했다. DB Systel은 운영 상황 정보를 실시간으로 담아 인지 가능한 빅데이터로 즉시 가공하고자 했다. 이를 위해 기관차와 시설에 센서를 부착해 상태 변화를 감지하거나 환경을 신속하게 분석해 빅데이터화해 나갔다. 즉 문제가 발생할 경우, 센서가 패턴을 감지하면 관리자가 디스플레이 형태로 인식 가능하도록 했다.
또한 기관차에 부착된 센서로 기관차 유지 및 보수에 필요한 온라인 진단 데이터 시스템 및 인프라도 구축했다. 이로인해 유지 및 보수가 필요한 부분에 대해 일정 기간 그 내용을 리스트화해 예방·정비에 활용해 작업장에서 유지보수를 진행하는 순간에도 데이터가 수집됐다. 또한 기관차의 운행·상황 관련 데이터 역시 관리자가 인지할 수 있도록 했다.
DB Systel은 빅데이터 도입으로 문제를 빠르게 파악해 유지보수에 정기적으로 적용함으로써 정확한 대처가 진행될 수 있는 관리 분야에서의 유용성을 확보할 수 있었고, 기관차의 운행·상황 관련 데이터를 지속적으로 생성하고 관리자가 인지한 후 원격 진단이 가능한 체계를 수립할 수 있었다.

금융권, 마케팅 위한 빅데이터 도입 활발
금융권에서도 빅데이터 도입은 활발히 진행되고 있다. 국내외 신용카드사들은 빅데이터 분석을 통해 파악한 고객 니즈와 스마트폰으로부터 수집한 정보를 결합하는 CLO(Card Linked Offer)서비스를 마케팅에 활용하고 있다. 비자카드는 고객의 동의 하에 결제 장소, 시간, 구입 품목 등을 실시간으로 파악하고 고객의 구매 이력 및 성향을 감안해 인근 매장의 할인쿠폰을 발송해주는 RTM 서비스를 제공하고 있다.
아멕스는 제유 SNS의 고객 계정을 자사 카드와 연동시켜 고객이 상품을 구매할 때 SNS를 통해 할인해 주는 AMEX Sync 상품을 출시했다. 해당 상품으로 아멕스는 고객의 거래 성향 파악에 도움이 되는 대량의 정보를 축적한 후, 이를 마케팅에 활용하고 있다. 아멕스의 경우 2010년부터 CLO를 통한 서비스 제공으로 약 3년간 마케팅 비용 7,700만 달러 정도를 절감한 것으로 알려졌다.

신한카드는 2,200만 고객의 카드 이용 실적을 토대로 고객별 소비패턴과 선호 트렌드를 분석했는데, 남녀 각각 9개 고객군을 추출한 후 유형에 최적화된 코드 나인(Code9) 카드 시리즈를 출시한 바 있다. 삼성카드는 고객의 카드 거래실적을 분석해 향후 자주 이용할 것으로 예상되는 가맹점 혜택을 미리 고객에게 제안해 고객이 별도의 쿠폰이나 할인권을 제시하지 않더라도 결제만 하면 자동으로 혜택을 받을 수 있는 링크(LINK) 서비스를 개발했다.
이 밖에 직원 비리에 따른 손실 방지를 위해 인터넷 사용 데이터와 SNS 공개 데이터를 분석하는 등 내부보안 업무에 빅데이터를 활용한 JP모건, 대량의 로그 데이터를 분석해 알려지지 않은 악성코드 공격에 대한 보안성을 강화한 하나은행, 접수된 사고패턴 및 위험도를 분석해 보험사기 의심건을 추론하는 고위험군 사고 분석시스템인 IFDS(Insurance Fraud Detection System)을 운용하고 있는 삼성화재도 빅데이터의 도입 사례로 꼽을 수 있다.

Top 10 Hot Big data Technologies
한국정보화진흥원에서 발표한 ‘글로벌 빅데이터 사용 현황 및 향후 활용 전망’ 보고서에서는 미국 테크프로 리서치(Techpro Research)의 분석 자료(글로벌 198개 기업 리서치 결과)를 토대로, 2016년 1월 기준으로 글로벌 기업의 29%가 빅데이터를 도입해 활용하고 있다고 분석했다.

한국은 5% 내외인 점을 볼 때 아직 빅데이터 활용 초기 단계라 할 수 있다. kt경제경영연구소의 박재형 연구원은 ‘빅데이터, 개방과 공유의 시대로’라는 보고서를 통해 “해외 기업들이 내외부 데이터를 다양하게 활용하면서 복수의 데이터를 조합해 운영효율 향상과 전략적 가치창출을 동시에 지향하는 반면, 국내에서는 기업 내부의 데이터만 활용해 한가지 유형을 중심으로 빅데이터를 활용하고 있다”고 분석했다.
한편 미국의 포레스터 리서치(Forrester Research)는 빅데이터 기술을 전망하며 22개의 기술을 수명 주기로 표현했다(표 ‘빅데이터 기술 분야의 비즈니스 가치 평가 및 수명 주기’ 참고). 해당 그래프에서 X축은 생태계 주기를, Y축은 비즈니스적 가치 수준을 평가해 각 기술의 2016년 현재의 상황을 종합적으로 표현했다. 그래프에서 파란 곡선은 가장 중요하면서도 매우 유망한 기술을, 회색 곡선은 중간 수준의 기술, 빨간 곡선은 다소 가치가 낮은 기술을 표현했다. 또한 이 22개의 빅데이터 기술은 차기 기술로 전환되는 시기를 1년 미만, 1~3년, 3~5년, 5~10년, 10년 이상으로 예측해 뜨는 기술과 지는 기술의 수명적 가치도 동시에 표현했다.

포레스터 리서치의 그래프를 토대로 ‘포브스’ 등에서는 22개의 빅데이터 기술 중 향후 시장에서 가장 비즈니스적 가치가 높은 기술을 10가지로 추렸다.
다만 현재 높은 가치를 지녔어도 3년내에 새로운 기술 가치로 전환될 것으로 예상되는 기술은 제외했다. 예를 들어 데이터 거버넌스, SQL for Hadoop, Insight Platform 기술은 제외됐으며, 현재 비즈니스 가치로 봤을 때 가장 높은 수준인 MPP data warehouse 역시 지고 있는 기술이어서 제외했다(2016 Top 10 Hot Bigdata Technologies, 한국정보화진흥원).

- Predictive analytics
‘Predictive analytics’는 향후 10년간 안정적 성장세를 보이고, 비즈니스적 가치가 높은 기술로 평가됐으며 기업이 자사 및 자사 제품의 시장에서의 평가, 마케팅의 최적화를 통해 비즈니스적 성과를 향상시키고, 위험을 줄이는 방법을 제공하는 가장 우수한 솔루션으로 선정됐다. 또한 빅데이터 분석을 통해 향후 시장 예측 모델을 제공하는 소프트웨어 및 하드웨어 솔루션을 제공하는 분야로 가장 높은 비즈니스적 가치를 제공하는 기술이라는 측면도 반영됐다.
- NoSQL databases
데이터베이스는 그동안 계층형, 네트워크형, 관계형으로 발전해 왔으나 빅데이터 처리가 일반화되면서 No-SQL에 대한 관심과 가치가 크게 높아지는 추세로 향후 5년까지는 NoSQL의 기술 가치는 지속될 것으로 전망된다. NoSQL 기술은 복수의 저가 서버들을 클러스터링, 샤팅 등의 방법을 통해 데이터를 분리해 처리하고 있어 보다 대량의 데이터를 빠르게 처리할 수 있는 기술로 평가받고 필요에 따라 Key-value, Documents, Graph Database 등으로 활용할 수 있다는 점이 특징이다.
- Search and knowledge discovery
정형 또는 비정형 데이터의 검색과 빅데이터 분석을 위해 제공되는 툴과 기술은 향후 5년간 지속적인 성장세를 보일 것으로 예측된다. 이는 단순한 검색 도구가 아니라 파일 시스템, 데이터베이스, 스트림, API 및 기타 플랫폼, 애플리케이션에 있는 다양한 유형의 데이터를 분석하여 새로운 통찰을 제공하는 툴로서 매우 중요한 가치를 지니는 것으로 평가받고 있다.
- Stream analytics
네트워크 또는 시스템에서의 서로 다른 다양한 데이터 소스, 포맷이 다른 데이터 소스를 모두 취합하고 분석해 필요한 데이터를 선택 후 처리하는 소프트웨어 분야가 향후 높은 성장세를 보일 것으로 평가됐다. 데이터 분석 및 추론 등을 통해 얻는 지능은 데이터의 규모가 커질수록 다방면의 최신 데이터를 통합해 더 내재 가치가 높은 지능을 얻을 수 있으며 분석 결과의 정확도도 높아진다는 측면에서 대량의 이종 데이터를 실시간으로 분석할 수 있는 환경 구축 가능성이 점차 커지고 있어 이를 지원하기 위한 기술도 발전할 것으로 예상되고 있다.
- In-memory data fabric
In-memory database는 디스크가 아닌 주 메모리에 모든 데이터를 보유하고 있는 데이터베이스로 디스크 검색보다 자료 접근이 훨씬 빠른 것이 가장 큰 장점이며 데이터 양의 빠른 증가로 데이터베이스 응답 속도가 떨어지는 문제를 해결할 수 있는 대안이다. 인메모리 방식은 메모리상에 색인을 넣어 필요한 모든 정보를 메모리상의 색인을 통해 빠른 검색이 가능하다는 점에서 높은 성장세가 예측되는 분야다.
- Distributed file stores
저장해야 하는 데이터양이 크게 증가하면서 필요 저장 장치의 수가 증가하게 됐으며 다수의 저장 장치 이용 시 일부 저장 장치가 사용이 불가능해도 파일의 가용성을 보장할 뿐만 아니라 대용량의 데이터를 빠르게 처리할 수 있다는 점에서 파일 분산 저장 기술은 필수적이다.
- Data virtualization
데이터 가상화는 이종으로 구성된 인프라스트럭처를 하나의 논리적으로 통합된 리소스인 것처럼 접근, 관리, 최적화할 수 있게 해주는 방법으로 이를 통해 일부 서비스, 기능 또는 기타 리소스의 내부적 구현에서 외부 인터페이스를 추상화할 수 있다는 장점을 가지고 있어 빅데이터 기술로 전망이 밝다.
- Data integration
산재된 데이터 소스와 시스템, 애플리케이션 등으로부터 데이터를 취합하고 가치를 지니는 정보가 되도록 만들어주는 과정을 의미하며 데이터를 복제하거나 애플리케이션의 기존 소스를 변경하지 않고도 즉시로 이용할 수 있게 한다는 점에서 우월하며 정기적으로 반복되지 않는 물음에 신속한 대답을 얻을 수 있다는 것이 강점이다.
- Data preparation
데이터 준비 프로세스의 자동화로 복잡하고 시간 소비적인 수동 데이터 준비시간을 절약할 수 있으며 데이터의 유효성 검증을 더욱 빠르고 정확하게 수행할 수 있는 방법론을 제공한다.
- Data quality
빅데이터에 대한 자동 데이터 프로파일링, 데이터 품질 분석, 데이터 품질 분석 결과 보고 등을 제공하는 품질 관리솔루션의 중요성이 크게 증가하고 있다.
빅데이터 분석의 목표는 기기들을 끊임없이 연결시켜 생활 수준을 향상시키고 효율성을 높이는 데 있다. 특히 2020년까지 약 208억 개 이상의 사물이 연결될 것으로 전망되는 만큼, 빅데이터는 향후 10년간 매우 유망한 시장으로 자리잡을 것이다.

참고문헌
- ‘Global Bigdata 사용 현황 및 향후 활용 전망’, 한국정보화진흥원
- ‘2016 Top 10 Hot Bigdata Technologies’, 한국정보화진흥원
- ‘2016 글로벌 빅데이터 융합 사례집’, K-ICT

#딥러닝 #머신러닝 #애널리틱스 #반도체 #빅데이터

관련 기사