ai data 아주 많은 데이터? 큰 데이터? 빅데이터가 정확히 뭐지? | IT 단어장

ai data 아주 많은 데이터? 큰 데이터? 빅데이터가 정확히 뭐지? | IT 단어장

본문

5e891508c1f6cac1704b45a6410d70f1_1678262505_7836.png
빅데이터, 빅데이터... 말은 많이 들었지만, 빅데이터가 무엇인지 아는 분들은 많지 않을 것 같습니다. 그냥 큰 데이터인가? 데이터를 많이 모아놓은 건가? 라고 생각할 것도 같고요.


이처럼 우리는 빅데이터가 무엇인지, 어떻게 활용되고 있는지 잘 알지 못합니다. 하지만 알고 보면 우리는 빅데이터로 가득한 세상 속에서 살아가고 있답니다. 조만간 재킷 하나 사야지! 라고 생각했을 때 인터넷 브라우저를 켜니 재킷 광고가 뜨고, 유튜브 화면에 들어가기면 해도 관심 있는 분야의 영상이 차르르 뜨는 경험, 다들 해보셨을 텐데요. 검색하지 않아도 내 마음을 알아주는 이런 신기한 일이 가능해진 이유는 바로 빅데이터 때문이죠.


그렇다면 빅데이터란 무엇일까요? 이름 그대로 큰 데이터일까요?




디지털 환경에서 만들어진 모든 데이터, 빅데이터 


5e891508c1f6cac1704b45a6410d70f1_1678261330_0225.png

정답은 ...! 맞기도 하고 아니기도 합니다. 빅데이터는 디지털 환경에서 만들어지는 모든 데이터를 말하는데요. 수치와 문자는 물론이고 영상도 포함됩니다. 동시에 이러한 데이터를 다루는 기술을 말하기도 합니다.


스마트폰과 SNS가 활발하게 사용되면서 어마어마한 데이터들이 쏟아져 나오고 있습니다. 1분 동안 전 세계에서는 2억여 건의 이메일이 발송되고, 410만 번 구글 검색이 되며, 470만 개의 유튜브 동영상이 재생되고 있어요. 단 1분 동안에요. 이런 방대한 양의 데이터를 분석해 새로운 경제적 가치를 만들어 내는 것이 바로 빅데이터입니다. 




기존 데이터와 어떻게 다른가요?


5e891508c1f6cac1704b45a6410d70f1_1678261361_3299.png

여기서, 기존 데이터와 무엇이 다른지 의문이 생긴 분들이 있을 텐데요. 기존 데이터의 양은 테라바이트(TB) 수준이고, 데이터베이스 형태인 정형 데이터로 구성되어 있어 수치만으로 의미 파악이 쉬웠습니다. 반면 빅데이터는 테라바이트(TB)에서 제라바이트(ZB)까지 그 양이 어마어마합니다. 게다가 정형 데이터는 물론 의미 파악이 어려운 비정형 데이터로 구성되어 있습니다.


빅데이터 기술이 날이 갈수록 발전하면서 그동안 의미를 분석하기 힘들었던 비정형 데이터를 분석할 수 있게 되었습니다. 

* 테라바이트(TB) : 데이터 양을 나타내는 단위로, 일반적으로 구할 수 있는 저장장치 중 가장 큰 용량 단위이다. 1 TB = 1012 bytes = 1,024GB이다.

* 제타바이트(ZB) : 데이터 양을 나타내는 단위로, 인류가 생산해 낸 데이터의 총합이 2018년을 기준으로 33ZB를 넘겼다. 1 ZB = 1021 bytes 약 1조1,000억GB이다.




빅데이터의 특징인 5V는?


5e891508c1f6cac1704b45a6410d70f1_1678261399_2901.png

이러한 빅데이터의 특징을 한 단어로 5V라고 정의할 수 있습니다. 초기 빅데이터의 특징은 규모의 Volume, 다양성의 Variety, 속도의 Velocity인데요. 빅데이터를 통한 가치 창출이 중요해지면서 정확성의 Veracity와 가치의 Value가 더해졌습니다.


보다 쉽게 정리하면 빅데이터는 규모가 커야 하며 다양한 데이터를 담고 있습니다. 속도도 빠른 데다 정확해야 하죠. 이처럼 빅데이터는 규모, 다양성, 속도, 정확성, 가치 등으로 특정지을 수 있는 정보 자원인데요. 이를 활용하여 가치를 얻을 수 있어야 의미가 있답니다.



현재 빅데이터는 어떻게 활용되고 있을까요?

 

5e891508c1f6cac1704b45a6410d70f1_1678261421_5241.png
빅데이터는 머신러닝과 함께하면서 더 의미 있게 사용되고 있습니다. 지난 콘텐츠에서 머신러닝이 컴퓨터가 스스로 학습하는 기술이라고 말씀드렸는데요. 이때 머신러닝은 빅데이터를 활용해 누가 어떤 상품을 살지, 어떤 음악과 영화를 좋아하는지 분석합니다. 그리고 이를 통해 예측하죠. 우리의 취향에 맞게 영상이 나오고, 사고 싶은 상품의 광고가 뜨는 것도 이러한 이유 때문입니다. 

이처럼 기업에서는 빅데이터를 통해 시장의 흐름과 고객의 반응을 분석하여 비즈니스에 활용하고 있습니다. 또한 시간대별 교통체증, 전염병 확산 등 다양한 사회적 이슈에도 빅데이터가 활용되고 있죠. 빅데이터를 활용한 사례도 함께 살펴볼까요?

서울시 올빼미 버스
서울시에는 올빼미 버스라 하여 자정부터 새벽 5시까지 운행하는 심야 전용 버스가 있는데요. 올빼미 버스의 노선도는 직관적으로 만들어진 것이 아니라 빅데이터를 활용하여 만들어졌습니다. 버스의 수익성은 승객수로 결정되는데 심야버스를 이용하는 고객 수는 주중 시간대보다 적을 수밖에 없었습니다. 하지만 서울시는 서울 시내 전역을 돌아다닐 수 있는 버스 노선을 구축하길 원했고, 심야버스를 많이 이용할 만한 지역을 찾아야 했죠. 

늦은 시간 귀가할 때 가족이나 지인들에게 전화 걸어 '이제 출발한다.'라고 말한 적 있으신가요? 서울시는 이 점에 주목했습니다. 자정부터 오전 5시까지의 통화량 등을 이용하여 유동 인구 밀집도를 수집했죠. 이렇게 수집된 데이터를 분석하여 최적의 노선을 만들었고 배차 간격을 조절했습니다. 이러한 과정을 거쳐 탄생한 올빼미 버스는 하루 평균 1,000명 이상의 승객이 이용하고 있습니다.

자라의 RFID 
하루아침에 트렌드가 바뀌는 패션 시장에서 매출의 0~0.3%만 광고비를 쓰는 데도 정가로 판매가 되는 제품의 비율이 85%에 달하는 패션 브랜드가 있습니다. 전통적인 리테일러들이 매출의 3~4%를 광고비로 지출하고 있다는 점을 생각하면 어마어마한 성과인데요. 이 브랜드는 바로 자라입니다.

자라의 모든 옷에는 RFID*태그가 붙어 있는데요. 이 태그를 통해 고객들이 탈의실에서 가장 많이 입어본 옷인지, 가장 많이 팔린 옷은 무엇인지 등을 알 수 있습니다. 이를 분석해 버튼이나 지퍼, 컬러 등으로 고객의 선호도도 파악합니다. 이렇게 정리된 데이터는 디자이너에게 넘겨지고, 디자이너는 이를 이용해 새 옷을 디자인합니다. 고객 데이터에 기반하여 디자인하기 때문에, 새로운 제품이 시장에서 외면당하지 않는 것이죠. 
*RFID : 전자기유도방식을 이용해 먼 거리에서 정보를 인식하는 기술



무궁무진하게 활용되는 21세기 원유, 빅데이터

5e891508c1f6cac1704b45a6410d70f1_1678261824_5216.jpg
빅데이터는 21세기 원유라고도 불립니다. 원유는 정제 과정을 거쳐 석유나 휘발유가 되기도 하지만 플라스틱, 의약품 원료, 섬유류로도 재탄생하는데요. 데이터도 원유처럼 여러 분석 과정을 거치면서 다양하게 활용되고, 전혀 의도하지 않았던 정보도 만들기 때문입니다. 방대한 정보화 사회에서 빅데이터가 앞으로 어떻게 활용될지 궁금해집니다!


영상으로 쉽게 알아보기



705e87c2e0db6a80ac66575a11229c93_1673247210_9027.png