본문 바로가기

국민대로 작업/이과

2012 IT 이슈 - 빅데이터에 대해 알아보자 대학생들아

2012 10대 IT 이슈를 나열하자면, 1.빅데이터 2.스마트기기 3.윈도우8 4.차기IT정책 5.차세대부품 6.IT융합 7.차세대TV 8.정보보호 9.4G 10.클라우드 볼 수 있습니다. 이미 2012 절반이 지나갔으니 이 중 일부는 이슈가 이제 아닐 수 있겠군요. 하지만 빅데이터는 앞으로 쭉 IT 이슈 이야기에 빠지지 않을 내용이라 한번 다루어 봅니다. 이제부터 쉬운설명을 위해 편안하게 써볼께!

갑자기 등장한 이 분이 누구시냐, 바로 지식경제부 차관이라고 써져있으니 '아 .. 그런 사람이구나.' 하고 와닿지 않을 것이다. 어쨋든, 지식경제부는 우리나라 IT산업과 가장 밀접간 정부부서이기도 하지. 7/11 지식경제부가 서울시 마포구 소재의 누리꿈스퀘어에서 '13th SW Quality Insight 컨퍼런스'를 개최했어. 그리고 중심내용은 '빅데이터' 였지.

그리고 그 날 축사를 통해 윤상직 차관님께서 이런말씀을 하셨어. "빅데이터 시대엔 데이터가 국가의 부와 미래에 새로운 가치를 창출할 것"이라며 "급변하는 IT트렌드를 반영해 올 하반기 '빅데이터 SW산업 발전전략'을 마련하겠다"

현재 지경부는 올 예산 73억원을 들여 빅데이터 관련 기술과제를 추진하는 등 빅데이터 SW산업 육성을 위해 R&D, 인력양성, 네트워킹, 정보교류 등을 지원해오고 있어. 이제 조금 빅데이터가 왜 중요한지 궁금한 사람들이 많아졌을려나?

빅데이터는 KBS '시사기획 창' 프로그램을 통해서 나온 적이 있어. 물론 이런 프로그램이 있었는지도 모르겠지만 헤헤 .. 역시 이런 프로그램은 서론이 제일 재밌어. 그 이유는 궁금증을 유발해야 사람들이 보기 때문이지. 가장 기억에 남는 부분이자 빅데이터를 한마디로 설명할 수 있는 부분을 캡쳐했지.

'데이터에 숨겨진 이야기를 이해할 수 있습니다.' 이 말은 즉, 무수히 많은 데이터들이 지금 이 시간에도 저장될 것이고 이것들의 패턴을 읽음으로써 얻을 수 있는 무언가를 찾아내야한다는 것이야. 즉 빅데이터의 사용결과는 숨겨진 이야기를 찾는다고 생각하면 되.

'빅데이터'를 이제 한번 짧게 설명해보려고해. 앞에 글을 보면 대충 엄청나게 큰 데이터인 건 감이 왔겠지? 그렇다면 이렇게 큰 데이터들이 어디서부터 오는 지 출처부터 생각해보자. 자 이제 내가 페이스북을 접속하면 유용하지 않은 글들로 가득 차있는 걸 볼 수 있을거야. 친구들이 뭘 먹고 있는지, 어디가고있는지 등등 그닥 나한테는 유용하지 않아. 하지만 이런 글들이 빅데이터의 자원으로 사용되는 거지. 비록 나한테는 유용하지 않아도 정부나 기업은 어떨까? 국민들이, 소비자들이 어떤 생각을 가졌는지 도무지 정리되지 않는 수많은 글들을 체계화 시킨다면? 매우 유용하게 사용할 수 있지 않을까? 이게 바로 빅데이터의 본질이야!

즉, 빅데이터는 '저장'과 '분석'을 키포인트로 잡고있는 거대하고 비정형화된 데이터야. 누가 빅데이터를 물어봤을 때 이렇게 한줄로 말해주면 될거야. 뭐 빅데이터를 물어볼 친구가 있다는 게 조금 더 신기한 일이야 :D

그럼 이번엔 2가지 포인트 '저장'과 '분석'에 대해서 알아보자.

 

지금 위에 보이는 건 '저장공간' 이야. 딱 봐도 빅데이터에 걸맞는 저장공간이지? 유럽 입자 물리학 연구소(CERN)가 스위스 제네바 부근에 세운 대형강입자충돌기(LHC) 내부 설비 일부지. 과학실험으로 발생되는 '빅데이터' 사례야. 이걸보고 '아.. 빅데이터 이름 답게 저장공간도 크면 되는거구나.' 하면 오산이야. 두번 오산이야.

매우 큰 저장공간 확장은 기본이고 저장공간 크기와 더불어 성능도 좋아야겠지. 저장공간이 성능이 어딨냐고? 예를 들면 작은 크기에 더 많은 저장공간이 들어가는 기술이나 더 빠른 속도로 저장처리를 할 수 있는 그런 것들을 예로 들 수 있지. 그럼 '크고 아름다운(?) 저장공간'사용하면 되면 끝이라고 생각 하겠지?

아니야. 마지막으로 가장 중요한건 그런 저장공간들이 서버와의 호환성이 안정적이여야 한다는 거지! 서버와 연결이 제대로 되지 않는 다면 없으나 마나인거지. 쉬운 예로 카톡을 들지. 카톡하다보면 화날 때 있지? 헤헤

이번엔 분석을 알아보자. 귀여운 코끼리가 나타나서 놀랬지? 하지만 이 세상에서 가장 크고 가장 날렵한 코끼리 '하둡'이라고해. 뿌우~
소프트웨어를 구입해야 소프트웨어를 설치하고 실행할 수 있듯이, 빅데이터 분석을 돕는 솔루션 업체들이 있겠지. 하지만 지금 껏 이야기만 들어도 이 '빅데이터'는 만만한 녀석이 아니야. 그래서 빅데이터를 분석하는 솔루션 업체를 이용하는 것도 엄청난 비용을 지출하지. 하지만 '하둡'이 등장하면서 모든 문제가 해결됬지. 하둡은 오픈소스로 열려있다는 점에서 모든 기업들이 활용을 할 수 있었고 '싼 게 비지떡'이라는 말이 있지만 이녀석은 정말 맛있고 따끈따끈한 비지떡이란 말이지. 그래서 대부분의 기업들이 하둡을 이용해. 페이스북, 트위터, 링크드인, 야후 등 굴지의 기업들도 말이지! 하둡은 오픈소스라 나머지 지원은 없어. 그래서 그걸 이용해서 타기업들이 하둡 관련 전문 사업화들이 속속 등장했지.

500기가바이트를 59초 만에, 100테라바이트를 단 173분 만에 정렬하는 등 하둡은 데이터 분석에 대하여 상상초월의 성능을 제공한다. 구글의 알고리즘을 구현한 하둡은 맵리듀스 기법을 통해 데이터에 대한 생각의 방식을 변화시키고, 이전에 보존시켜 두었던 그 어떤 데이터든지 활용할 수 있게 한다. 전에는 너무 오래 걸려 결과를 얻을 수 없었던 문제도 이제는 그 해답을 빠르게 얻을 수 있게 되었고, 이를 통해 새로운 통찰력도 얻을 수 있게 되었다. -하둡 완벽 가이드 中

*맵듀리스 기법 : 다수의 컴퓨터에서 데이터를 분산처리하여, 그 결과를 추려내는 데이터프로세싱 기법

 

이제 빅데이터의 글을 요약정리하자면 거대한 자료의 흐름을 파악해서 원하는 결과를 도출해내는 것 그것이 빅데이터고 이제 빅데이터를 더 효율적인 저장공간과 더 빠른 분석기법을 발전 시키는 것이 앞으로의 과제지!

KBS 시사기획 '창' 빅데이터 관련 영상을 링크를 넣어줄께. 같이 본다면 완벽하게 이해될꺼야!
http://news.kbs.co.kr/economic/2012/02/01/2428163.html