토론/기타 QnA

21485 호박이
2013-05-15 14:45:35
빅데이터의 효용성과 가치 그리고 미래

제가 바라본 빅데이터의 의미와 가능성을 얘기해보고자 합니다.

응용 레벨은 제외하고 베이스에서 접근해보겠습니다.


우선, 빅데이터의 근원이 되는 데이터는 어떠한 형태여야 하는가.

빅데이터 분석의 핵심은 Explicit 이 아닌 Abstraction (추상) 데이터를 

Raw data(단편적인 데이터)로부터 도출해내는 것입니다.

왜냐하면 Explicit(외형적인) 데이터는 RDB로 더 쉽게 찾을수 있기 

때문이죠. 그러려면 필연적인 Raw Data 위에 Feature Space라고 부르는

중간계층, 그 위에 Semantic 이라고 불리는 상위계층이 있어야 합니다.


예를 들어, 둥근 공을 사람이 발로차는 비디오는 공과 사람이라는 Raw data

위에 사람을 공을 한쪽 방향으로 차가 나가는 Feature 가 존재하고,

이것들이 모이면 축구, 거기에 살을 보태 2002 월드컵 축구 중계로

변신시킬수 있습니다.

이것은 사실 MPEG 7 에 이미 포함되어 있습니다.


여기서 중요한 문제는 Feature 라는 것을 어떻게 뽑아내는가 입니다.

지금까지는 사람이 했습니다. 네이버 검색이 좋은 예죠.

하지만 그런일을 할 사람도 없고, 시간도 부족하다면,

스스로 그런일을 할 수 있는 방법이 강구되어야 합니다.
오키 게시판 데이터를 예로 들어 보죠.

자동으로 Raw data (게시판 글타래, 답글, 통계데이터...)에서 

업무분야와 업무시간과 근로형태와 처우와 경력년수를 찾아내고

그 Interrelation(상관관계)와 Coherency (일관성)을 유추해내야 합니다.

더 나아가 우리가 원하는 개발자 근로 환경 조사를 해내려면,

'경력 12년차의 프리랜서 개발자의 업무능력에 따른 처우' 같은 

쿼리에 답해줄수 있으려면 

업계의 통상적인 업무 능력 수준을 모두가 공감하는 Axiom (공리) 으로써 미리 설정해야 하고요.


여기까지만 보면 한가지 의문점이 드실겁니다.

그래서 정말 자동으로 돼? 

되긴 되는데 많은 지식과 정보들이 미리 축적되고 잘 정리되어 있어야 합니다.

가장 좋은것은 게시판 글들이 OWL 이나 RDF 형태의 정리된 지식으로

저장되어 있는 것입니다. 즉, Raw Data 혹은 그 상위 데이터들을 

그냥 글의 서술형태가 아닌 의미가 있는 (의미를 뽑아내고 찾아보기 쉬운) 것으로 잘 정리하는 것이 필요하다는

얘기입니다. 인공지능이나 패턴인식을 이용한 Inference, Data mining은 

그 다음 문제입니다. 


간혹 빅데이터 얘기가 뉴스에 나오면 꼭 들러 붙는 말이 있습니다.

'데이터 분석 전문가'가 필요하다고. 

제가 아는 바로는 그 말에는 위에 기술한 의미들이 담겨있다고 생각합니다.

물론 패턴인식이나 데이터마이닝, Visualization 툴들을 이용하여 복잡한 데이터를 분석하는 기술도 포함입니다.

빅데이터가 제대로 성공하려면, 시스템이나 소스구현이 아니라

데이터의 특성을 잘 이해하고, 그것이 의미가 있고 나중에 잘 써먹을 수 

있는 (시스템이 됐는 시멘틱적인 것이 됐든) 구조로 

표현하는 능력이 필요하다고 생각합니다.


미래 창조부에서 빅데이터 센터를 만들고, 

많은 돈을 투자한다고 합니다.

이왕할꺼면 전문가들의 말을 깊이 청취하고 오랜 심사숙고 끝에,

실패하더라도 좋은 경험들을 조금이라도 더 많이 축적할 수 있는

계기가 되었으면 좋겠습니다.


과거 WIPI 나 클라우드 서비스처럼 돈만 날리고, SW 개발 그거 안되는거쟎아, 개발자 욕만 하는
그런 IT 무뇌정부의 답습은 하지 않았으면 좋겠습니다.
긴 글 읽어주셔서 감사합니다.



  • 요즘 관심분야인데 재밌게 봤습니다.
    데이터 분석 전문가의 의미에 대해서 깊이 공감하고 갑니다.
  • 5065narsizz
  • 2013-05-15 11:21:59
  • x
  • 금융권 이런데의 데이터도 빅데이터가 되나요?

    고객의 카드, 은행계좌 거래의 모든것을 DW에 쌓아놓고 분석하는 일을 하고 싶은데요
    이런것을 분석하는 일을 주업으로 삼고 싶습니다

    저의 개발자 경험을 토대로 직업을 바꾸고 싶네요.
    경제학 석사 학위증을 기반으로 업무현업 <--> 전산파트 이 중간에서 빅데이터 애널리스트 이런 직함도
    멋진것 같구요.

    고객이 천만명쯤 되는 금융회사에서 카드 및 은행계좌로 발셍되는 기초데이터가 5년정도 누적되면
    이거머 포인트로 해서 엄청날것 같습니다.
  • 19847막걸리
  • 2013-05-15 11:24:14
  • x
  • 좋은 글 잘 봤습니다.
  • 943Q u i c K
  • 2013-05-15 12:36:26
  • x
  • 막걸리 // 이런... 금융권 데이터를 빅데이터 분석할 일은 없을꺼에요.
    더군다나 개인정보가 담겨진 데이터라면 더더욱이요.
    빅데이터가 그냥 양 많은이 아니니까요. 그 보단 DW를 기웃거려보심이 좋을 듯 ^^;
  • 21942포포0
  • 2013-05-15 16:57:56
  • x
  • 제가 하고 싶었던 얘기는

    빅데이터 유행의 현상을 잘 봐야 한다는 것이었습니다.

    Hadoop, MongoDB, Hive 는 나중에 해도 늦지 않습니다.

    원리를 모르면 무언가 막혔을 때 해답을 찾지 못하니까요.

    정부에서 K-Hadoop 이라도 만들려고 든다면...

    돈버리는 짓이 될수 있다고 생각합니다.
  • 21485호박이
  • 2013-05-17 01:27:28
  • x



다음글 11월 퇴사 12월 프리시작인데 종소세 신고해야하나요?
>> 17099 빅데이터의 효용성과 가치 그리고 미래  [5] 호박이 1271 2013-05-15 14:45:35
이전글 산업기사 취득 할꺼 같은데 나중에 기사도 따야 될까요??