일/Data Mining

Big Data, Hadoop, Pig. Data Mining.

LEEHK 2012. 5. 10. 19:35

늘 하던 이야기. 대용량 데이터에서 유용한 지식을 뽑는다. 가 메인이지만-

 

노가다 투성이인 그 작업은 데이터 용량이 커지며 리소스가 많이 들어간다. 하둡이 지향하는 것은 시간 단축이다. 서버 분산처리로 시간을 줄이는데, 유저가 분산처리를 쉽게 할 수 있도록 도와준다. 피그 같은 언어를 쓰면 가벼운 코드 몇 줄로 그러한 작업을 할 수 있다. Map & Resuce 며 각종 코드를 튜닝하는 이유가 그것이지-

현실적인 제약으로 일주일 치 데이터 돌리던 시간에 일 년치를 돌릴 수 있게 되니 결과물의 질이 좋아진다.

 

다행히 앞서 나가는 분들이 계시니 도움 받으며 열심히 배우고, 데이터 스케일도 커지고 실행 시간도 줄일 생각을 하니 기쁘다.

 

하지만 내 주요 업무는 분산처리가 아닌 마이닝, 시류를 따라가되, 크게 부담을 가질 필요는 없겠다. 빅데이터의 주제는 언제나 우리 모두가 알고 있는 것이다. 커다란 산에서 금을 캐낸다. 산이 점점 커지고 도구도 점점 커지고 있다. 결국 채굴 방향을 세우는 것은 마이너, 분석가, 사람, 나다. ㅎㅎ 산도 커지고 도구도 좋게 만들어주시는 분들께 감사하고, 실전편으로 후딱 써보고 배워야징.