일/Data Mining

데이터마이너가 되려면?

LEEHK 2013. 7. 22. 23:58

질문을 많이 받는다.

 

데이터마이닝을 하려면 어떤 준비를 해야 하나요?

데이터마이너는 어떤 일을 하나요?

 

답을 많이 해주다보니 대략 개괄적인 흐름이 잡혀 글을 쓴다. 사실 몇 달 전에 써주기로 했는데 이제야 자판을 두드리니 미안할 따름이다. 그것도 맥주 한 잔 힌 뒤에. ㅎㅎ

 

구두로는 설명을 많이 했다. 학교 후배들에게, 매년 가는 여성공학인 멘토링 행사에서, 직종 이동을 고려하는 사내/사외 직장인들에게, 다양한 맞춤 상담을 하다보니 개인화 되는 부분과 공통 부분으로 나뉜다. 이 글에서는 공통점인 부분만 다룬다.

 

 

 

1. 데이터마이닝은 뭘 하는 분야인가요?

 

대용량의 데이터에서 유용한 지식을 뽑아내는 일이다.

 

 

2. 데이터마이닝을 하려면 어떤 역량이 필요한가요?

 

A. 도메인에 대한 이해 : 자동차 산업? 웹? 반도체? 신용평가? 등등 어느 분야의 데이터인지, 해당 산업에 대한 깊이 있는 통찰력이 중요하다. 데이터를 이해해야 그 후속작업들이 가능하니.

 

B. 통계적인(수학적인) 분석방법론=알고리즘에 대한 이해가 필요하다. 제목에 '데이터마이닝, 패턴인식, 머신러닝' 중 하나가 들어간, 챕터 15 이상인, 영어와 수식으로 채워진 원서 한 권은 통달하게 읽어본 지식이 필요하다. 부서에 와도 읽게 스터디를 시키지만, 그 베이스가 있으면 더 좋다. 패턴인식 책의 경우 한국 교수님이 쓰신 것도 좋더라. 나는 한지웨이 여사가 쓰신 data mining concept and techniques 로 대학원 때 공부했고, 같은 책을 회사 와서 한 번 더 스터디 했다.

 

C. 데이터웍을 할 수 있는 프로그래밍 언어에 대한 경함이나 기본 지식이 필요하다. 데이터 구조를 알아야 하기에, 디비와 분산처리에 대한 이해도가 있어야 한다.

나는 10년 간 SAS 프로그래밍을 했고 (자격증 없다. 응시료 비싸다;;) SQL에 익숙하다. 곁다리로 R, 쉘 프로그래밍, 파이썬, 하둡피그, PHP, HTML 등 기타 언어에 소소한 경험들과 전문가 친구들이 있어 소스 독해가 가능하며 견본 코드를 변형하여 활용할 수 있는 정도의 수준은 된다. 엑셀도 잘 다룬다. 엑셀 무시하지 마라. 처리 건수와 속도만 빨라진다면 동급 최강의 데이터웍과 통계작업, 비쥬얼라이제이션이 가능한 만능 툴이다.

 

 

3. 저 세 가지 역량을 다 갖춰야 하나요?;;

 

못 갖춘다. 특히 신입은. 조직적으로 저 세 분야에 고르게 인재가 분포하면 된다. 내가 저 중 어느 분야에 특히 재능이 있고, 다른 분야도 할만한 자질이 있는가를 보여야 한다. 그게 불가능하다면 데이터마이닝을 직업으로 택한 뒤에도 수시로 고달프게 된다.

난 저 셋을 쉽게 A. 산공(내가 산공이라... ㅋㅋ 도메인에 대한 이해), B. 통계, C. 컴공 이라 표현한다. 실제로 저 셋 전공자가 가장 많다. 하지만 모든 일이 그러하듯, 전공 무관하여 훌륭하게 종사하는 사람들도 많다. 그것은 반짝반짝 빛나는 개인의 재능과 노력이다.

 

 

4. 대학원을 가야 하나요?

대학생이라면 경제적 부담이 없는 한 가는 게 좋다. 꼭 가야만 하는 것은 아니나, 어느 전공을 하던지 석사 정도는 해보는 것이 좋다. 이유는- 전문성을 깊이 하자는 것이 아니라, 상상만 하던 분야가 정말 내 적성인지 체험해보는 의미에서 추천한다. 석사 해보고 아니면 다시 신입으로 회사 들어가면 된다. 하지만 직장인으로 3년차가 되어 새 분야로 옮기는 것은 쉽지 않다. 석사 해보고 마음에 들면 박사까지 달리고, 박사는 하고 싶지 않으나 해당 분야가 마음에 들면 그 분야로 취직하고, 석사 하는 동안 이 길은 내 길이 아니라는 느낌이 들면 대기업 공채로 지원해서 새 삶을 시작하면 된다.

수업만 듣는 여유로운 연구실 말고, 프로젝트를 빡시게 하는 랩을 가야한다. 데이터마이닝 학회와 유사 학회의 회원 소개 페이지에 가면 데이터마이닝을 하는 교수님들이 나열되어 있다. 그 중 고르면 된다. 대학원 고르는 법에 대한 조언은 너무 길어서 생략한다.

만약 학생이 아니라 경력자라면- 굳이 대학원 갈 필요 없다. 실무 경험이 더욱 소중할 수 있고, 일하며 충분히 공부할 수 있다. 일하며 대학원을 진학하는 것도, 일을 그만두고 대학원을 진학하는 것도 쉬운 문제가 아니다. 각종 사례들이 있으나, 이 부분도 개인정보성 주제들이 있어, 술자리에서 할 대화라 생략한다.

 

 

5. 대학원 못 가요. 그럼 못 하나요?

 

랩 사정에 따라 학비 지원되는 곳이 있다. 교수님이 프로젝트 하시는 역량에 따라, 혹은 산학이 지원되어 남의 돈으로 공부할 수 있는 길이 있다. 물론 노력해야만 쟁취할 수 있고, 무척 빡세다. 남의 돈 받기 쉬운 것 아니니- 의지가 있다면 정보력으로 찾아보자.

그래도 못 간다. 싶으면 학부연구생으로 데이터마이닝 교수님 랩에 참여하여 경력을 쌓거나, 데이터마이닝 경연대회를 참여해서 수상을 하는 등 어설프게나마 경험이 있어야 좋다. 이 쪽 분야는 대기업 공채 신입사원을 뽑듯 아무것도 모르는 신입 데려다가 공부시키기에는 학습시간이 너무 길다. 기업들은 경력자를 선호한다. 진입장벽이 높다고 볼 수 있으나 한 번 들어오면 갈 데는 많아진다. 특히 요즘처럼 빅데이터와 하둡, 데이터 사이언티스트 등이 히트치는 시기에는, 점점 몸값이 비싸진다고 한다(근데 난 왜 이거밖에 안 줘요. ㅜㅜ).

무경력 학사 신입이 없지는 않고, 실제로 잘 업무하시는 분들이시나, 그 수가 적을뿐더러- 스펙이 장난 아니다. 경력으로 검증이 안 된 인력이기에 커트라인이 매우 높다.

경력직 중에 직종을 바꾸시는 분들은 대부분 개발자(프로그래머) 들이다.

 

 

6. 여자가 하기에 좋은 직업인가요?

 

이 질문은 의미 없다고 매번 답한다. 적성에 맞는 사람이 하기에 좋은 직업을 뿐 남, 녀, 성별 특성은 없다. 하지만 내가 여자라 하도 많이 받아서;;; 쓰자면, 나쁘지 않다.

여자가 일하기 좋은 직업이냐는 출산과 육아 관련된 주제가 대부분인데 이는 해당 도메인의 문화에 따라 달라지는 문제다. 업무가 데이터마이닝이냐보다 제조업이냐, 아이티냐, 은행권이냐 등등 어느 업계이냐, 혹은 같은 도메인이더라도, 회사별 부서별 관리자별 분위기에 좌우된다. (그래서 좋은 리더를 만나야 한다!)

이공계 특유의 현상으로- 실제 해당 분야에 종사하는 여성의 비율은 적으나, 하는 사람들 보면 잘 하는 사람은 잘 한다. 워킹맘으로서의 나는 만족하며 직장생활 하고 있다. 하지만 난 어느 분야를 갔어도 그럭저럭 즐겁게 살지 않았을까? ㅎㅎ :)

 

7. 실제 어떤 일을 하세요?

 

이건 개인정보가 많이 들어가서 자세한 내용은 패스~ 모델링하고 서비스를 한다. 많은 데이터를 보고 인사이트를 뽑아 쓸만한 결과물을 내뱉는다. 데이터 정제에 많은 리소스를 쏟고, 그 과정은 흡사 노가다에 가깝다. 데이터 정합성 체크를 하며 끊임없이 의심하고 리뷰한다. 많은 이해당사자들과 핑퐁하며 협의를 해야 하기에 커뮤니케이션이나 협상능력도 중요하다.

데이터 파악 및 전처리을 하는 작업에 들어가면, 지루하고 답답할 때도 많다. 좋은 데이터에서 좋은 결과물이 나오기에, 아이디어를 계속 내면서 성능 개선을 위해 끈질기게 노력하는 시간들이 대부분이다. 하지만 내가 만든 로직이나 모델의 성능이 잘 나왔을 때의 희열은 그 어떤 것과도 비교할 수 없을 만큼 짜릿하다.