일/Data Mining

좋은 모델을 만드는 법.

LEEHK 2007. 12. 16. 04:03

 대부분의 절차가 자동화 되어가고 있다. 회사에서 돈만 지불하면 패키지화 되어 있는 툴을 얼마든지 구입하여 사용할 수 있다. 설사 회사에서 구입하지 않는다 해도 어둠의 경로로 활용할 수 있는 길은 있다. 스스로 원하는 형태대로 데이터를 손질하고 가공할 수 있는 기술적인 기반은 충분히 갖추고 있다. 사실 중요한 것은 기술적인 부분이 아니다. 일을 하면 할 수록 느끼게 된다. 데이터를 많이 다뤄본 경험은 굉장한 자산이 된다. 데이터를 잘 알고자 한다면 비즈니스를 제대로 이해해야 한다. 데이터를 모르면 제대로 된 변수를 골라낼 수가 없다. 모델의 성능은 좋은 변수의 존재 유무와 볼륨에 따라 좌우된다.

 쉽게 일을 하는 것과, 더욱 발전하는 것 중에 택하라면 당연히 발전하는 것을 택한다. 그 길에는 위험이 따른다. 지속적인 공부가 필요하다. 사실 학계에서 나온 좋은 알고리즘을 아는 것도 중요하지만, 그보다 현업을 이해하는 것이 더욱 필수적이다. 최근 가중치를 두고 있는 것은 비즈니스의 이해이다. 이제 웹 쪽에 들어온 지 10개월이 되어 간다. 1년이 가득 차게 되면 무언가 전환기를 맞게 되겠지, 현재는 그 변화를 준비하고 있는 도중이라 생각된다.

 쉽게 그 정체를 허락하지 않는 상대는 승부욕을 자극한다. 학교에서 책과 논문을 가지고 한정된 데이터를 가지고 연구하는 것도 물론 가치있겠지만, 나에게는 실데이터를 다루는 것이 더욱 재미있다. 나는 확실히 scientist가 아닌 Engineer로서의 삶을 지향한다.

 최근 SAS 교육을 다녀와서 생각했다. 나는 코딩을 할 때, '원하는 형태를 만들고자' 탐구하는 것이 아니라, '낭비없이 효율적으로' 짜고자 고민하는 단계에 도달한 지 한참 되었다. 하지만 메모리 1기가에 1만 원 이하로 떨어진 이 상황에서 더이상 하드웨어 적으로 시간을 단축하고자 효율을 따지는 것은 크게 의미 없을 수도 있다. 만들고자 하는 데이터를 자유자재로 만들 수 있는 상황이 된 이상, 더더욱 중요한 것은 그 데이터를 '어떻게 만들 수 있느냐'가 아니라, '어떠한 관점에서 만드느냐'이다.

 고민을 많이 하고 모델의 방향을 정하기 위해서는 더 높은 곳에서 전체를 관조할 수 있는 시야가 필요하다. 그리고 해당 비즈니스에 대한 감이 있어야 한다. 전혀 모르겠다가, 슬슬 알 것도 같은 상황이 되었다. 나는 어떤 일을 할 때에도 내가 산업공학과 전공임을 실감하고 감사한다. 궁극적인 BI(Business Intelligence)가 내 목표인지는 아직 확신을 하지 못 하겠다. 하지만 적어도 좋은 모델을 만들고 싶어하고, 미래를 볼 수 있도록 현재를 꿰뚫는 흐름을 느끼고 싶어하는 것은 분명하다.

 더 많이 읽고, 더 많이 살펴 보고, 더 많이 써 볼 수 있도록 더욱 흥미를 느껴서 취미가 되도록 노력해야 겠다. 오랫만에 만난 자기세뇌의 욕구다.