진희님 부탁으로 인트라넷에 올린 Talk 감상 겸 홍보 글. (중 편집하여 담음)
... 어째서 이화경은 글 짧게 쓰기가 안 될까=_= Simple is the BEST. =_= 노력할까? 과연-_-
++
[특강]Data Mining - I Still Know What You Did Last Summer - 심규석교수 (서울대)
Data Mining 분야 자체가 나온 것은 여러가지 요인이 있겠지만, 데이터베이스 기술이 발달함에 따라
대용량으로 적재되는 데이터 중에서 정말 필요한 지식(Knowledge)를 추출해야 하는 필요성이 대두되었기 때문입니다. 전기공학부에서 학부를 하셨지만, Computer Science 쪽이 적성에 맞아 데이터 베이스 관련 분야를 공부하시다가 마이닝으로 오신 심규석 교수님의 시선에서 듣는 마이닝 개괄 강의는 재미있었습니다. 아래는 강연을 듣고 몇 가지 포인트를 적어 보았습니다.
1. 프로그래머의 입장에서 바라본 Data Mining
강연을 듣기 전에 심규석 교수님 홈페이지를 찾아가서 마소 잡지에 기고하셨던 글을 보았습니다.
'프로그래밍, 내 인생에 숨겨진 소중한 것을 찾는 기쁨' 이라는 제목의 글이었습니다. 그 기사를 첨부 파일로 붙일테니 한 번 읽어보십시오. (개인적인 감상을 나누시려면 메신저로 콜! 하십시오)
우리 회사에 많이 계시는 개발자 분들에게는 정말 좋은 Talk이라고 생각합니다.
N개 input에 대한 수행속도가 linear하게 N이 되면 좋겠지만 현실상 불가능하므로,
N3제곱, N제곱, NlogN등으로 수행 속도를 개선하게 되면 시스템 비용을 줄일 수 있기 때문에
알고리즘을 잘 짜야 한다 라는 이야기를 하시면서 예시로 for문이 돌아가는 간단한 C코드가 나왔습니다.
비 개발자 분들께는 눈이 핑핑@.@돌아가는 예시였겠지만, 개발직군에 계신 분들께는
Hewlett-Packard, IBM, Bell 등에서 프로젝트를 수행하셨던 선배 프로그래머의 관점에서
바라보는 'Data Mining'에 대해 들을 수 있는 좋은 기회라고 생각합니다.
이번 Talk 대상 직군도 '개발'직군입니다!! (물론, 프로그래머가 아니더라도 들을 수 있습니다.
저도 '프로그래머가 아닌 Miner'이기 때문에 모르는 단어들이 간혹 보여서 핑핑@.@돌기도 했습니다.)
2. Data Mining 개념 및 사례 설명.
프로그래머 관점에서 이야기가 진행되고는 있지만, 기저귀-맥주 사례라던지, 현장에서 사용되고 있는
실례 등을 이야기 해 주셔서, 마이닝이 어떤 것인지 모르는 분들께는 정말 황금같은 시간이 아닐까 싶습니다. 굳이 개발 직군이나 Miner가 아닌 분들이더라도 들어두시면 도움이 많이 되실 겁니다.
적어도, 우리 회사에 존재하고 있는 'Data Mining 팀' 이 뭐 하는 팀인지 전문가에게 들어보실 수 있는
좋은 시간일 것입니다.
3. 최저비용, 최대효과 -> 효율성 측면에서의 관점.
관련 변수(Dimension)가 많아 전체를 실제로 이용하기에 부담스러울 경우(속도 면에서나 자원 면에서나) 결정적으로 필요한 변수 몇 가지만 골라내서 (Dimension Reduction;차원축소) 1차 수행을 하고,
걸러진 것들을 대상으로 Full Search를 하자 등의 수행 효율을 높이기 위한 여러 알고리즘에 대한 소개를 해 주셨습니다.
2시간 강의에 모든 것을 담기엔 어려움이 있어서, 깊이있게는 못 나갔지만, 현재 마이닝 학계에서
이런 저런 알고리즘이 개발되고 있고 활용되고 있다라는 분위기를 느끼실 수 있을 것입니다.
4. 세계는 지금, 그리고 한국은 지금.
애니메이션 '이집트 왕자' 그림과 함께, 한국에 돌아오신 이야기를 해 주셨습니다. 마이닝 학회에서 관련 논문 순위에서 20위 안에 심규석 교수님이 계심에도 불구하고, 국가 논문 편수로는 순위권에 한국이 못 들어있기 때문에 한국이 더욱 더 노력해서 '최소한 일본은 이겨야죠' 라는 이야기를 하셨을 때는 다들 애국심에 불타오르셨을 거라고 생각합니다.
특히 저는, Data Mining 관련 가장 유명한 책 중 하나인 'Data Mining: Concepts and Techniques'의 저자인 Han Jiawei나 연관규칙 공부할 때 저를 괴롭혔던(논문이 몽땅 원서라^^;) Agrawal 아저씨랑 같은 라인에 서 계신 한국 분이 있다는 사실과, 그 분의 강의를 듣고 있다는 것이 매우 좋았습니다.
5. 우리 회사와의 특별한 인연.
1999년에 귀국하시자마자 웹 쪽에 연구 내용을 적용할 수 있을 거라 생각해서 우리 회사에 제일 먼저 컨텍을 하셨지만 스러져간 안타까운 기억 이후, 다음에서 강연 요청을 받으셨을 때, 번지점프를 하다의 이은주 대사를 떠올리셨답니다. " 미안해...내가 너무 늦게 왔지.." (우리 회사의 대사입니다)
그리고 영화를 본 아무도 기억하지 못 했던 이병헌의 대답이 교수님의 대답이라고 하셨습니다.
검색하면 찾을 수 있습니다. 교수님의 대답은 " 아니.. 지금이라도 와줘서 고마워.." 이십니다.
6. 개인적인 감상.
일을 하다, 가장 기본으로 돌아가 학교 수업을 듣고 싶을 때가 있습니다. "학생이 되고 싶다" 라는 기본적인 이유 이외에도 학교 다닐 때는 뻔하게 들렸던 이야기들이 일선에서 일을 하다보면 '그 이야기들이 진리였구나'라는 생각이 듭니다.
(예를 들어 PDCA cycle이 있습니다. 모든 일을 할 떄는 계획;Plan, 수행;Do, 수행 내역 검토;Check,
검토한 내역을 개선 반영하여 다시 수행;Action. 이 뻔한 과정이 실제 일 할 때는 생략하고 실수하고 좌충우돌하게 될 줄은 학생 떄는 몰랐습니다 ^^;)
2시간은 Data Mining이라는 방대한 영역을 모두 설명하기에는 너무 짧은 시간입니다. 하지만 저처럼 마이닝을 하는 사람들에게는 예전에 공부했던 기본을 다시 전문가가 훑어 주시는 과정에서 제가 일하는 상황에 반영해서 새로운 아이디어를 얻을 수 있는 좋은 기회 였습니다. (4가지 정도 포인트에서 별표를 그려 놓았습니다 ^^)
7. 완벽한 애프터 서비스.
제가 강의 끝 무렵에 질문을 두 개 했는데, 그 중 하나가 아래 써 있는 내용의 논문을 어디서 찾을 수
있냐는 질문이었습니다. 그 논문을 못 찾겠으면 연락해 달라고, 보내주시겠다고 하셨습니다.
진희님께서 받아서 저에게 전달해주신 논문을 파일로 첨부합니다. (관심있는 분들은 같이 읽어 BoA요~)
'일 > Data Mining' 카테고리의 다른 글
[SAS tip] sas datetime value를 yyyymmddhhmmss 형식으로 변형하기. (0) | 2008.01.22 |
---|---|
좋은 모델을 만드는 법. (0) | 2007.12.16 |
Co-Training : Semi-Supervised Learning (0) | 2007.05.05 |
역전파 알고리즘(Backpropagation) (0) | 2007.04.05 |
[퍼옴] 벡터의 내적과 외적 (0) | 2007.04.05 |