* Map and Reduced Model
1) 대용량 파일을 저렴한 PC에 분산처리한(Map)후 각 분산처리된 파일을 모아서 결과 처리(Reduce).
2) 저렴한 서버라 자꾸 고장나니, 모니터링 시스템도 중요함.
3) 효율 : 비용 이점, 속도 이점.
4) 최근 구글/아마존/야후 등 국내에서도 많은 회사에서 연구 및 적용 하고 있음. (구글에서는 64MB chunk로 처리함, 한 파일을 2개 이상의 서버에 복사 저장. 장애 대비.)
* 기타 정리.
1) locality sensiivity hashing.: 이미지 등에서 비슷한 값들을 하나의 hash에 넣도록 처리하는 것. 랜덤하게 hash처리하는 것이 아님.
2) inverted index : (kwd, position) 을 모아서 색인처리함. 두 단어의 경우 union 처리해서 결과 뿌려주기도 함. 검색엔진에서 많이 사용하는 index.
3) HWANG's LAW : CPU는 2년 마다 2배로, 메모리는 집적도는 늘어나지만, 메모리 빠르기는 별 차이가 없다. 지금은 I/O가 더 느리고 CPU가 놀고 있다. 그래서 CPU놀지 않게 하고 compression 하고 write 하는 것이 낫다. 컬럼단위 저장하면 같은 스타일이라 압축이 쉽다. 그래서 효율이 좋다.
* Q : 대용량 데이터를 대상으로 돌리는 것과. 샘플을 많은 수를 뽑아서, 여러 모델을 만든 후 앙상블을 하는 것과의 차이를 볼 때, 후자가 더 성능이 좋다고 생각하고 있었는데, 전자가 더 중요하다고 말씀하시는 것 같아 다소 의문이 생깁니다.
* A : 심규석 교수님 답변.
1) 클러스터 개수를 모르니까. 샘플링 어려움 있음.
2) 샘플 사이즈 계산이 어려움.
3) 샘플이 아니라 전체의 모든 데이터를 사용해서 정확한 값을 알고 싶은 겅우에 사용(연관규칙, sequential pattern의 경우)
4) 기존의 샘플링의 경우 컴퓨팅 성능이 낮기 때문에 쓴 경우가 있다. (데이터를 디스크에 있지만, 메인 메모리에 다 들어있는 것처럼 빠르게 계산할 수 있도록 하는 것을 연구하는 것이 최근 관심사 : 기존 데이터마이닝 + 속도튜닝 이슈)
5) 전체 돌리는 것과 샘플링 여러개 써서 앙상블 하는 것은 각 필드와 어플리케이션에 따라 효용성이 달라짐. 논의의 여지가 많이 있음.
* 의견.
샘플 사이즈 최적화 관련해서는 나도 많은 고민을 했었다. 실험계획법을 다시 공부해볼까 하기도 했었으니까. 샘플 사이즈를 결정하는 것은 결국 노하우에 따른 실험일 수 밖에 없는데, 통제할 변인을 결정하는 것이 위험하기 때문에 실험의 결과에 대해 대략적인 믿음을 가질 수는 있지만, 확신을 가지기는 어렵다.
Classifier를 만들 때는, 앙상블이 가장 좋은 방법이라고 생각하지만, Clustering이라면 샘플링이 더 어려울 수도 있겠다. 컴퓨터가 아무리 빨라져도, 인터넷의 힘으로 데이터가 무지하게 많이 늘어나고 있으니까, 속도 튜닝 이슈는 사그러들지 않을 수도 있겠다. 더불어 정규화된 데이터 처리 뿐만이 아닌 기타 마이닝(TEXT, IMAGE, MOVIE)에 대한 수요가 커지는 것은 자명해 보인다. 역시 제대로 된 일을 좀 더 해 볼 필요가 있겠다.
'일 > Data Mining' 카테고리의 다른 글
왜도(skewness) 첨도(kurtosis) (0) | 2008.08.11 |
---|---|
도스 개행문자 (0D 0A = CR LF) 포함된 텍스트 excel로 export 하기. (0) | 2008.07.09 |
[SAS Tip] SAS 데이터셋 생성시 set문 2번 쓰기. (0) | 2008.04.30 |
[SAS tip] SAS 데이터셋 생성시 compress 옵션 사용. (0) | 2008.03.17 |
[강의록] Data Mining : Concepts and Techniques , 2nd ed. (0) | 2008.02.22 |