NLP 교육 참관 * 불리언쿼리 : 단어와 연산자로 이루어져 있음. : 다음검색 -> { 다음검색 | ( 다음 & 검색 ) } * 재현율 : [정보통신] recall factor (영어). 어떤 조건으로 검색되는 정보와 검색되어야 하는 모든 정보의 비율로, 정보검색 시스템의 성능을 평가하는 척도 : 검색결과가 얼마나 많이 나오는가의 척도. * 재현율.. 일/Data Mining 2008.12.17
Monte Carlo simulation (몬테 카를로 시뮬레이션) 매번 이게 뭐였지? 하고 찾아보고, 뭐야 별 거 아니잖아 허무해서 인상에 별로 안 남아 기억이 안 나고, 나중에 또 들으면 또 뭐였지? 하고 찾아보게 되어서, 아예 정리한다. 결과에 영향을 주는 변수를 랜덤으로 생성하여 굉장히 많~~~~이 반복 수행한 뒤, 나온 결과의 통계를 이용하는 것. 이다. 랜덤하.. 일/Data Mining 2008.11.25
[SAS tip] ORACLE insert 속도 개선 : BULKLOAD, INSERTBUFF SAS에서 oracle로 데이터를 insert할 경우, 보통은 1row를 넣고 commit 하고, 1row를 넣고 commit을 합니다. 그렇기 때문에 대용량 데이터를 올릴 경우 속도가 매우 느립니다. (때로는 참을 수 없을 만큼!! -_-) 속도를 개선할 수 있는 방법은 두 가지가 있습니다. < 수행속도 비교 : 2천만건 insert 시. > * 해당 속도.. 일/Data Mining 2008.10.14
CRISP-DM ( CRoss Industry Standard Process for Data Mining ) 'CRISP-DM' 은 가장 이해하기 쉽고 모든 영역에 적용 가능한 데이터마이닝 방법론이다. 얼마 전 면접질문 구상하던 중 가장 먼저 떠오른 것이 이 것이었다. 기본은 초보자에게는 쉽고 당연하지만, 막상 업무를 해 본 사람들에게는 피가되고 살이 된다. 발표자료의 목차를 정리하다가 문득, 정리해서 포스.. 일/Data Mining 2008.10.07
Oracle 기초 SQL - DBA/Oracle < 집합 쿼리 > a={1,3,5,7} b={1,2,3,4} union : 합집합 a union b = {1,2,3,4,5,7} union all : 공통원소 두번씩 다 포함한 합집합 a union all b = {1,1,2,3,3,4,5,7} intersect : 교집합 a intersect b = {1,3} minus : 차집합 a minus b = {2,5,7} < 문자열 > 1 . CONCAT( column1|expression1 ,column2|expression2 ) CONCAT('Good','String') --> GoodString : ||와 같.. 일/Data Mining 2008.09.17
연관규칙에서 사용하는 LIFT 에 대한 간단한 설명. [일반적으로 상품B를 보는 비율]보다, [상품A를 본 직후에 B를 보는 비율]이 높으면, 둘 사이의 연관성이 높다고 판단한다. 두 비율이 같다면, A를 보든말든 B를 보는데 아무 영향이 없다. [LIFT] = [상품A를 본 직후에 B를 보는 비율] / [일반적으로 상품B를 보는 비율] = P(B|A) / P(B) ※ [LIFT] > 1 : 높으면 높을.. 일/Data Mining 2008.08.11
왜도(skewness) 첨도(kurtosis) 1. 왜도(skewness) 자료의 분포모양이 평균을 중심으로부터 한 쪽으로 치우쳐져 있는 경향을 나타내는 척도. 확률분포곡선에서 비대칭의 정도를 나타내는 측도. : a=0 정규분포 : a>0 좌측으로 치우침. : a<0 우측으로 치우침. 2. 첨도(kurtosis) 자료의 분포모양이 정규분포보다 더 중앙에 집중.. 일/Data Mining 2008.08.11
도스 개행문자 (0D 0A = CR LF) 포함된 텍스트 excel로 export 하기. 개행문자가 도스형식으로 되어있어 경우, 모든 줄 끝에 음표모양이 붙어 나오는 현상이 벌어질 때가 있습니다. 특히 문서 전체를 DB에 보관하는 경우 한 칼럼에 엔터기호까지 넣을 경우, 그 엔터기호가 도스형식 개행문자일 때 그런 문제가 발생합니다. * 해결방법 : 개행문자 (0D 0A = CR LF) 를 (0A = LF) 로 .. 일/Data Mining 2008.07.09
map & reduced model * Map and Reduced Model 1) 대용량 파일을 저렴한 PC에 분산처리한(Map)후 각 분산처리된 파일을 모아서 결과 처리(Reduce). 2) 저렴한 서버라 자꾸 고장나니, 모니터링 시스템도 중요함. 3) 효율 : 비용 이점, 속도 이점. 4) 최근 구글/아마존/야후 등 국내에서도 많은 회사에서 연구 및 적용 하고 있음. (구글에서는 .. 일/Data Mining 2008.06.02
[SAS Tip] SAS 데이터셋 생성시 set문 2번 쓰기. * 부제 : 전체 데이터셋에 summary 정보 붙이기 : Merging a Single Observation with All Observations * 개요. : 간혹, summary 성 정보를 구해서, 전체 데이터셋에 재 적용해야 할 필요가 있을 때가 있습니다. (각 섹션별 쿼리 비율 구하기 등) 그럴 때 코딩 편의와 효율을 따질 수 있는 Tip 소개합니다. * 결론 (추천 방안) : .. 일/Data Mining 2008.04.30