[SAS tip] ORACLE DB 연결에러. ELFCLASS64 > 상황. ERROR : libnnz10.so: wrong ELF class: ELFCLASS64 분석서버에서 oracle sqlplus 를 실행하는 데 아무런 문제가 없음. 분석서버 리스너 등록이 잘 되어 있는데도 불구하고 에러가 뜨며 연결이 되지 않는다. > 해법. Library 와 처리 bit가 다른 경우에 발생. sas가 32bit 라이센스이기 때문에. 오라클 .. 일/Data Mining 2012.12.27
[스크랩] PIG 관련 URL http://www.cloudera.com/wp-content/uploads/2010/01/IntroToPig.pdf http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html http://pig.apache.org/docs/r0.9.2/func.html#replace load : 하둡서버의 파일을 LOAD load 파일경로 필드 구분자 지정 : A = LOAD 'student' USING PigStorage('\t') AS (name: chararray, age:int, gpa: float); filter : 지정된 조건을 내용을 .. 일/Data Mining 2012.10.16
coursera stanford machine learning 수업 좋다고 한다. 인터넷 무료 강의이긴 한데, 숙제도 있고 제출하면 채점도 해준단다. 다른 수업들도 괜찮다고. 다음에 함 들어보자~ https://www.coursera.org/category/stats 일/Data Mining 2012.09.17
SAS 2바이트 문자 매칭, kindex() vs kindexc() > 요약 약 700만 키워드 대상, 34개 외로운 자모음을 부분매칭 하였다. kindex 함수 : 8분 소요. kindexc 함수 : 76분 소요. 왜인지 모르겠당 -_- 문자/문자열 매칭은 웬만하면 SAS 쓰지 말고, 꼭 필요할 경우 되도록 index/kindex 함수 쓰자. > 상세 index합수와 indexc함수는 영어권 등 1byte 문자들을 위.. 일/Data Mining 2012.09.12
SAS 에서 문자열 정규식 매칭하기 : prxmatch prxparse regular expression data testkwd; infile datalines delimiter='09'x; length keyword $ 100; input keyword; datalines; 안녕하세요 이화경입니다 반갑습니다 람이는예뻐요 1번도이쁘고 2번도이쁘고 1233423452 000-0000-0000 전화번호테스트데이터 123.242.45.657 아이피테스트데이터 이 예시 코드는 숫자와 특수기호 등으로 이루어진 아래 키워.. 일/Data Mining 2012.07.14
Big Data, Hadoop, Pig. Data Mining. 늘 하던 이야기. 대용량 데이터에서 유용한 지식을 뽑는다. 가 메인이지만- 노가다 투성이인 그 작업은 데이터 용량이 커지며 리소스가 많이 들어간다. 하둡이 지향하는 것은 시간 단축이다. 서버 분산처리로 시간을 줄이는데, 유저가 분산처리를 쉽게 할 수 있도록 도와준다. 피.. 일/Data Mining 2012.05.10
SAS코리아, 마이닝 챔피언십. 은상. 교수님 연구년으로 인해 데이터마이닝 수업은 한 번도 들은 적 없는 학부 3학년 후배 두 명. 공모전 나가보겠다고 여름방학부터 둘이서 머리 싸매고 공부하다가, "누나/언니 도와줘요." 하면서 찾아왔다. 열정이 기특하고 이뻐서, 데이터마이닝 특강을 짧~게 해줬다. "만나러 가도 되요?" 라고 물어보길.. 일/Data Mining 2009.11.16
[SAS tip] ORACLE DB 연결에러. 1. 에러현상 - SAS 로그에서 다음과 같은 에러가 나오며 ORACLE DB로 연결이 안 됨. ERROR: The SAS/ACCESS Interface to ORACLE cannot be loaded. ERROR: Image SASORA found but not loadable. - UNIX 서버에서 sqlplus 실행이 안 됨. [aaa@server ~]$ sqplus sqplus: Command not found. 2. 해결방법 - DB 전문가에게, SQLPLUS 실행이 안된다고 도와달라고 해야 .. 일/Data Mining 2009.11.10
TFIDF ( Term Frequency Inverse Document Frequency) 1. DF(Document Frequency) : 전체 문서(global dacument) 세트 중에서 '특정단어(term)'를 포함하는 문서의 빈도. 2. TF(Term Frequency) : '특정단어(term)'가 하나의 문서(document) 내에 나타난 빈도' * TFIDF = TF / DF 예를 들어, 전체 100만 개의 문서가 있다고 가정하자. 그중 '이화경' 이라는 특정단어가 오직 7개의 문서에만 나.. 일/Data Mining 2009.05.28
산술평균, 기하평균, 조화평균 (Arithmetic , Geometric , Harmonic mean) 1. 산술평균[算術平均, Arithmetic mean] - 공식 : (a+b)/2 - 물리적 의미 : a, b 두 점 사이의 중간값 2. 기하 평균 [幾何平均, Geometric mean] - 공식 : √ab - 물리적 의미 : 직사각형의 두 변이 a, b 일 때 같은 면적을 가지는 정사각형의 한 변 3. 조화평균[調和平均, harmonic mean] - 공식 : 2ab/(a+b) - 물리적 의미 : 일정한 거.. 일/Data Mining 2008.12.19