http://www.cloudera.com/wp-content/uploads/2010/01/IntroToPig.pdf
http://pig.apache.org/docs/r0.7.0/piglatin_ref2.html
http://pig.apache.org/docs/r0.9.2/func.html#replace
load : 하둡서버의 파일을 LOAD
load 파일경로
필드 구분자 지정 :
A = LOAD 'student' USING PigStorage('\t') AS (name: chararray, age:int, gpa: float);
filter : 지정된 조건을 내용을 필터링한다.
숫자 : X = FILTER A BY (f1 == 8);
문자 : X = FILTER A BY (f2 == 'apache');
매치 : X = FILTER A BY (f1 matches '.*apache.*');
foreach :
변수A에서 $3필드값을 변수 B에 저장
B = FOREACH A GENERATE $3;
store : 하둡서버의 파일을 로컬 파일에 저장
store A11 into /data2/jchern/output.txt
join : 두개의 파일을 키값을 가지고 join
OUT = join IN1 by query, IN2 by query;
order :
OUT = order IN1 by $0 ASC, $15 DESC;
group : 특정 키값을 가지고 그루핑
OUT = group IN1 by (query, url);
출처 : http://www.cloudera.com/wp-content/uploads/2010/01/IntroToPig.pdf
'일 > Data Mining' 카테고리의 다른 글
2013 Daum 검색개발 경력공채 (0) | 2013.02.13 |
---|---|
[SAS tip] ORACLE DB 연결에러. ELFCLASS64 (0) | 2012.12.27 |
coursera (0) | 2012.09.17 |
SAS 2바이트 문자 매칭, kindex() vs kindexc() (0) | 2012.09.12 |
SAS 에서 문자열 정규식 매칭하기 : prxmatch prxparse regular expression (0) | 2012.07.14 |