hadoop Secondary Sort ( 보조 정렬 )

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

DBILITY

독거 가능성 100% 노후에 라면값이라도 하게 센스를 발휘합시다!😅
Please click on the ad so that I can pay for ramen in my old age!
点击一下广告，让老后吃个泡面钱吧!
老後にラーメン代だけでもするように広告を一回クリックしてください。

hadoop Secondary Sort ( 보조 정렬 ) 본문

bigdata/hadoop

hadoop Secondary Sort ( 보조 정렬 )

DBILITY 2016. 12. 6. 17:37

HDFS
　└ INPUTFORMAT

　　　　　└ SPLITS

　　　　　　　└ RECORDREADER

　　　　　　　　　　　└ MAP

　　　　　　　　　　　　　└ COMBINER

　　　　　　　　　　　　　　　　└ PARTITIONER

　　　　　　　　　　　　　　　　　　　　└ SHUFFLE & SORT

　　　　　　　　　　　　　　　　　　　　　　　　└ REDUCE

　　　　　　　　　　　　　　　　　　　　　　　　　　　└ RECORDWRITER

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　└ OUTPUTFORMAT

맵리듀스(MapReduce)는 기본적으로 입력 데이터의 Key를 기준으로 정렬한다.
네트워크를 통한 Shuffle 과정을 통해 Mapper의 출력 데이터를 key로 정렬하면서 동일 key를 갖는 value들끼리 묶는다.
이때 정렬 알고리즘을 적용할 수 있습니다.

보조정렬 ( Secondary Sort )
키의 값들을 그룹핑하고, 그룹핑된 레코드에 순서를 부여하는 방식
① WritableComparable Interface를 구현한 복합 키(Composite Key)를 정의, 키값 중 어떤 키를 그룹핑 키로 사용할지 결정(복합 키 정의).
② SortComparator는 WritableComparator를 상속하여 복합 키를 기준으로 Record 정렬하도록 구현(복합 키 레코드 정렬, 멤버 변수의 타입에 유의).
③ GroupKeyPartitioner는 Partitioner를 상속하여 그룹핑 키로 파티셔닝 되도록 구현(그룹핑 키 파티셔닝).
④ GroupingComparator는 WritableComparetor를 상속하여 복합 키 중 그룹핑 키를 비교하고, 그룹핑 키를 정렬하도록 구현(그룹핑 키 비교기).

참고 서적 : 시작하세요! 하둡프로그래밍 개정 2판(위키북스) - 정재화 지음

'bigdata > hadoop' 카테고리의 다른 글

hadoop secondary sort and multiple outputs exercise (0)	2017.02.08
hadoop secondary sort exercise ( 보조 정렬 실습 ) (0)	2017.02.06
입력한 공항을 도착지로 년도별 최대 지연 도착 항공편 구하기 (0)	2016.11.30
hadoop job list, kill (0)	2016.11.30
성별,연령대별 최고연봉 구하기 (0)	2016.11.29

공유하기 링크

페이스북
카카오스토리
트위터

'bigdata/hadoop' Related Articles

Comments

DBILITY

hadoop Secondary Sort ( 보조 정렬 ) 본문

hadoop Secondary Sort ( 보조 정렬 )

'bigdata > hadoop' 카테고리의 다른 글

티스토리툴바