M/R 동작특성

Notice

Recent Posts

Recent Comments

Link

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

DBILITY

M/R 동작특성 본문

bigdata/hadoop

M/R 동작특성

DBILITY 2016. 10. 8. 16:16

당연하게 하나 이상 입력 경로를 지정할 수 있다.
입력경로가 디렉토리일 경우 하위 파일을 모두 읽어 드리는 것을 확인하였습니다.
addInputPath(Job job, Path path) , addInputPaths(Job job, String commaSeparatedPaths),
setInputPaths(Job job, String commaSeparatedPaths) , setInputPaths(Job job, Path[] inputPaths)
꼭 Reducer를 써야 하는 것은 아니다.
org.apache.hadoop.mapreduce.Job.class setNumReduceTasks(int tasks)
Reducer를 이용하면 SQL의 group by 효과를 볼 수 있다.
Map = Transformation
Reduce = Aggregation
Reducer를 거친 데이터는 정렬된다.
Oracle 같은 경우 10.2 (정확한 버전은 생각안남)부터 hash group by시 sort가 되지 않는다.order by를 꼭 써줘야한다.
이럴 경우 sort group by로 동작이 되었던가..기억이..
subquery에 hash group by를 사용하고,외부쿼리에서 sort order by를 하면 된다.이때 subquery에 NO_MERGE힌트를 줬던가..
Input Split 크기를 줄여 동시에 동작하는 Mapper 수를 늘려 성능 향상을 꾀할 수 있다.
Mapper에서 Reducer로 Key/Value를 전달할 때 Hash Partitioner가 동작하여 Key % Reducer 개수의 결과값을 기반으로
Key/Value를 전달할 Reducer를 결정한다.사용자가 지정할 수 도 있다.
숫자라도 String과 IntWritable, LongWritable 어떤 것으로 표현하느냐에 따라 정렬 결과가 다를 수 있다.
ASA 2008 월별 출발/도착지연통계 테스트시 key가 Text여서 인지 결과 sort가 월별로 되지 않았다.
SQL 정렬도 컬럼타입에 따라 달라진다.
Mapper/Reducer chain을 이용해 여러 과정을 거쳐 최종결과를 도출할 수 있다.

참고문헌 및 웹문서 : 시작하세요! 하둡프로그래밍 개정2판(위키북스) 정재화지음, ETL과 아파치 하둡

망각하고 살아가지만, 모든 시스템의 기본은 I/O였다.

'bigdata > hadoop' 카테고리의 다른 글

하둡 정리 1 (0)	2016.10.11
hadoop configuration print (0)	2016.10.08
M/R 미국 상업 항공편 지연 출발 통계 그래프 작성하기 (0)	2016.10.03
hadoop ASA 미국 상업 항공편 운항 통계 데이터 (0)	2016.10.03
hadoop Caused by: java.lang.ClassCastException: class com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider$Text (0)	2016.10.03

공유하기 링크

페이스북
카카오스토리
트위터

'bigdata/hadoop' Related Articles

Comments

DBILITY

M/R 동작특성 본문

M/R 동작특성

'bigdata > hadoop' 카테고리의 다른 글

티스토리툴바