'hadoop' 태그의 글 목록 (4 Page)

Notice

Recent Posts

Recent Comments

Link

« 2026/07 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록hadoop (31)

DBILITY

입력한 공항을 도착지로 년도별 최대 지연 도착 항공편 구하기

ASA운항 기록 데이터(약 12G)를 통해 궁금하기도 하고, 연습 삼아 해 보았습니다. Mapper에서 Filtering을 통해 추출하고, Combiner를 통해 Shuffle IO를 줄이도록 하였으며, Paritioner는 2개로 고정하여 2000년 이전과 이후로 분리하여 Reducer로 보내게 하였음. Reducing완료 후 FileUtil.copyMerge를 통해 파일을 합쳤습니다. 별도 정렬,조인 등은 적용되어 있지 않습니다.

bigdata/hadoop 2016. 11. 30. 13:01

hadoop job list, kill

version = 2.3 [hadoop@big-master ..

bigdata/hadoop 2016. 11. 30. 09:55

성별,연령대별 최고연봉 구하기

3개의 Partition으로 나눠 output이 3개 생성되므로, FileUtil.copyMerge를 사용해 결과를 합쳐 보았다. 물론,이게 정상적인 방법인지는 공부를 더 해봐야 확인이 가능하겠다. package com.dbility.hadoop.partitioner; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import org.apache.hadoop.fs.Path; import org.apache.ha..

bigdata/hadoop 2016. 11. 29. 15:47

hadoop MapReduce 프로그래밍 요소

DataType 네트워크 통신을 위해 최적화된 Writable과 Comparable을 다중 상속한 WritableComparable Interface를 제공. compareTo 메서드는 Key끼리 비교해(Compares two strings lexicographically) 정렬한다. (복합 키 정의 시 Mapper와 Reducer에서는 toString메서드를 호출하여 값을 출력하므로 반드시 구현하여야 함) write 메서드는 데이터를 직렬화(byte stream) 하고, readFields는 직렬화된 데이터(byte stream)를 해제하고 읽는다. 데이터 포맷 클래스는 두 메서드를 구현하는 부분에서 데이터를 읽고 쓰는 기능을 처리한다. 자주 사용하는 데이터타입에 대한 Wrapper클래스를 제공한다. ..

bigdata/hadoop 2016. 11. 24. 15:07

hadoop ChainMapper, Reducer exercise

하나의 맵리듀스 잡에서 여러 개의 Mapper와 Reducer를 실행할 수 있게 ChainMapper와 ChainReducer를 제공한다. 1.x.x 버전에서는 org.apache.hadoop.mapred하위의 MapReduceBase를 상속받고 Mapper와 Reducer를 구현해야 한다. Mapper -> Mapper -> Reducer의 순서로 응용해 보았다. TokenizerMapper package com.dbility.hadoop.chain; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritabl..

bigdata/hadoop 2016. 11. 14. 20:59

Prev 1 2 3 4 5 6 7 Next

목록hadoop (31)

DBILITY

티스토리툴바