일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Kotlin
- mapreduce
- table
- R
- 보조정렬
- GIT
- es6
- Sqoop
- IntelliJ
- Java
- plugin
- Android
- vaadin
- Spring
- SQL
- hadoop
- tomcat
- Express
- mybatis
- xPlatform
- MSSQL
- JavaScript
- SPC
- NPM
- Python
- window
- react
- SSL
- Eclipse
- 공정능력
- Today
- Total
목록hadoop (31)
DBILITY
ASA운항 기록 데이터(약 12G)를 통해 궁금하기도 하고, 연습 삼아 해 보았습니다. Mapper에서 Filtering을 통해 추출하고, Combiner를 통해 Shuffle IO를 줄이도록 하였으며, Paritioner는 2개로 고정하여 2000년 이전과 이후로 분리하여 Reducer로 보내게 하였음. Reducing완료 후 FileUtil.copyMerge를 통해 파일을 합쳤습니다. 별도 정렬,조인 등은 적용되어 있지 않습니다.
version = 2.3 [hadoop@big-master ..
3개의 Partition으로 나눠 output이 3개 생성되므로, FileUtil.copyMerge를 사용해 결과를 합쳐 보았다. 물론,이게 정상적인 방법인지는 공부를 더 해봐야 확인이 가능하겠다. package com.dbility.hadoop.partitioner; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import org.apache.hadoop.fs.Path; import org.apache.ha..
DataType 네트워크 통신을 위해 최적화된 Writable과 Comparable을 다중 상속한 WritableComparable Interface를 제공. compareTo 메서드는 Key끼리 비교해(Compares two strings lexicographically) 정렬한다. (복합 키 정의 시 Mapper와 Reducer에서는 toString메서드를 호출하여 값을 출력하므로 반드시 구현하여야 함) write 메서드는 데이터를 직렬화(byte stream) 하고, readFields는 직렬화된 데이터(byte stream)를 해제하고 읽는다. 데이터 포맷 클래스는 두 메서드를 구현하는 부분에서 데이터를 읽고 쓰는 기능을 처리한다. 자주 사용하는 데이터타입에 대한 Wrapper클래스를 제공한다. ..
하나의 맵리듀스 잡에서 여러 개의 Mapper와 Reducer를 실행할 수 있게 ChainMapper와 ChainReducer를 제공한다. 1.x.x 버전에서는 org.apache.hadoop.mapred하위의 MapReduceBase를 상속받고 Mapper와 Reducer를 구현해야 한다. Mapper -> Mapper -> Reducer의 순서로 응용해 보았다. TokenizerMapper package com.dbility.hadoop.chain; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritabl..