일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Android
- es6
- Sqoop
- xPlatform
- mybatis
- table
- Kotlin
- R
- tomcat
- 공정능력
- IntelliJ
- mapreduce
- window
- SSL
- Express
- react
- JavaScript
- SPC
- NPM
- plugin
- Spring
- vaadin
- hadoop
- 보조정렬
- Java
- SQL
- Python
- Eclipse
- MSSQL
- GIT
- Today
- Total
목록bigdata/hadoop (42)
DBILITY
ASA운항 기록 데이터(약 12G)를 통해 궁금하기도 하고, 연습 삼아 해 보았습니다. Mapper에서 Filtering을 통해 추출하고, Combiner를 통해 Shuffle IO를 줄이도록 하였으며, Paritioner는 2개로 고정하여 2000년 이전과 이후로 분리하여 Reducer로 보내게 하였음. Reducing완료 후 FileUtil.copyMerge를 통해 파일을 합쳤습니다. 별도 정렬,조인 등은 적용되어 있지 않습니다.
version = 2.3 [hadoop@big-master ..
3개의 Partition으로 나눠 output이 3개 생성되므로, FileUtil.copyMerge를 사용해 결과를 합쳐 보았다. 물론,이게 정상적인 방법인지는 공부를 더 해봐야 확인이 가능하겠다. package com.dbility.hadoop.partitioner; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import org.apache.hadoop.fs.Path; import org.apache.ha..
DataType 네트워크 통신을 위해 최적화된 Writable과 Comparable을 다중 상속한 WritableComparable Interface를 제공. compareTo 메서드는 Key끼리 비교해(Compares two strings lexicographically) 정렬한다. (복합 키 정의 시 Mapper와 Reducer에서는 toString메서드를 호출하여 값을 출력하므로 반드시 구현하여야 함) write 메서드는 데이터를 직렬화(byte stream) 하고, readFields는 직렬화된 데이터(byte stream)를 해제하고 읽는다. 데이터 포맷 클래스는 두 메서드를 구현하는 부분에서 데이터를 읽고 쓰는 기능을 처리한다. 자주 사용하는 데이터타입에 대한 Wrapper클래스를 제공한다. ..
클라우데라에서 개발, 아파치 오픈소스 프로젝트로 공개하였으며, JUnit과 맵리듀스 프레임워크 간의 간편한 통합을 목표로 합니다. MRUnit API API Description org.apache.hadoop.mrunit.mapreduce.MapDriver Mapper의 출력을 검증하기 위한 API org.apache.hadoop.mrunit.mapreduce.ReduceDriver Reducer의 출력을 검증하기 위한 API org.apache.hadoop.mrunit.mapreduce.MapReduceDriver MapReduce Job의 출력을 검증하기 위한 API org.apache.hadoop.mrunit.MapDriver Mapper의 출력을 검증하기 위한 API(mapreduce하위 제외)..