일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- react
- SSL
- xPlatform
- Java
- window
- 공정능력
- vaadin
- MSSQL
- Kotlin
- Eclipse
- tomcat
- Spring
- R
- Sqoop
- SPC
- Express
- GIT
- NPM
- IntelliJ
- mybatis
- plugin
- es6
- Python
- table
- Android
- JavaScript
- hadoop
- 보조정렬
- mapreduce
- SQL
- Today
- Total
목록보조정렬 (5)
DBILITY
ASA항공운항 기록에서 년/월별 지연도착 통계를 정렬 후 SequenceFile로 저장하고, 읽는 걸 해봄. package com.dbility.hadoop.execise; import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.io.InputStream; import java.io.StringWriter; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import or..
일주일에 한 번은 해봐야 잊지 않을 거라는 근거 없는 믿음에 해본다. 삶의 절반 이전에나 봤던 수학도 해야 하고 참 어렵다. 윈도 환경 eclipse에서 테스트한 것이라 reducer는 하나다. package com.dbility.hadoop.execise; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import ..
항공지연통계 보조정렬+다중출력 적용 실습을 그냥 해 보았습니다. package com.dbility.hadoop.sort.secondary; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.LocalFileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.fs.perm..
ASA운항기록 데이터(약 12G) 대상으로,보조정렬을 실습해 보았습니다. 지연도착시간을 30분/1시간 이내,1시간이상으로 구분하였으며,파일레이아웃은 [ 연 / 월 / 구분 / 횟수 ]형태로 출력됩니다. pom.xml 4.0.0 com.dbility.hadoop asa-analysis 1.0.0 1.7 hadoop hadoop big-master /home/hadoop org.apache.hadoop hadoop-core 1.2.1 provided org.slf4j slf4j-api 1.7.20 provided org.slf4j jcl-over-slf4j 1.7.20 provided org.slf4j log4j-over-slf4j 1.7.20 provided ch.qos.logback logback-cla..
HDFS └ INPUTFORMAT └ SPLITS └ RECORDREADER └ MAP └ COMBINER └ PARTITIONER └ SHUFFLE & SORT └ REDUCE └ RECORDWRITER └ OUTPUTFORMAT 맵리듀스(MapReduce)는 기본적으로 입력 데이터의 Key를 기준으로 정렬한다. 네트워크를 통한 Shuffle 과정을 통해 Mapper의 출력 데이터를 key로 정렬하면서 동일 key를 갖는 value들끼리 묶는다. 이때 정렬 알고리즘을 적용할 수 있습니다. 보조정렬 ( Secondary Sort ) 키의 값들을 그룹핑하고, 그룹핑된 레코드에 순서를 부여하는 방식 ① WritableComparable Interface를 구현한 복합 키(Composite Key)를 정의, ..