일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 공정능력
- R
- JavaScript
- Express
- xPlatform
- vaadin
- MSSQL
- plugin
- IntelliJ
- mapreduce
- Java
- table
- es6
- Kotlin
- Eclipse
- window
- Spring
- mybatis
- react
- GIT
- NPM
- Android
- SQL
- Python
- tomcat
- SSL
- SPC
- hadoop
- Sqoop
- 보조정렬
- Today
- Total
목록bigdata (67)
DBILITY
업으로 하는게 아니니 가끔 해보고 있다. 그런데, 할때마다 조금씩 달라지는 기묘한 일이.. 윈도우환경 이클립스에서 작업한 것이다. package com.dbility.hadoop.execise; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.LocalFileSystem; import org.apache.hadoop.fs.Path; im..
부분정렬(Partial Sort)은 매퍼출력을 MapFile로 변경해 데이터를 검색하는 방법이다. 맵태스크 실행시 파티셔너는 매퍼의 출력데이터가 전달될 리듀서를 결정하고,파티셔닝된 데이터는 키에 따라 정렬된다. 특정키에 대한 데이터 검색시 키가 저장된 맴파일에 접근해 조회한다. 부분정렬 3단계는 아래와 같다. 1.입력데이터를 시퀀스파일로 생성 2.시퀀스파일을 맵파일로 변경 3.맵파일에서 데이터 검색 ※ org.apache.hadoop.mapred 패키지를 사용해 작성해야 함. 다음은 윈도우 환경 Eclipse상에서 테스트 되었습니다. package com.dbility.hadoop.execise; import java.io.IOException; import org.apache.hadoop.conf.Co..
항공지연통계 보조정렬+다중출력 적용 실습을 그냥 해 보았습니다. package com.dbility.hadoop.sort.secondary; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.LocalFileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.fs.perm..
ASA운항기록 데이터(약 12G) 대상으로,보조정렬을 실습해 보았습니다. 지연도착시간을 30분/1시간 이내,1시간이상으로 구분하였으며,파일레이아웃은 [ 연 / 월 / 구분 / 횟수 ]형태로 출력됩니다. pom.xml 4.0.0 com.dbility.hadoop asa-analysis 1.0.0 1.7 hadoop hadoop big-master /home/hadoop org.apache.hadoop hadoop-core 1.2.1 provided org.slf4j slf4j-api 1.7.20 provided org.slf4j jcl-over-slf4j 1.7.20 provided org.slf4j log4j-over-slf4j 1.7.20 provided ch.qos.logback logback-cla..
HDFS └ INPUTFORMAT └ SPLITS └ RECORDREADER └ MAP └ COMBINER └ PARTITIONER └ SHUFFLE & SORT └ REDUCE └ RECORDWRITER └ OUTPUTFORMAT 맵리듀스(MapReduce)는 기본적으로 입력 데이터의 Key를 기준으로 정렬한다. 네트워크를 통한 Shuffle 과정을 통해 Mapper의 출력 데이터를 key로 정렬하면서 동일 key를 갖는 value들끼리 묶는다. 이때 정렬 알고리즘을 적용할 수 있습니다. 보조정렬 ( Secondary Sort ) 키의 값들을 그룹핑하고, 그룹핑된 레코드에 순서를 부여하는 방식 ① WritableComparable Interface를 구현한 복합 키(Composite Key)를 정의, ..