일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- GIT
- Kotlin
- Sqoop
- 보조정렬
- xPlatform
- mybatis
- Spring
- react
- SSL
- vaadin
- es6
- plugin
- IntelliJ
- Java
- NPM
- Python
- SQL
- hadoop
- window
- tomcat
- Express
- MSSQL
- Android
- SPC
- 공정능력
- R
- mapreduce
- Eclipse
- table
- JavaScript
- Today
- Total
목록bigdata/hadoop (42)
DBILITY
하둡은 대용량 데이터를 분산 처리할 수 있는 자바 기반의 오픈소스 프레임워크다. 구글이 논문으로 발표한 GFS(Google File System)와 맵리듀스(MapReduce)를 2005년에 더그 커팅이 구현하였으며, 2008년에 아파치 최상위 프로젝트가 됐다. 하둡은 분산 파일 시스템인 HDFS(Hadoop Distributed File System)에 데이터를 저장하고, 분산 처리 시스템인 맵리듀스로 데이터를 처리한다. 하둡이라는 명칭은 구현자인 더그 커팅 아들의 코끼리 장난감 인형의 이름이다. 그래서, 하둡과 관계 된 아파치 프로젝트들은 대부분 동물 로고를 쓴다. 참고로, MySql도 구현자의 딸이름에서 유래하였으며, MariaDB는 둘째 딸의 이름이 maria라고 한다. RDBMS는 데이터가 저장..
public int run(String[] args) throws Exception { Configuration conf = getConf(); for (Map.Entry entry : conf) { log.info("{} : {}",entry.getKey(),entry.getValue()); } return 0; }
당연하게 하나 이상 입력 경로를 지정할 수 있다. 입력경로가 디렉토리일 경우 하위 파일을 모두 읽어 드리는 것을 확인하였습니다. addInputPath(Job job, Path path) , addInputPaths(Job job, String commaSeparatedPaths), setInputPaths(Job job, String commaSeparatedPaths) , setInputPaths(Job job, Path[] inputPaths)꼭 Reducer를 써야 하는 것은 아니다. org.apache.hadoop.mapreduce.Job.class setNumReduceTasks(int tasks)Reducer를 이용하면 SQL의 group by 효과를 볼 수 있다. Map = Transfor..
맵리듀스로 분석할 사항은 2008년도 월별 지연 출발 통계로 ASA Data expo에서 2008년 데이터를 다운로드한다. 대상 데이터 구조를 분석하기 위해 ASA Data expo '09의 Variable Descriptions확인 결과 CSV 파일의 1번 Year, 2번 Month, 16번 departure delay, in minutes임을 확인. Mapper구현 시 input value에 대해 split후 결과 배열의 1,15번 index를 사용하기로 함. 1번의 월 값을 key로 사용하고, 15번 지연시간은 value로 NA 문자열이 포함되어 있으므로, Interger convert 오류가 발생할 수 있으며, 음수가 존재함, 양수만 카운트하도록 조건 추가. 파일 사이즈 약 657M. 프로젝트 생..
미국은 참 기술과 기술자를 중요시 하는 나라라는 생각이 든다. NASA에서 공개한 기상관련 데이터도 있다. 우리나라도 하루 속히 인문주의를 바탕으로 한 기술강국이 되었으면 좋겠다. http://stat-computing.org/dataexpo/2009/ Variable descriptions Name Description 1 Year 1987-2008 2 Month 1-12 3 DayofMonth 1-31 4 DayOfWeek 1 (Monday) - 7 (Sunday) 5 DepTime actual departure time (local, hhmm) 6 CRSDepTime scheduled departure time (local, hhmm) 7 ArrTime actual arrival time (loca..