'bigdata' 카테고리의 글 목록 (8 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록bigdata (67)

DBILITY

hadoop partial sort exercise 2 ( 부분 정렬 실습 2 )

윈도 환경 eclipse에서 테스트했는데, 결과 파일 맨 앞이 이상하다.. 왜일까? 책 없이 타이핑(?)했다는데 만족해야 하나보다^^; MRUnit으로 테스트를 해봐야겠군... 기억이 안나지만... package com.dbility.hadoop.execise; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.LocalFileSystem; imp..

bigdata/hadoop 2017. 3. 8. 23:07

hadoop Text -> SequenceFile -> MapFile로 변환

연습 삼아 그냥 해 봤다. 부분 정렬을 위해 맵 파일을 사용한다고 책에서 본걸 그냥 해봤는데 의외로 잘 돌아가다니..ㅋㅋ 다음 주까지 사용자 정의 정렬인 보조 정렬과 파일 포맷 변환하는 걸 다섯 번씩만 작성해 봐야겠다. 머리가 나쁘니까... mapred package로 통일하였고,검색은 구현되어 있지 않다. 생각이 안나니까.. 윈도 환경 eclipse에서만 테스트되었습니다. package com.dbility.hadoop.execise; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSyst..

bigdata/hadoop 2017. 3. 7. 22:05

hadoop Mapper이용 text파일을 SequenceFileFormat으로 저장

아무 이유 없이 그냥 한번 해봤다. 윈도 환경이라 압축코덱을 설정하기 어려워 DefaultCodec은 사용이 되길래 사용하였고, eclipse에서 테스트되었습니다. Txt2SequenceFileConverter는 csv형태의 Text파일을 Mapper를 통해 SequenceFile로 변환 후 저장하고, SequenceFileRead는 SequenceFIle경로를 읽어 각 파일의 압축 정보를 출력하고, 데이터는 한 라인만 출력. 결과에 CompressorType을 보니 BuiltInZlibDeflater네요. zlib를 사용하나 보네요. 분명 native-zlib library 로딩이 안된다고 나왔는데... 누군가에겐 당연한 얘기겠지만, CompressionType에 따라 헤더가 달라지나 봅니다. Enum..

bigdata/hadoop 2017. 3. 6. 21:28

hadoop total sort ( 전체 정렬 )

보조 정렬을 테스트할 때 느낀 거지만, 데이터 분포가 고른 상태가 아니라면 하나의 리듀스 테스트에 집중이 될 텐데, 그럴 경우 개발자가 알아서 분할 가능하도록 파티셔닝을 해야 하는 등 RDBMS와 마찬가지로 데이터의 저장부터 관리, 개발자의 역량에 따라 성능이 좌우되지 않을지 생각했는데 친절하게 준비가 되어 있었다. 머리가 나쁜지 습득하는데, 시간이 오래 걸린다. 어쩌면 원래 공부하는 스타일의 차이일까.. 소설은 한번 잡고 이틀은 볼 수 있는데ㅎㅎ 맵리듀스는 입력 데이터의 키를 기준으로 정렬하기 때문에 하나의 파티션으로 손쉽게 정렬된다. 기본 알고리즘이 퀵 소트였던 것 같다. 데이터가 방대할 때 분산처리가 이루어져야 하는데 한 개의 리듀스 태스크만 사용할 경우 부하가 집중된다. 전체 정렬 순서 1. 입력..

bigdata/hadoop 2017. 3. 1. 18:31

hadoop secondary sort exercise 3 ( 보조 정렬 실습 3 )

일주일에 한 번은 해봐야 잊지 않을 거라는 근거 없는 믿음에 해본다. 삶의 절반 이전에나 봤던 수학도 해야 하고 참 어렵다. 윈도 환경 eclipse에서 테스트한 것이라 reducer는 하나다. package com.dbility.hadoop.execise; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import ..

bigdata/hadoop 2017. 2. 28. 21:27

Prev 1 ··· 5 6 7 8 9 10 11 ··· 14 Next

목록bigdata (67)

DBILITY

티스토리툴바