Skip to content

Hadoop

아파치 하둡(Apache Hadoop, High-Availability Distributed Object-Oriented Platform)은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System)과 맵리듀스를 구현한 것이다.

Categories

Big data
HDFS+MapReduce
Apache Flume
Oozie
Sqoop
HCatalog: 하둡 데이터용 테이블 및 스토리지 관리 서비스
Pig: 맵리듀스용 프로그래밍 및 데이터 플로우 인터페이스
Hive: SQL과 유사한 언어인 하이브QL(HiveQL)을 이용해 하둡 데이터 쿼리를 생성하는 데이터 웨어하우징 솔루션

See also

Apache
Spark
Impala
Sqoop
Kafka
Hive
Hadoop
Oozie
RedPanda
FastLanes - 차세대 빅데이터 파일 포맷
Data Lakes

Favorite site

Wikipedia (en) Hadoop에 대한 설명
빅 데이터의 시대 - 하둡(Hadoop), Hadoop 이란..?
하둡 파일 시스템(HDFS) 파일 저장 방식
KLDP: 아파치 하둡 (Apache Hadoop)
What Hadoop is Not
[추천] Youtube: 생활코딩 하둡 - 소개 helloworld
하둡(Hadoop) 시작하기
Hadoop 튜토리얼 (2-1) – HDFS
Introduction to Big Data (3) - MapReduce?
[추천] Hadoop 2.2.0 install on Ubuntu Linux 12.04
Hadoop: 개념이해 및 설치하기
하둡(Hadoop) 설치부터 테스트까지 정리
하둡 (Hadoop 2.6.0) 따라하기 설치
[추천] 빅 데이터의 열쇠 하둡 총정리 1 : 개념과 알아둬야 할 것 ¹
[추천] 빅 데이터의 열쇠 하둡 총정리 2 하둡 vs RDBMS 비용 분석 ²
[추천] 빅 데이터의 열쇠 하둡 총정리 3 RDBMS에서 하둡으로 가는 길 ³
빅데이터: Hadoop 기반 대용량 로그처리
[추천] (Spark) 스파크 이해하기
- (하둡) HDFS의 구현컨셉 및 설계
- (하둡) 맵리듀스(MapReduce) 이해하기
- (하둡) 하둡 분산처리시스템 구성요소
[추천] (빅데이터) 하둡(Hadoop)과 아파치 스파크(Spark) 파헤치기 - 간단한 설명
명령줄 도구가 Hadoop 클러스터보다 235배 빠를 수 있다 (2014) | GeekNews
- [원문] Command-line Tools can be 235x Faster than your Hadoop Cluster - Adam Drake
- 약 1.75GB의 체스 경기 데이터를 Hadoop 대신 명령줄 도구로 처리한 결과, 12초 만에 완료되어 Hadoop의 26분 대비 235배 이상 빠른 성능을 보임
- grep, sort, uniq, awk, xargs, mawk 등 기본 셸 명령을 조합해 스트리밍 처리 파이프라인을 구성, 메모리 사용을 거의 0으로 유지
- xargs 병렬 처리와 mawk 최적화를 통해 CPU 코어 활용도를 높이고, IO 병목을 최소화함
- 동일한 데이터셋을 Hadoop 클러스터(7대의 c1.medium 인스턴스)로 처리할 때보다 비용과 유지보수 부담이 현저히 낮음
- 단일 머신에서도 효율적인 데이터 분석이 가능함을 보여주며, 불필요한 Big Data 도구 사용에 대한 경각심을 제시함

References

ITWorld_Korea_-big_data-hadoop-_part1.pdf ↩
ITWorld_Korea_-big_data-hadoop-_part2.pdf ↩
ITWorld_Korea_-big_data-hadoop-_part3.pdf ↩