大規模データの蓄積と分析を分散処理によって行うオープンソースのミドルウェア。Apacheのトッププロジェクトの一つとして、 Hortonworks社や米国Yahoo!社、Intel社、Microsof t社など、世界規模のコミュニティによって開発が続けられて、日本からもNTTやNTTデータが開発に貢献しています。
Google社が論文で公開したGoogle社内のGFS(Google File System)とGoogle MapReduceという基盤技術がベースとなっており、この論文をもとにDoug Cutting氏を中心としたメンバーがJavaで開発をしたことで生まれました。Hadoopという名称はDoug氏のお子さんのお気に入りの象のぬいぐるみの名前から付けられています。
Hadoopは大きく分けると「MapReduce」「HDFS」「YARN」で構成されています。MapReduceとは、Hadoopで処理するプログラミングモデルで、様々な処理をシンプルかつ柔軟に行うことができます。HDFSは、MapReduceで処理するデータを扱う分散ストレージで、複数のマシンを一つのストレージとして扱うことができ、大量のデータを高スループットに読み込むことができます。YARNは計算機リソースの管理を行う為のミドルウェアで、MapReduceを起点に他の様々な並列処理基盤を実行する使い方がメインとなっています。YARNはもともとHadoopのリソース管理汎用化する手段として開発されたもので、YARN以外にもTezやSpark、HBase、Storm、Pig、Oozie、Sqoopなど、様々なミドルウェア技術が生まれてきており、これからもその数は増えていくと予想されています。