IBM Infosphere Hadoop es una plataforma de código abierto que proporciona el procesamiento distribuido, escalable y altamente fiable de grandes conjuntos de datos, utilizando modelos de programación sencillos. Hadoop se basa en clústeres de ordenadores de sistemas genéricos, proporcionando una solución rentable para almacenar y procesar cantidades masivas de datos estructurados, semiestructurados y no estructurados sin requisitos de formatos.