Pentaho Data Integration (PDI)

Pentaho Data Integration (PDI) est un ETL open source qui permet de concevoir et d’exécuter des opérations de manipulation et de transformation de données. Au moment où nous écrivons ces lignes, Pentaho Data Integration est disponible dans sa version 5.0.

Grâce à un modèle graphique à base d’étapes, il est possible de créer sans programmation des processus composés d’imports et d’exports de données, et de différentes opérations de transformation telles que des conversions, des jointures, l’application de filtres, ou même l’exécution de fonctions JavaScript. PDI dispose de très nombreux connecteurs, à la fois en lecture et en écriture, lui permettant d’accéder à un grand nombre de bases de données et à tout type de fichiers.

En version entreprise, un planificateur permet de planifier l’exécution des jobs. Un module commercial « Agile BI » permet également de visualiser graphiquement les résultats de transformations de données dès les premières étapes de développement.

Pentaho Data Integration est un outil complet disposant de fonctionnalités avancées comme le “clustering” de traitements ETL.

Ces fonctionnalités disponibles dès la version open source de PDI, ne se retrouvent que dans les versions commerciales des ETLs concurrents.

Pentaho Data Integration est disponible en version LGPL