CDP 7.1.7 : des fonctionnalités très attendues !

Avant de parler de la dernière version de CDP 7.1.7 et des nouvelles fonctionnalités, rappelons que Cloudera Data Plateform est la plateforme vers laquelle Cloudera souhaite tendre définitivement à compter de début 2022. Cela veut donc dire que les versions de CDH (Cloudera Distribution of Hadoop) et HDP (Hortonworks Data Platform) ne seront bientôt plus supportées. Cloudera a communiqué la date de “Fin de Support“pour mars 2022 concernant CDH 6.3 et décembre 2021 concernant HDP 3.1.

Au cas où vous ne seriez pas familier avec, nous vous présentons dans cet article ce qu’est la Cloudera Data Plateform.

Migration et transition vers CDP 7.1.7

Dans l’optique d’aider ses utilisateurs à migrer vers CDP, cette nouvelle version permettra la migration depuis les solutions CDH 5 et 6 ainsi que HDP 2 et 3. En cas de problème, il sera évidemment possible de faire un retour arrière vers ces versions.

Un assistant d’upgrade à aussi été proposé pour aider et accompagner les entreprises dans la transition vers CDP. En plusieurs étapes, il est un centralisateur des différentes documentations à suivre pour opérer en toute sécurité et s’appuie sur des données d’entrée pour personnaliser la documentation en fonction de votre infrastructure.

Les nouveautés en terme de fonctionnalités

Du côté des services, beaucoup de nouvelles fonctionnalités font leurs apparitions sur cette dernière version de CDP 7.1.7.

On notera notamment les points suivants :

Apache Ozone est maintenant capable de gérer complètement de la haute disponibilité.
Atlas et Kafka renforcent leurs manières de travailler conjointement grâce à la mise en place d’un Atlas Hook côté Kafka. Il permet de fournir à Atlas un flot continu d’informations sur le service Kafka et ses métadonnées, permettant de mieux gérer, gouverner et monitorer ces dernières au sein d’Atlas.
Hive permet à son Hive Warehouse Connector de supporter Spark Datasource V2 en autorisant simplement son utilisation au sein du fichier de configuration. Le Hive Strict Metastore Migration permettra également de gérer la migration de Hive 2 vers Hive 3.
Pour HUE, une parcelle Oracle Instant Client 12 téléchargeable depuis le Cloudera Manager permet désormais l’utilisation en backend de bases de données Oracle version 12c ou supérieure.
Impala supporte l’utilisation de la stratégie de filtrage Row-Level de Ranger afin de définir les accès lors de la lecture de table. On peut donc filtrer des utilisateurs, des groupes et des conditions au sein d’Impala. Cette nouveauté permet ainsi de remettre au niveau Impala vis-à-vis de Hive qui possédait déjà cette fonctionnalité.
Ranger s’est vu conférer plusieurs nouveautés, notamment Ranger Audit Filters. Cette fonctionnalité, implémentée avec la version CPD 7.1.6, permet de contrôler la quantité de logs collectée et stockée pour chaque service Ranger au sein de votre cluster. Si pour la 7.1.6 la configuration devait se faire en JSON, la 7.1.7 implémente – elle – une interface utilisateur !
On retrouve également une nouvelle méthode AccessControlEnforcer pour vérifier les permissions SuperUser et auditer leurs actions au sein d’HDFS, ou encore une configuration pour Ranger Usersync permettant de synchroniser les utilisateurs et groupes supprimés depuis la source (UNIX, LDAP, AD ou PAM) entre autres choses.
En toute simplicité, Spark contient maintenant toutes les fonctionnalités disponibles dans sa version 2.4.7.
Enfin, YARN dispose de plusieurs améliorations intéressantes :
- Préemption intra queue pour une gestion plus fine des queues Yarn.
- Support de la LazyPreemption, elle permet d’optimiser la selection des conteneurs à préempter.
- Dynamic Queue Scheduling : permet aux utilisateurs de modifier dynamiquement les ressources allouées aux queues.