Blog myBlog = BlogFactory.getWordPressBlog();
Talend
Talend Partner Submit – Partie 3 : Talend MDM
17/04/10
Twitter 13h27 : Après déjeuner, reprise: conférence sur le nouveau Talend MDM.
Un bon déjeuner buffet nous permet de rencontrer les partenaires, ainsi que des membres de Talend, en particulier son Directeur Technique avec qui nous avons des échanges informels toujours intéressants.
Ensuite, nous arrivons à la partie de la journée qui m’intéresse la plus : les conférences de présentation. J’ai donc entamé cette après-midi avec Talend MDM.
Dans un SI, il est très fréquent que plusieurs applications utilisent les mêmes données (liste de client, etc.). Or, en fonctions des applications, les valeurs associées (adresse, numéro de téléphone, etc.) peuvent être différentes. Le MDM a pour but de palier à ce problème en étant la référence, pour toutes les applications ayant besoin de ces données, de la valeur considérée comme vraie.
Pour assurer cela, Talend MDM propose les outils suivants :
- définition des données de référence
- définition du “propriétaire” de chaque donnée, qui en est responsable
- définition de règles de gestions (le champ “sexe” n’a que deux valeurs possibles ‘M’ et ‘F’, le champ “numéroClient” est constitué de 10 chiffres et est unique, etc.)
- définition de workflows de validation des données (si une personne/application veut mettre à jour une donnée, cette mise à jour est soumise à approbation d’un responsable).
Concrètement, l’outil lorsqu’on le télécharge est constitué de deux parties :
- le serveur MDM lui-même
- le client lourd de configuration de ce serveur (basé sur Eclipse RCP)
Techniquement, le serveur expose des services web permettant d’accéder à ses fonctions. Pour gérer la configuration du serveur, le client utilise ces services.
Dans de nombreux cas (pour ne pas dire la plupart), la problématique d’avoir de la cohérence entre les données de plusieurs systèmes arrive très tard, alors que les systèmes existent. Or, la solution présentée peut être déployée de manière non-invasive et progressive pour les systèmes existants :
- Talend MDM peut se connecter aux différentes bases, et en extraire les données de référence (avec des règles de gestion permettant de déterminer quelle donnée est la plus fiable)
- Cette alimentation de la base de référence peut ensuite être planifiée (toutes les nuits par exemple) : lorsqu’une donnée varie dans une des bases applicatives, Talend MDM récupère cette information et la gère (en mettant, ou non, la donnée de référence à jour en fonction encore d’un certain nombre de règles et/ou validations)
A ce stade, les différents systèmes ne subissent aucun impact : vient maintenant le moment de redescendre la donnée de référence validée dans ces systèmes pour qu’ils la partagent.
La propagation de la donnée de référence peut être faite en attaquant directement la base du système cible. Cette mise à jour en base peut être complexe (impacter plusieurs tables, être faite de manière transactionnelle, etc.), puisque Talend MDM peut utiliser un job de Talend ETL (TOS ou TIS). Cette manière de procéder nécessite peu (voire aucun) développement sur le système cible : elle peut donc être mise en place pour un faible coût sur des systèmes existants.
Plus tard, ou dans des nouveaux développements, le référentiel MDM peut être intégré directement dans les développements, afin d’être connu et utilisé par les systèmes eux-mêmes :
- lors d’une mise à jour d’une donnée de référence dans le système, un appel WS du serveur MDM est effectué pour lui notifier cette mise à jour
- lors d’une opération nécessitant une donnée de référence dans le système, la valeur de celle-ci peut être vérifiée auprès du serveur MDM (toujours par WS)
- en allant encore plus loin, on peut imaginer que le système ne conserve même pas de copie des données de référence. Lorsqu’elle sont nécessaires, elles sont obtenues par un appel au MDM. Cette solution faisant évidemment apparaître d’autres problématiques (dépendance de l’application à un système externe, existence d’un mode dégradé en cas de panne du MDM, etc.)
Ces solutions intégrant plus directement le MDM, elles sont évidemment plus invasives dans les systèmes. Sur un existant qui ne le prévoyait pas, elles sont donc plus coûteuses à mettre en oeuvre. Elles sont donc peut-être plutôt dédiées à des nouvelles applications développées dans un environnement où le MDM est déjà en place.
La solution MDM par Talend offre donc une grande souplesse pour s’adapter aux systèmes existants comme aux nouveaux développements. Par ailleurs, cette solution s’interface très bien avec l’ETL de Talend. Ce sont ces deux points qui m’ont le plus séduit lors de cette présentation. Cependant, j’admets volontiers que le MDM n’est pas ma spécialité, et que cet intérêt que je porte à la solution manque (pour le moment) d’objectivité :
- je ne connais pas l’ensemble des problématiques liées au MDM
- je ne connais pas les différentes offres du marché, et suis donc incapable de donner le moindre élément de comparaison par rapport à l’offre de Talend
Talend Partner Submit – Partie 2
16/04/10
Twitter 10h40 : Retour client original de http://delamaison.fr sous la forme d’une interview au Talend Partner Submit
Le mode de présentation de cette deuxième conférence, sous la forme de questions-réponses, était assez original. Voici les points clés de ce retour-client :
- la société Elbee lancée en 2005 possède le site delamaison.fr, et à racheté plus récemment son concurrent decoclico (comme ça se fait souvent, dans tous les domaines…)
- avant cette fusion, les très nombreux flux de la société étaient gérés manuellement (PHP, bash, perl, etc.)
- après avoir éliminé les solutions concurrents (manque de fonctionnalités, coût trop élevé, etc.), un test réussi avec les outils Talend conduit à l’adoption de ces outils
Twitter 11h36 : Discussion avec Jedox à la pause autour de la solution MOLAP Palo.
Un des partenaires que je tenais à rencontrer durant cette journée. Les outils de Jedox sont en effet particulièrement intéressants. Pour des besoins simples, ils permettent de mettre en oeuvre des restitutions multi-dimensionnelles beaucoup plus rapidement qu’avec les outils de BI traditionnels. La dernière et récente version du logiciel Open Source Palo Suite est assez impressionnante : elle offre dans un client web l’équivalent d’un tableur évolué (graphiques, etc.) permettant l’affichage des données du cube.
Exemple de cas d’utilisation : à Alcion Group, le couple TOS – Palo Suite nous a permis de consolider très rapidement des données que notre gestionnaire d’anomalies ne fournit pas en standard.
Twitter 11h54 : Présentation de la qualité de données par Experian QAS, société spécialisée dans ce domaine.
Une conférence intéressante (et très vendeuse) sur l’intérêt de la qualité de données, par une société spécialiste du secteur : Constat : des derniers temps, il y a une explosion des ventes en ligne. Conséquence : le volume de données augmente de manière exponentielle, et la non-qualité également (doublons, adresses fausses ou obsolètes).
Dans ce contexte, la qualité de données permet de :
- augmenter la qualité de la relation client (en augmentant l’efficacité opérationnelle des agents).
- optimiser ainsi la notoriété de l’entreprise
Plus généralement, dans les SI, la qualité est un problème transverse que l’on rencontre à tous les niveaux :
- en front-office et back-office
- en saisie, dans les traitements, lors du reporting
Dans ce contexte, les outils de QAS permettent de :
- faire du dédoublonnage
- vérifier et corriger les adresses (ou autres coordonnées) des individus
Ces outils sont relativement peu onéreux (coût d’entrée de 1500€, coût moyen aux environs de 10000€), et le ROI prouvé de ces solutions fait qu’elles ont déjà été largement adoptée (10 des 20 premiers acteurs e-commerce français).
Twitter 12h11 : Présentation des différentes offres de Logica dans le domaine de la BI au sens large.
La présentation de l’offre de Logica en matière de gestion de données : le Data Management Hub. Ce système est destiné à remplacer les échanges de flux “point à point” en les faisant passer par un noeud central (le Hub), dont voici les caractéristiques :
- Acquittement des messages
- Envoi planifié
- Gain de bande passante (en mutualisant des flux, et en sauvegardant au niveau du hub les informations)
A la description de cette offre, j’y ai vu de très nombreux points communs avec les systèmes de type EAI.
Talend Partner Submit – Partie 1
16/04/10
Suivons le fil rouge de mes tweets de ce jour (cf. mon précédent post)…
Twitter 8h40 : En route pour le Talend Partner Submit.
Comme tous les jours, une petite balade en métro… on ne va pas épiloguer.
Twitter il y a environ 9h43 : Petit déjeuner et première rencontre avec les partenaires Talend sur les stands.
La journée commence traditionnellement par la remise du “sac de brochure” de l’évènement (qui contenait, en plus des dites brochures, un stylo et une lampe LED sans piles). Ensuite, un tout aussi traditionnel bon petit déjeuner. J’en profite pour faire la connaissance réelle de jsd03, un “collègue virtuel” du forum Talend de developpez.com qui était également présent à ce sommet.
Talend Open Studio 4.0.0 est sorti
9/04/10
A quelques jours du second Talend Partner Submit, la version 4.0.0 des produits Talend est publié (Talend Open Studio, Talend Open Profiler, et Talend MDM CE).
Je participerai à cette journée, et pourrai certainement vous en dire plus après sur ces produits, dont cette fournée 4.0 est très prometteuse…
Mais avant même d’assister à cette journée, voici ce que j’ai pu voir de mon produit fétiche, Talend Open Studio :
De nouveaux composants
Voici un extrait de la liste des nouveaux composants :
- Pour toutes les bases de données, le tSGBDClose, permettant de découpler la fermeture d’une connexion d’un composant “Commit” ou “Rollback”.
- Un support complet de nouvelles bases, eXist (base de données XML Open Source) et Informix (cette dernière m’intéressant beaucoup à titre professionnel puisque deux de mes projets l’utilisent). A noter que ce support marque définitivement l’arrêt du mien pour les composants Informix que j’avais mis à disposition sur Exchange.
- Un support de la connectivité à de nouveaux progiciels (l’ERP Openbravo), et un support étendu des anciens (SAP, Sales Force, etc.)
- Un début de support du format HL7 (norme d’échanges dans le domaine de la Santé, très utilisé aux Etats-Unis)
- De nouveaux composants d’échange avec leur propre logiciel “Talend MDM”
- Une amélioration des fonctionnalités LDAP (marquant une fin de vie très rapide des composants Exchange que j’ai développés puisque ces nouveaux composants en reprennent les fonctionnalités)
Des corrections/améliorations
Il suffit d’aller voir les release notes
L’environnement de développement lui-même
Apart cette différence… je n’ai pour le moment pas découvert de nouvelles fonctionnalités dans l’environnement de développement… On me rétorquera que l’IDE était déjà complet. Certes, mais on est toujours un peu déçu de ne pas trouver une nouvelle “killing feature” lors d’une version majeure d’un produit.
Autre déception, qui ne concernera que les développeurs de composants : le tout nouvel environnement de développement de composants n’a pas pu être intégré dans cette version. Il faudra donc attendre. Et en attendant, une fonctionnalité a disparu : l’éditeur XML d’Eclipse, qui était utilisé pour ouvrir les fichiers de configuration des composants n’est plus embarqué dans cette version. On doit donc se contenter de l’éditeur texte qui ne gère pas le formatage automatique, la coloration syntaxique, etc. Temporairement, je recommande donc d’utiliser la version 3.X pour développer des composants, ou de réinstaller manuellement le plugin XMl d’Eclise.
Un nouveau billet après le “Talend Partner Submit” pour faire mes retours sur cet évènement (et en particulier la conférence de présentation de la version 4.0.0).
Mise à jour le 09/04/2010 à 22h :
Compatibilité MAC
Mes premiers tests ont été faits sur Windows… Ce soir, je viens de tester l’installation de cette version 4.0.0 de Talend Open Studio sur mon MAC, avec une surprise de taille : contrairement à toutes les versions précédentes, cette version est à première vue parfaitement compatible MAC :
- plus de fichier à modifier manuellement pour lancer le programme
- le champ de recherche/filtrage des composants est actif et fonctionnel
- les barres de défilement sont actives sur les onglets (paramétrie des composants)
- etc.
Bref… un nouvel énorme bon point à mettre à l’actif de cette nouvelle version !
Talend Highlighted Member
30/03/10
Je me suis aperçu que je rédigeais beaucoup d’articles sur Talend ces derniers temps. Il est vrai que c’est un outil que j’apprécie particulièrement, et je ne compte donc pas m’arrêter en si bon chemin : c’est pourquoi j’ai décidé de lui consacrer une rubrique dédiée de ce blog donc voici le premier billet.
Je ne suis d’ailleurs pas le seul à m’être aperçu que je participais activement en publiant des composants, en participant aux forums, etc. En début de mois, j’ai été interviewé par Talend, et ce 26 mars 2010, elle a été publiée en même temps que ma nomination en tant que Talend Highlighted Member.
Maintenant, pour continuer sur cette lancée, voici une petite roadmap des articles que je compte rédiger et des composants que j’ai l’intention de publier (ce qui ne veut pas dire que cela sera réellement fait vu le peu de temps dont je dispose…) :
- finalisation du composant bcFileOutputOOSpreadsheet
- développement d’une série de composants permettant de se connecter (lecture/écriture) à une base de données gérée par une DataSource (ces composants n’ayant d’intérêt que pour le déploiement des jobs en tant que webservices)
- rédaction d’une série d’article sur la gestion d’un annuaire Active Directory à partir de TOS
- rédaction de billets sur la future version 4.0.0 (en RC3 depuis aujourd’hui)
Sortie de la version 3.1.0 de Talend Open Studio
6/05/09
Je viens de me procurer la version 3.1.0 finale de Talend Open Studio qui vient de paraître. Voici mes premières impressions sur celle-ci :
Internationalisation
Un gros effort d’internationalisation a visiblement été fait sur cette version :
- l’interface est maintenant disponible (au moins partiellement) dans plusieurs langues : français, anglais, allemand, espagnol, italien ;
- les composants (et leurs paramètres) ont également été partiellement traduis dans ces mêmes langues
- des fichiers (bien que vides pour l’instant) ont été préparés pour intégrer prochainement le russe et le japonais ;
Certification Talend
3/05/09
En janvier, j’avais suivi avec un collègue d’Alcion Group une formation à l’ETL Talend Open Studio, dont j’avais déjà parlé ici, pour lister les contributions au projet (sous la forme de nouveaux composants).
Suite à cette formation et à ces développements, j’ai passé l’examen de certification. J’ai reçu en début de semaine les résultats de celle-ci. Me voici donc officiellement certifié pour l’utilisation de cet ETL :
Je profite de ce billet pour signaler la sortie de la version 3.1.0 de Talend Open Studio à télécharger ici ! Je reviendrai prochainement sur les nouveautés de cette version…
Mise à jour du 12/05/2009 : Toutes mes félicitation à mon estimé collègue qui a également reçu sa certification Talend !
