Les 3 minutes Analytics : Comment créer un Group By dans KNIME ?
Bonjours à tous ! Prêt à suivre notre nouvel article de notre série Les 3 Minutes Analytics KNIME ? C’est parti ! A la fin de ce tutoriel, vous saurez manipuler le Group By. En effet, l’objectif de ce tutoriel est de vous aider à comprendre comment manipuler ce node GroupBy dans KNIME.
Pour rappel, vous suivez le parcours 2. Les différents modules du parcours 1 vous ont permis de devenir un KNIME beginner avec les fonctionnalités de base. Place au parcours 2 pour devenir un KNIME rookie.
Mydral vous propose également de découvrir en vidéo ce tutoriel :
Dans illustrer mon tutoriel, j’utilise un fichier CSV qui concerne les commandes d’une entreprise appelée Sport Up, et le node GroupBy. L’objectif de cet exemple est de connaitre le client qui commande le plus de fois et le nombre de clients uniques par territoire.
Etape 1 : Le Node GroupBy
Je remarque que sous mon node GroupBy, il y a un message d’alerte.
Ce message m’informe qu’il doit être configuré. Clic droit -> Configure.
Lors de l’ouverture du panneau de configuration, celui-ci se divise en deux parties.
La première partie affiche les onglets et deux colonnes. La colonne de gauche donne la liste de vos colonnes que vous pouvez glisser dans la colonne de droite pour les grouper. Ici, la colonne Territory Name est la colonne qui va être groupée.
Etape 2 : les paramètres avancés du node GroupBy
La seconde partie concerne les paramètres avancés tels que :
– Colunm Naming : choix du nom des colonnes qui seront agrégées
– Enable Hiligting : pour mettre en lumière vos colonnes
– Process in memory : donne une meilleure performance sur les petits jeux de donnée
– Retain row order : garde l’ordre du jeu de donnée
– Maximum unique values per group : évite la surcharge de mémoire
– Value delimiter : est la valeur qui délimite
Dans cet exemple, je n’ai rien changé aux paramètres avancés.
Ensuite, il y a trois possibilités d’agréger des valeurs, manuellement comme dans cet exemple, par pattern ou par type.
Sur l’onglet Manual Aggregation, je vais choisir Customer ID deux fois, chaque ligne va avoir une agrégation.
La première ligne sera avec Mode pour m’indiquer le client qui a passé le plus de commandes par territoire et la seconde ligne est Unique count afin de connaitre le nombre unique de clients par territoire.
Selon certaines agrégations il est possible d’inclure les valeurs manquantes en cochant la case à droite de l’agrégation choisie.
Pour choisir l’agrégation de Customer ID, je dois dérouler le menu avec un clic comme dans l’exemple ci-dessous :
Il est possible de chercher des informations sur une agrégation, vous trouverez son descriptif dans l’onglet Description en haut à côté de l’onglet Settings.
Une fois la configuration terminée, je l’exécute et demande à voir son résultat avec Group Table.
Etape finale ! Voici le résultat :
En Australie le client qui passe le plus de commande est le numéro 29488 et il y a 3625 clients uniques.
Merci d’avoir suivi cet article, j’espère qu’il vous a été utile. Pour rappel, les 3 Minutes Analytics sont une série de parcours et de différents modules pour maîtriser les fonctions principales de la solution KNIME.
Votre avis nous intéresse ! Quatre parcours de KNIME Beginner à KNIME expert vous attendent. Parlez-nous de votre parcours KNIME en commentaires !
Suivez-nous sur les réseaux sociaux : LinkedIn & Twitter !
Author Profile
Latest entries
- Les 3 minutes Analytics5 août 2020Les 3 minutes Analytics – Comment utiliser le node Wait dans KNIME ?
- Les 3 minutes Analytics31 juillet 2020Les 3 minutes Analytics – Comment manipuler un node de configuration dans KNIME ?
- Les 3 minutes Analytics31 juillet 2020Les 3 minutes Analytics – Comment lire une liste de fichiers dans KNIME ?
- Les 3 minutes Analytics30 juillet 2020Les 3 Minutes Analytics : comment pivoter sa table dans KNIME?