Les 3 Minutes Analytics : comment partitionner dans KNIME ?
Dans cet article, nous nous intéressons au node partitionner pour savoir comment partitionner dans KNIME (comme son nom l’indique. Grâce à ce troisième parcours KNIME Jedi des 3 Minutes Analytics, vous allez acquérir des connaissances pour utiliser des nodes plus complexes.
Mydral vous propose également de découvrir en vidéo ce tutoriel :
Le node partitionning permet de réaliser deux partitions distinctes d’un jeu de données. Dans cet exemple ci après nous allons voir comment utiliser le node partionning. Notre exemple porte sur une table de données de commandes et l’objectif est de séparer cette table en deux nouvelles tables de volumétrie égale.
Pour ce tutoriel, on va utiliser un fichier SportUp Orders.xlsx qui est importé préalablement dans KNIME avec le node Excel Reader.
On peut regarder la table avec un clic à droite et choisir Output Table tout en bas du menu affiché. Le fichier excel compte 121 317 lignes et 23 colonnes.
Pour séparer la table en deux nouvelles tables nous allons chercher le node Partitionning dans la fenêtre de Node Repository. Vous pouvez soit taper dans la barre de recherche, soit aller le chercher dans Manipulation/ Row/ Transform/ Partitionning :
Je glisse le node dans le Workflow Editor, relie ce node avec le node Excel Reader et je double clic pour accéder au menu de configuration.
Les propriétés de configuration
Pour configurer, je spécifie la taille des partitions, puis le mode de partitionnement.
Pour la taille je sélectionne :
- Absolute : pour spécifier un nombre de lignes fixes à échantilloner*
- Relative : pour spécifier un pourcentage du nombre de lignes total que je souhaite récupérer
Pour le mode je peux choisir :
- Take from top : Sélection des n premieres lignes
- Linear sampling : Sélectionne la première et la dernière ligne et sélectionne les lignes restantes de manière linéaire sur l’ensemble de la table Ceci est utile pour réduire l’échantillon d’une colonne triée tout en maintenant une valeur minimale et maximale.
- Draw randomly : Pour une sélection aléatoire
- Stratified sampling : Pour une sélection stratifiée sur un champ afin de conserver la distribution initiale de ce champ dans les deux nouveaux échantillons.
Dans notre tutoriel nous souhaitons réaliser deux partitions aléatoires de même volumétrie. Pour ce faire nous allons choisir comme taille de l’échantillon 50% puis Aléatoire comme mode de fonctionnement
Je valide (Apply → OK) et j’exécute le node en faisant F7.
La dernière étape est de regarder le résultat des deux partitions .
Je fais un clic droit à First Partition : pour voir la partition 1
Ensuite, j’effectue un nouveau clic droit à Second Partition pour voir la partition 2 :
Mes partitions sont de volumétrie égales : 50% de part et d’autres.
NB : La première partition renvoie le nombre de lignes spécifiées dans le menu de configuration et la seconde les lignes restantes.
Cet article s’achève ici. Vous avez commencé par le mauvais module ? Pour suivre nos autres modules et débuter votre parcours KNIME Beginner, RDV dans notre rubrique Les 3 Minutes Analytiques.
Retrouvez KNIME Rookie et KNIME Jedi avant de devenir un KNIME Expert !
Votre parcours nous intéresse ! Parlez-nous de votre retour d’expérience en commentaires !
Suivez-nous sur les réseaux sociaux : LinkedIn & Twitter !
Author Profile
Latest entries
- Webinars20 mai 2021Private Equity : Optimisez le pilotage de la performance de votre portfolio grâce à Tableau [Replay]
- Actualités3 mai 2021Mydral se réinvente avec une nouvelle identité visuelle !
- Webinars28 avril 2021Asset Management Analytics [Replay] Maximiser la performance des équipements en production et la planification des opérations de maintenance
- Actualités27 avril 2021Mydral élu partenaire de l’année 2020 par Tableau !