Les 3 Minutes Analytics : comment partitionner dans KNIME ?

Partitionner KNIME

Dans cet article, nous nous intéressons au node partitionner pour savoir comment partitionner dans KNIME (comme son nom l’indique. Grâce à ce troisième parcours KNIME Jedi des 3 Minutes Analytics, vous allez acquérir des connaissances pour utiliser des nodes plus complexes.

🎞 Mydral vous propose également de découvrir en vidéo ce tutoriel :

 

Le node partitionning permet de réaliser deux partitions distinctes d’un jeu de données. Dans cet exemple ci après nous allons voir comment utiliser le node partionning. Notre exemple porte sur une table de données de commandes et l’objectif est de séparer cette table en deux nouvelles tables de volumétrie égale.

Pour ce tutoriel, on va utiliser un fichier SportUp Orders.xlsx qui est importé préalablement dans KNIME avec le node Excel Reader.

 

 

On peut regarder la table avec un clic à droite et choisir Output Table tout en bas du menu affiché. Le fichier excel compte 121 317 lignes et 23 colonnes.

Pour séparer la table en deux nouvelles tables nous allons chercher le node Partitionning dans la fenêtre de Node Repository. Vous pouvez soit taper dans la barre de recherche, soit aller le chercher dans Manipulation/ Row/ Transform/ Partitionning : 

 

 

Je glisse le node dans le Workflow Editor, relie ce node avec le node Excel Reader et je double clic pour accéder au menu de configuration.

 

Les propriétés de configuration

 

Pour configurer, je spécifie la taille des partitions, puis le mode de partitionnement.

 

Pour la taille je sélectionne :

  • Absolute : pour spécifier un nombre de lignes fixes à échantilloner*
  • Relative : pour spécifier un pourcentage du nombre de lignes total que je souhaite récupérer

Pour le mode je peux choisir :

  • Take from top : Sélection des n premieres lignes
  • Linear sampling : Sélectionne la première et la dernière ligne et sélectionne les lignes restantes de manière linéaire sur l’ensemble de la table Ceci est utile pour réduire l’échantillon d’une colonne triée tout en maintenant une valeur minimale et maximale.
  • Draw randomly : Pour une sélection aléatoire
  • Stratified sampling : Pour une sélection stratifiée sur un champ afin de conserver la distribution initiale de ce champ dans les deux nouveaux échantillons.

Dans notre tutoriel nous souhaitons réaliser deux partitions aléatoires de même volumétrie. Pour ce faire nous allons choisir comme taille de l’échantillon 50% puis Aléatoire comme mode de fonctionnement

Je valide (Apply → OK) et j’exécute le node en faisant F7.

La dernière étape est de regarder le résultat des deux partitions .

Je fais un clic droit à First Partition : pour voir la partition 1

Ensuite, j’effectue un nouveau clic droit à Second Partition pour voir la partition 2 :

Mes partitions sont de volumétrie égales : 50% de part et d’autres.

NB : La première partition renvoie le nombre de lignes spécifiées dans le menu de configuration et la seconde les lignes restantes.

Cet article s’achève ici. Vous avez commencé par le mauvais module ? Pour suivre nos autres modules et débuter votre parcours KNIME Beginner, RDV dans notre rubrique Les 3 Minutes Analytiques.

Retrouvez KNIME Rookie et KNIME Jedi avant de devenir un KNIME Expert !

Votre parcours nous intéresse ! Parlez-nous de votre retour d’expérience en commentaires !

Suivez-nous sur les réseaux sociaux : LinkedIn & Twitter !

Author Profile

Mathieu RONDEAU
Mathieu RONDEAU

Laissez un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.