Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec seulement 3 lignes de code (a l’assistance de precisions OkCupid)

Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec seulement 3 lignes de code (a l’assistance de precisions OkCupid)

Quelques astuces simples mais utiles que vous ne connaissiez probablement jamais

Bien que le possible le moins complique de coder une table de frequences pour votre objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() methode, le resultat de cette operation parai®t plutot basique. Nous pouvons le rendre plus informatif en ajustant les parametres booleens de la methode normalize , sort , ascending , et dropna , ou en regroupant les valeurs (si elles sont numeriques) dans des bacs. Cependant, les alternatives ici sont assez limitees, donc Afin de ameliorer visuellement la table de frequences resultante, nous pouvons envisager quelques astuces simples mais utiles, telles que le chainage de methodes, la personnalisation du post, l’ajout du % symbole a chaque valeur de frequence et l’utilisation en puissance de jolie- impression.

Dans Ce texte, nous allons experimenter un ensemble de donnees Kaggle contenant des informations sur l’age, le sexe, l’emplacement, l’education, etc., Afin de 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour des besoins, cependant, nous n’utiliserons que nos precisions i  propos des statuts des utilisateurs.

1. Enchainement des methodes

Pour commencer, creons un tableau de frequence d’origine pour nos statuts des utilisateurs :

( Note : ci-apres, nous allons laisser tous les autres parametres https://besthookupwebsites.org/fr/meetmindful-review/ en value_counts() technique via defaut, ce qui signifie que nous ne considererons que les tableaux de frequences tries par ordre decroissant et en excluant les valeurs manquantes. Pour des besoins, se servir de ou non ces parametres ne peu importe.)

Sans connaitre le contexte, a partir du tableau ci-dessus, il peut ne pas etre clair que les nombres representent des pourcentages et non des frequences absolues. Ajoutons 1 titre au tableau en utilisant le formatage f-string :

Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une option de contournement consiste a creer une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, puis a creer une serie a partir de cette liste. Afin d’effectuer la liste, nous pouvons utiliser la boucle for suivante :

Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour i§a, nous allons utiliser la to_markdown() methode pandas qui necessite l’installation (que rarement l’import) du module tabulate ( pip install tabulate ).

Important : pour afficher convenablement les resultats, la to_markdown() methode doit etre utilisee uniquement a l’interieur d’la print() commande.

Jouons avec les parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et va avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. notamment, le format de tableau que nous avons surpris plus haut s’appelle pipe , celui avec defaut pour nos to_markdown() pandas technique. Curieux que concernant le package tabulate lui-meme, le format de tableau par defaut reste simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des informations de chaine avec defaut (qui est left ). Les laternatives possibles ici sont right et center .

Attention : le floatfmt parametre ne fonctionne pas en combinaison avec le format du tableau pretty .

Plats a emporter pratiques

Bien que tous Notre procedure jamais a gui?re ci-dessus ait necessite beaucoup de iterations et descriptions, nous trouverons ci-dessous des solutions de code finales Afin de 4 versions differentes de notre tableau des frequences Afin de profiles[‘status’] , l’article en % :

  • 2 tableaux simples avec/sans le % symbole,
  • 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.

Dans ce post, nous avons discute de divers approches simples mais puissantes pour ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont l’ensemble de sa value_counts() methode des pandas comme accessoire central, mais tous vont au-dela et aboutissent a des representations plus percutantes. Sans compter que, chacune des solutions presentees, dans sa forme definitive, necessite au maximum 3 lignes de code.

J’espere que vous avez apprecie la lecture de mon article et que vous l’avez trouve utile. Merci d’avoir lu a n’importe qui, et bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????

Vous pourrez tomber sur passionnant aussi ces articles :

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *