Article 4. Première utilisation de fonctions simples comprises dans Panda.
Premiers résultats sur le compte LinkedIn d’un consultant ISITIX
DIR = '/content/gdrive/MyDrive/nom_du_projet'
file = os.path.join(DIR, 'Connections.csv')
df_connection = pd.read_csv(file)
Avant le nettoyage des données
Avant de procéder au nettoyage des données, nous avons analysé le champ "position" extrait de la base de contacts LinkedIn : Connections.csv
, composée d'environ 1500 entrées. Notre première étape a consisté à évaluer le nombre de mots (tokens) formant l'intitulé de poste de chaque contact.
Nombre de tokens | Poste du contact |
1 | CTO |
2 | Directeur général |
4 | Chief Information Security Officer |
7 | Directeur des ventes et du développement commercial |
13 | Psychologue du travail - Contrôleur de sécurité (en cours d'agrément) - Référente RPS PDL |
Diviser pour compter
Dans notre analyse du champ "position" nous segmentons les descriptions en mots individuels, utilisant pour cela les fonctions str.split()
et str.len()
. Cette première étape décompose chaque titre en éléments analysables, que nous regroupons ensuite et en triant ces éléments par nombre de mots, grâce à la fonction groupby()
. Une fois organisé en fréquence décroissante, le tri des données nous révèle les quantité de mots les plus utilisés.
df_connection['Nombre_de_token'] = df_connection['Position'].str.split().str.len()
df_Position_NbrToken = df_connection.groupby('Nombre_de_token')['URL'].nunique().sort_values(ascending=False).reset_index()
df_Position_NbrToken = df_Position_NbrToken.rename(columns={'URL': 'Count'})
df_Position_NbrToken.head()
La phase finale de notre processus consiste à renommer les colonnes pour une meilleure lisibilité et présentation. Ce qui nous donne le résultat suivant :
Une fois les données obtenues, on détermine un certain nombre de médianes.
mediane_longueur = df_connection['Nombre_de_token'].median()
val_80 = df_connection['Nombre_de_token'].quantile(0.8)
mediane_occurence = df_Position_NbrToken['Count'].median()
Une fois les données médianes obtenues nous pouvons passer à l'élaboration du graphique nous utilisons pour ça la bibliothèque panda matplotlib.pyplot
que nous avions installé plus tôt.
Le graphe : une image vaut mille mots
La figure : définir les dimensions
Tout commence par la création d'une "toile" sur laquelle nous allons construire notre graphique. Pour Matplotlib, cela se traduit par la création d'une figure.
plt.figure(figsize=(10, 6))
Cette ligne crée une nouvelle figure avec une taille spécifiée de 10 pouces par 6 pouces.
Localisateurs d'axe : s'assurer que chaque détail compte
Pour obtenir un graphique aussi précis et informatif que possible, nous utilisons des localisateurs d'axe. Ils permettent d’ajuster les marques sur l'axe des x :
from matplotlib.ticker import MaxNLocator