Sans données propres, votre feuille de calcul est sur le point de rendre l'âme. Dans ce tutoriel, je vais vous montrer deux méthodes rapides pour nettoyer les données dans votre feuille de calcul Excel ou Google Sheets.
Lorsqu'on travaille avec des ensembles de données, surtout ceux qui sont volumineux et/ou ceux que vous n'avez pas créés, il est probable que vous deviez nettoyer les données de manière plus ou moins importante pour les rendre pleinement fonctionnelles.
Les deux fonctions intégrées dont nous allons discuter – =TRIM() et =CLEAN() – sont disponibles dans Microsoft Excel ainsi que dans Google Sheets. Et toutes deux ont le potentiel de vous éviter bien des maux de tête.
Examinons :
- Que signifie l'expression "données propres" ?
- Pourquoi les données ne sont-elles pas déjà propres ?
- Comment les nettoyer rapidement et efficacement ?
un homme retournant son bureau en désordre qui devient magiquement organisé
pssst : J'ai également une vidéo explicative à la fin de l'article 👇 😉
Qu'est-ce que des données propres ?
Dans Excel et Google Sheets, les données avec lesquelles nous travaillons sont situées dans des cellules. Dans un monde parfait, ces cellules contiennent des données correctement formatées comme des nombres, des montants, des noms et d'autres informations.
Cependant, nous rencontrons souvent dans les cellules des éléments qui n'ont pas leur place et qui nous empêcheront d'utiliser ces données de la manière dont nous en avons besoin.
Des éléments comme des caractères non imprimables, des espaces blancs supplémentaires et des lettres dans des cellules qui devraient contenir des nombres sont quelques exemples de données non propres qui affecteront négativement notre travail.
Qu'est-ce que des caractères non imprimables, demandez-vous ? Ce sont les 32 premiers caractères de contrôle dans la table ASCII.
Consultez le tableau ci-dessous des caractères ASCII. Les 32 premiers sont des codes de contrôle non imprimables. Ceux-ci peuvent causer des problèmes s'ils se retrouvent d'une manière ou d'une autre dans votre ensemble de données.
capture d'écran de la table ASCII dans Excel
Vous pouvez générer ce tableau en utilisant la fonction de caractère pour tous les nombres de 0 à 255 : =CHAR(<nombre>).
Les autres coupables courants sont les espaces qui ne devraient pas être là – espaces de début ou de fin dans une cellule. Ou simplement des espaces au milieu qui ne devraient pas être là.
Multipliez ces cellules capricieuses dans une feuille de calcul contenant des milliers ou des millions de cellules, et nous avons un sacré désordre sur les bras.
une femme agitant les mains et disant : "c'est un désordre"
Pourquoi les données ne sont-elles pas propres ?
Parce que nous vivons dans un monde imparfait.
🤓 Ce n'est pas si dramatique. Mais il peut y avoir de nombreuses raisons pour lesquelles les données ne sont pas déjà propres. Souvent, l'erreur humaine est la coupable.
Quiconque ou d'où que vous obteniez vos données a simplement fait quelques erreurs avant que vous ne les récupériez.
Ou peut-être que vous les avez abîmées en commençant à manipuler les données.
Comme nous le verrons dans l'exemple ci-dessous, les données pourraient être parfaitement correctes là où vous les obtenez sur Internet. Mais ensuite, lorsque vous les importez dans votre feuille de calcul, la conversion de HTML en feuille de calcul apporte un tas de caractères non imprimables et d'espaces.
Et, bien sûr, parce que nous traitons avec des ordinateurs, des personnes et des données, nous ne comprendrons peut-être jamais pourquoi les données que nous avons reçues ne sont pas propres. Elles ne le sont tout simplement pas. Et malgré notre confusion, nous devons les nettoyer pour les utiliser et en extraire du sens.
Obi Wan visiblement confus
Comment nettoyer les données dans Excel et Google Sheets
Commençons par obtenir quelques données. Dans Excel et Google Sheets, nous pouvons importer des données depuis le web. Je veux importer un tableau de recettes et d'ingrédients depuis un site web de jeux vidéo qui ressemble à ceci en ligne.
Voici le lien... je veux dire, voici le lien. 2694fe0f
tableau des recettes de Zelda
Pour répondre à la question évidente en premier : oui, je pourrais simplement copier et coller le tableau. Et, oui, dans ce cas, il collera le tableau directement dans Excel.
Mais il apportera également les images dont je n'ai pas besoin, les liens que je ne veux pas, certaines mises en forme que je devrai réinitialiser, et potentiellement certains des caractères non imprimables et/ou des espaces dont nous parlerons ci-dessous.
Tableau des ingrédients de recettes copié directement depuis le site web
Ci-dessus, ce à quoi il ressemblera après avoir copié et collé. Mais nous sommes intéressés par la préservation des données et leur nettoyage, nous allons donc l'importer d'une autre manière pour le reste de notre discussion.
Si vous utilisez Excel, il dispose de certaines fonctionnalités de nettoyage assez robustes dès la sortie de la boîte. Lors de l'importation de données depuis IGN, nous entrons l'adresse où elles se trouvent, et il téléchargera toutes les données qu'il détecte comme disponibles pour l'importation.
capture d'écran de l'importation de données depuis le web dans Excel
Obtenons le tableau des recettes de volaille et de viande de Zelda : Breath of the Wild.
La fenêtre du navigateur nous montre une liste pratique des tables de données détectées sur la page ainsi qu'un volet de prévisualisation à droite qui peut être basculé entre les vues de tableau et de site web.
capture d'écran de la fenêtre du navigateur d'importation de données Excel
Excel Power Query
Une fois que nous avons sélectionné nos données et chargé, nous aurons importé un tableau dans notre feuille de calcul sans problème. Les fonctionnalités de Power Query d'Excel nous permettent ensuite d'aller dans ce tableau particulier et d'extraire les valeurs de la colonne Ingrédients dans une liste d'éléments délimitée par un sélecteur de notre choix.
En d'autres termes, Excel est assez intelligent pour extraire les éléments individuels de la liste dans la colonne Ingrédients et les placer un par un dans une cellule et séparés par des virgules (ou ce que nous choisissons pour les séparer).
Les trois captures d'écran suivantes montrent ce processus :
Capture d'écran du menu Excel Power Query
Capture d'écran du délimiteur pour les valeurs développées
Capture d'écran des valeurs de liste développées dans la colonne Ingrédient
Le résultat final est une liste de valeurs séparées par des virgules qui semble assez propre. Nous pouvons ensuite la diviser en utilisant la fonction =SPLIT() dans des cellules séparées si nous le choisissons, ou simplement l'utiliser telle quelle.
C'est une situation idéale. Mais que faire si nous rencontrons ces espaces et caractères non imprimables ?
Fonctions Clean et Trim
Voici une capture d'écran du même tableau lorsqu'il est importé dans Google Sheets avec =IMPORTHTML(). Il extrait les données correctement, mais vous pouvez voir les espaces supplémentaires qui ont également été apportés dans la feuille.
Données importées depuis une page web dans Google Sheets
En utilisant =CLEAN() sur les cellules des ingrédients, nous pouvons nous débarrasser de certains retours chariot non imprimables causant les sauts de ligne.
Tableau après le nettoyage des cellules
En utilisant =TRIM() sur les cellules, nous pouvons nous débarrasser de tous les espaces de début.
Tableau après la suppression des espaces blancs
Et en imbriquant les deux avec =CLEAN(TRIM()), nous pouvons faire les deux. Le résultat est une liste de valeurs séparées par des tirets. De manière similaire à notre tableau résultant dans Excel où nous avions une liste séparée par des virgules, nous pouvons ensuite aller et =SPLIT() ces valeurs davantage si nécessaire.
Tableau après le nettoyage et la suppression des espaces en une seule fois
Ces fonctions fonctionnent de la même manière dans Excel, mais à des fins d'illustration, nous avons utilisé Google Sheets car il n'a pas pu importer les données aussi proprement.
Feuille de calcul exemple et vidéo explicative
Voici un lien vers la feuille Google Sheets exemple que j'ai créée pour ce tutoriel.
La première page est un tableau des caractères non imprimables.

Et la deuxième page est l'exemple Zelda dont nous avons parlé. N'hésitez pas à faire une copie de cette feuille de calcul si vous souhaitez l'explorer davantage (Fichier -> Faire une copie).
Nous allons construire un projet vraiment cool avec certaines de ces données Zelda bientôt...suivez-moi sur YouTube pour rester à l'affût.
Remerciements
Merci d'avoir lu, et j'espère que cela a été utile pour vous. Venez dire bonjour 👋 sur LinkedIn et YouTube, et je vous parlerai dans le prochain article !