Article original : What is Data Analytics?

Par Adam Naor

L'analyse de données est le processus d'inspection, de nettoyage, de transformation et de modélisation des données dans le but de découvrir des informations utiles.

J'ai écrit sur ces sujets dans une vue d'ensemble à 30 000 pieds dans un autre article de freeCodeCamp, et maintenant je veux aborder l'analyse de données sous un angle différent. Plus précisément, je veux vous aider à répondre à deux questions :

  1. Qu'est-ce que l'analyse de données ?
  2. Que savez-vous déjà sur l'analyse de données ? (indice : bien plus que vous ne le pensez)

Pour répondre à ces questions, nous devons d'abord articuler les éléments de base de cette discipline.

La maîtrise de l'analyse de données peut être trouvée dans trois perspectives interdépendantes qui servent de fondements à cette science : la pensée inférentielle, la pensée computationnelle et l'engagement critique avec des questions de pertinence réelle.

Permettez-moi de définir chacune :

  1. Pensée inférentielle : la capacité ou la compétence à interpréter, combiner des idées et tirer une série de conclusions à partir de certaines données.
  2. Pensée computationnelle : un ensemble de méthodes de résolution de problèmes qui impliquent d'exprimer les problèmes et leurs solutions de manière qu'un ordinateur pourrait également exécuter.
  3. Engagement critique : prendre des jugements basés sur les données (arguments, politiques, décisions, etc.).

Maintenant que vous savez ce qui représente le fondement de l'analyse de données, permettez-moi de vous donner quelques raisons pour lesquelles vous devriez être enthousiaste à l'idée de l'étudier.

Il y a une faible barrière à l'entrée

Tout d'abord, l'apprentissage de l'analyse de données nécessite de la pratique, de la patience et de l'application. Mais contrairement à de nombreux domaines académiques, la barrière à l'entrée pour commencer à apprendre et à manipuler des données est très faible.

Étant donné que les données sont partout autour de nous – et que nous en produisons constamment davantage – ces sujets peuvent facilement être maîtrisés gratuitement, à la maison et avec peu de conseils académiques formels.

Vous pouvez mesurer vos pas, votre poids ou la quantité de temps que vous passez à lire. Tous ces comportements produisent une sortie de données que vous pouvez mesurer et tester.

Les données vous donnent des informations sur le comportement humain

Deuxièmement, les données déverrouillent des signaux à partir du bruit. Cela signifie que les données peuvent vous aider à voir de nouvelles vérités, à comprendre des sujets à un niveau plus profond et à expliquer le « pourquoi » derrière le comportement humain.

Presque toutes les décisions de la vie nécessitent des entrées de données et une analyse. Des concepts apparemment non mathématiques – comme peser le pour et le contre de l'endroit où travailler ou comment investir votre temps – sont en fait des problèmes d'analyse de données. Plus sur cela plus tard.

Vous connaissez déjà les fondamentaux de la science des données

Si ces deux arguments ne vous ont pas convaincu, en voici un troisième : vous êtes déjà bon en analyse de données.

Oui, vous avez bien lu.

Vous n'êtes peut-être pas excellent en analyse de données au sens académique, mais vous comprenez très bien les fondements déjà.

Vous ne me croyez pas ? Répondez rapidement à ces questions :

  1. Traversez-vous une rue animée sans regarder ?
  2. Pensez-vous que l'apprentissage est important ?
  3. Êtes-vous plus grand que la personne moyenne dans votre ville natale ?

Au cœur de ces questions, on pèse les valeurs futures et on attribue des probabilités à des résultats inconnus. Sans l'analyse de données, nous serions paralysés dans notre processus de prise de décision.

Ces questions semblent sans rapport.

Mais en réalité, les données et une compréhension de l'analyse de données sous-tendent chaque réponse.

Et les réponses sont évidentes ! Bien sûr, vous vérifiez le trafic avant de traverser une rue parce que vous savez que le risque d'être potentiellement heurté par une voiture, bien que faible, est plus grand que les coûts de tourner la tête pour vérifier.

L'analyse coût-bénéfice est une mesure de rendement en termes de risque pour une période spécifique. Le ratio risque-rendement est un concept central de l'analyse de données.

Examinons maintenant la deuxième question. Pourquoi devrait-on se soucier de l'apprentissage ? Vous vous souciez de l'apprentissage parce que vous croyez que la valeur des connaissances que vous acquérez vous sera utile dans un état futur.

Vous attribuez des probabilités à ces états futurs. Vous ne savez pas quand ni dans quelle mesure l'apprentissage vous aidera, mais vous croyez que la valeur future de cet apprentissage est plus grande que la valeur présente de ne pas l'apprendre. En d'autres termes, vous avez une hypothèse et vous la testez.

Examinons la troisième question.

La taille est une variable continue car entre la personne la plus petite et la plus grande du monde, la démarcation des tailles qu'une personne peut avoir est théoriquement infinie.

Alors, êtes-vous plus grand que la personne moyenne d'où vous venez ? Pour répondre à cela, vous devez connaître approximativement la taille moyenne des personnes dans votre ville et votre taille en comparaison.

Sauf si votre ville natale est très petite, vous devrez effectuer un échantillonnage. Peut-être penserez-vous à votre famille, vos amis et vos camarades de classe du lycée et ferez une inférence à partir de cette population (mais méfiez-vous du biais d'échantillonnage !). Peut-être savez-vous intuitivement où vous vous situez sur le spectre de la taille et répondrez à partir de là.

Ce que vous avez fait dans votre tête – comprendre une population, faire des inférences sur un échantillon, comparer des moyennes – ce sont des éléments de base de l'analyse de données.

La science des données en pratique

Ce qui est important à communiquer, c'est que même sans vous en rendre compte, ces trois questions ont déclenché les fondements de l'analyse de données appliquée.

Vous avez dû comprendre les distributions et l'échantillonnage aléatoire, les propriétés de plusieurs statistiques (médiane, moyenne, maximum, variation), tester une hypothèse, estimer et prédire des modèles, corrélation, régression et classification.

Comment vous êtes-vous senti ? Espérons que vous avez trouvé les questions amusantes et légères.

Tout cours d'analyse de données commence par aider les étudiants à acquérir une solide compréhension des concepts statistiques classiques : la théorie des probabilités, par exemple les compléments et les règles de multiplication et les permutations ainsi que les distributions de données (catégorielles et numériques) et de probabilités.

De plus, un étudiant en analyse de données apprendra la loi des moyennes, la variabilité de l'échantillonnage, les tests de permutation et la règle de Bayes, qui décrit la probabilité d'un événement, basée sur des connaissances antérieures de conditions qui pourraient être liées à l'événement.

Même si vous ne connaissez pas encore tous ces sujets, votre intuition est un guide solide qui peut vous aider à aborder et à maîtriser ce contenu.

Vos connaissances quotidiennes de la vie – comme pourquoi vous valorisez l'apprentissage et comment traverser une rue en toute sécurité – peuvent informer votre engagement plus profond dans ces sujets.

L'analyse de données et le monde réel

Les données sont partout. Les constructeurs, les designers, les gouvernements, les ingénieurs et les entreprises accélèrent leur capture et leur analyse de données.

Vous devriez en faire de même.

Voici un éventail diversifié d'organisations faisant un travail intéressant avec les données pour façonner la manière dont les consommateurs et les utilisateurs interagissent avec leurs produits.

  1. RaleighDigital utilise des ensembles de données de population catégoriels pour informer leurs clients sur l'optimisation des moteurs de recherche. Si vous vous souciez de la manière dont Google priorise les sites web, vous devez comprendre le PageRank, qui est un calcul statistique qui évalue les sites web en fonction de la qualité et de la quantité de liens vers une page web.
  2. Carlypso utilise des données d'échantillonnage et la loi des moyennes pour recommander des produits. Ils parcourent des centaines d'exemples, trouvent des moyennes et fournissent des conseils basés sur des plages.
  3. Vous êtes-vous déjà demandé comment l'eau est filtrée et nettoyée ? Pool CleanerIO s'appuie sur des rapports d'échantillonnage d'eau pour recommander des produits.
  4. Nous ne pouvons pas tous frapper une balle de golf comme un joueur du circuit de la Professional Golfers' Association (PGA). Mais pensez-vous qu'il est préférable de faire deux petits putts ou un plus long ? La PGA utilise désormais des données de putting pour aider les joueurs à améliorer leur prise de décision lorsqu'ils sont près du trou. Plusieurs entreprises suivent cet exemple, comme GolfingInformer.com, qui utilise des tests de permutation pour conseiller les utilisateurs sur leurs swings de golf.
  5. William Pitt, une société immobilière, utilise des dizaines de variables non traditionnelles pour recommander des maisons. Ces variables incluent le nombre de permis délivrés pour construire des piscines, le changement du nombre de cafés dans un rayon d'un mile (1,6 km) et la consommation d'énergie des bâtiments par rapport à d'autres structures dans le même code postal. En prenant en considération ces variables non traditionnelles, Pitt peut être plus prescriptif et mieux aider les gens à identifier les quartiers et les maisons qu'ils souhaitent évaluer pour un achat.
  6. Les musiciens peuvent désormais apprendre combien de personnes écoutent différents genres de musique, quand elles ont entendu une chanson particulière et combien de temps elles ont écouté chaque piste. Cela donne des données en temps réel aux musiciens qui peuvent façonner les décisions sur la manière – et à qui – les chansons sont commercialisées, en utilisant les préférences des auditeurs.

Cette liste est éclectique – et va de la technologie aux sports en passant par l'immobilier et les arts musicaux – car je veux que vous soyez inspiré par l'ampleur des applications et des services qui s'appuient sur les données pour améliorer les expériences utilisateur.

Tout mettre ensemble

L'analyse de données est un sujet que vous êtes déjà bien en train de comprendre.

Oui, vous devrez apprendre le vocabulaire spécifique du domaine et pratiquer sur des ensembles de données. Mais en réfléchissant de manière intuitive sur le risque, le rendement, les nombres et la modélisation des données, vous êtes sur la bonne voie.

Si vous voulez construire du matériel, des logiciels, des produits innovants pour aider les animaux à réduire l'anxiété, une agence de design web, le prochain moteur de recherche, votre propre entreprise, des départements gouvernementaux ou des organisations à but non lucratif, vous bénéficierez d'une familiarité avec les données.

L'analyse de données vous aide à découvrir des informations utiles. Les informations peuvent vous aider à prendre de bonnes décisions, à éviter les pièges et à maximiser ce que vous faites. Si pour aucune autre raison, cela rend l'analyse de données digne de votre temps.