Article original : Population vs Sample – Statistics Example
Lorsque vous travaillez avec des ensembles de données et que vous effectuez une analyse statistique, vous devez vous assurer que l'ensemble de données que vous utilisez est pertinent, valide et correct.
Les données appropriées vous aideront à vous assurer que vous avez un résultat correct et à parvenir à une conclusion et une solution efficaces qui résolvent le problème en question.
C'est pourquoi il est nécessaire de connaître la différence entre les ensembles de données de population et les ensembles de données d'échantillon et de savoir si les données avec lesquelles vous travaillez font partie d'un ensemble de données de population ou d'un ensemble de données d'échantillon.
Dans ce guide concis, vous apprendrez les différences entre ces deux termes statistiques populaires.
Commençons !
Qu'est-ce qu'une Population en Statistiques ? Définition de la Population
Une population est une collection qui comprend toutes les valeurs de données et tous les éléments possibles dans le domaine d'étude.
Une population fait référence au nombre total d'éléments ou à l'ensemble du groupe de personnes qui intéressent l'étude statistique.
Essentiellement, elle constitue l'ensemble du pool de l'étude.
Un exemple d'ensemble de population est le nombre de toutes les personnes vivant dans un pays, comme le nombre total de personnes vivant aux États-Unis – c'est-à-dire, la population entière des États-Unis.
Un autre exemple de travail avec un ensemble de population pourrait être l'analyse de tous les étudiants d'une université – cela représente le nombre total d'étudiants étudiant à l'Université.
La quantité qui décrit le résultat de la mesure de l'ensemble de la population est appelée un paramètre. Un paramètre est un nombre qui fait référence à l'ensemble de la population.
Quelle Méthode Devez-Vous Utiliser pour Collecter des Données à partir d'une Population ?
Vous pouvez choisir de collecter des données à partir d'une population lorsque vous devez travailler avec une grande quantité de données.
Une façon de collecter des données à partir de l'ensemble d'une population est de mener un recensement.
Prenons l'exemple du recensement des États-Unis. C'est une procédure qui a lieu au moins une fois tous les dix ans.
Il compte chaque personne vivant aux États-Unis et mène une enquête qui collecte des données auprès de tous les individus et de chaque membre qui constitue la population.
Les Données de Population sont-elles Précises ?
Collecter des données à partir d'une population n'est pas la méthode la plus efficace pour collecter des données.
Les populations sont souvent difficiles à définir et à observer, ce qui introduira inévitablement un biais dans l'étude et risque de fausser les résultats et de conduire à des conclusions peu fiables.
Il y a plusieurs raisons pour lesquelles c'est le cas :
- Le pool d'étude est souvent trop grand.
- Il peut y avoir des contraintes géographiques.
- Il peut y avoir des contraintes de temps.
- Il peut y avoir des contraintes de ressources.
- Il peut y avoir des contraintes d'accessibilité.
- Il est probable qu'il y ait des valeurs de données manquantes.
Au lieu de cela, vous pouvez choisir de collecter des données à partir d'une population lorsque la taille de la population est relativement petite. Vous pouvez également recueillir des informations sur les éléments/personnes qui constituent la population lorsqu'elle est facilement accessible, ou lorsque vous pouvez mesurer les éléments ou contacter chaque membre de la population.
Qu'est-ce qu'un Échantillon en Statistiques ? Définition de l'Échantillon
Un échantillon est un sous-ensemble et une petite portion de la population – une petite partie de toutes les valeurs de données possibles qui font partie du domaine d'étude spécifié.
La taille de l'ensemble de données de l'échantillon sera toujours plus petite que celle de la population.
Travailler avec des données d'échantillon est utile lorsque la population est trop grande et peu fiable.
Par exemple, la population pourrait être de taille inconnue, ou même non mesurable ou infinie.
C'est la méthode préférée de collecte de données lorsque les données dont vous avez besoin sont trop difficiles à recueillir. C'est un moyen d'obtenir des informations sur la population sans avoir besoin d'accéder à chaque personne ou élément de cette population.
Le nombre qui fait référence au résultat de la mesure à partir d'un ensemble de données d'échantillon est appelé une statistique. Une statistique décrit un échantillon d'une population.
Quelles sont les Caractéristiques Définissantes d'un Bon Échantillon ?
Un échantillon doit représenter avec précision l'ensemble de la population.
L'une des autres caractéristiques les plus importantes des données d'échantillon est qu'elles doivent être aléatoires et choisies sans biais.
Les insights et les données doivent être collectés de manière aléatoire, ce qui signifie que chaque élément ou membre d'une population a les mêmes chances et la même probabilité d'être sélectionné.
Ces deux critères réduisent le biais et garantissent que les résultats sont valides.
Comment les Données sont-elles Collectées à partir d'un Échantillon ?
Le processus de collecte de données à partir d'un petit sous-ensemble de la population est connu sous le nom d'échantillonnage.
L'échantillonnage est utile lorsqu'il est difficile de collecter toutes les données nécessaires à partir de la population.
L'échantillonnage représente l'ensemble de la population car il généralise et reflète les individus qui en font partie.
Recueillir toutes les informations nécessaires et contacter les membres d'intérêt est plus facile, moins chronophage et moins coûteux.
Une façon de collecter des données à partir d'un échantillon est de mener un sondage, ce qui se produit pendant une période électorale.
Les sondages sont un outil utile pour évaluer les préférences des électeurs et le soutien aux partis participant à l'élection.
Il est impossible de rassembler tous les électeurs inscrits dans le pays et de leur demander qui ils préfèrent voir gagner l'élection, car ils pourraient être des millions.
Au lieu de cela, il est préférable de recueillir plusieurs milliers de réponses provenant de différentes sections de la population, comme de diverses villes et régions et de lieux non liés au sein de ces villes et régions.
Cette sélection doit être aléatoire, et les personnes doivent être choisies par hasard. Idéalement, cela signifie que tout le monde devrait avoir les mêmes chances d'être sélectionné pour le sondage.
Qu'est-ce que le Biais d'Échantillonnage et Comment l'Éviter
Comme mentionné précédemment, un échantillon doit représenter et refléter avec précision l'ensemble de la population dont il est issu.
Pour que l'échantillon soit représentatif, il doit être recueilli de manière aléatoire. Sinon, le résultat de l'analyse sera probablement sujet à un biais ou à ce que l'on appelle autrement le biais d'échantillonnage.
Le biais d'échantillonnage se produit lorsque les méthodes utilisées pour collecter l'échantillon encouragent un préjugé systémique.
Les méthodes sont soit en faveur, soit contre un individu ou un groupe, ce qui faussera inévitablement le résultat de l'analyse. Les membres de la population spécifique ne sont pas sélectionnés correctement, ce qui signifie qu'ils ont soit une chance plus élevée, soit une chance plus faible d'être sélectionnés.
Essentiellement, l'échantillon est collecté de manière à favoriser injustement certains membres de la population par rapport à d'autres.
Par exemple, une enquête qui interroge les étudiants au café de l'Université concernant leur expérience universitaire exclut divers groupes d'étudiants.
Elle exclut :
- Les étudiants qui suivent des cours à distance et étudient de chez eux.
- Les étudiants qui peuvent étudier à temps partiel et travailler au moment où l'enquête a eu lieu.
- Les étudiants en programme d'échange dans un autre pays.
- Les étudiants en classe suivant un cours.
Premièrement, cette méthode n'est pas aléatoire. Deuxièmement, elle est sujette au biais d'échantillonnage car elle est limitative et favorise uniquement la section des étudiants qui ont pu être présents dans le café pendant les heures du matin et n'est donc pas représentative.
Ces étudiants peuvent avoir des caractéristiques spécifiques et ne reflètent probablement pas l'ensemble de la population des étudiants de l'Université.
Prenons un autre exemple.
Supposons qu'un sondage est mené pendant une période électorale pour découvrir quel candidat est le plus favorable au public.
Si les membres sondés sont uniquement des travailleurs en col blanc, les résultats seront inexacts car ils ne décrivent pas avec précision l'ensemble de la population.
La population comprend également des travailleurs en col bleu et des personnes qui peuvent travailler plus d'un emploi au salaire minimum pour joindre les deux bouts. Les préférences pour le candidat différeront probablement d'un groupe à l'autre.
Dans ce cas, le biais est important car le sondage n'est pas diversifié – il ne reflète qu'une seule section de la population.
Une façon de réduire le risque de biais d'échantillonnage est l'échantillonnage aléatoire stratifié.
L'échantillonnage aléatoire stratifié implique de définir avec précision la population d'intérêt, les caractéristiques qu'elle doit avoir et la manière dont vous souhaitez la diviser.
Il implique également de choisir votre taille d'échantillon, puis de diviser l'échantillon en sous-groupes plus petits, précis et homogènes qui correspondent aux critères pertinents que vous avez définis, tout en veillant à ce que la population et l'échantillon correspondent.
L'échantillonnage aléatoire stratifié conduit à un échantillon plus représentatif.
Conclusion
Et voilà ! Vous avez maintenant une compréhension de haut niveau des différences entre deux termes statistiques largement utilisés – population et échantillon.
Pour en savoir plus sur les statistiques, consultez ce cours gratuit de 8 heures de freeCodeCamp.
Merci d'avoir lu !