Article original : These Are The Best Free Open Data Sources Anyone Can Use
Par Hiren Patel
Qu'est-ce que les données ouvertes ?
En termes simples, les données ouvertes désignent le type de données qui est ouvert à tous pour l'accès, la modification, la réutilisation et le partage.
Les données ouvertes tirent leur base de divers "mouvements ouverts" tels que l'open source, le matériel ouvert, le gouvernement ouvert, la science ouverte, etc.
Les gouvernements, les organisations indépendantes et les agences se sont engagés à ouvrir les vannes des données pour créer de plus en plus de données ouvertes, gratuites et facilement accessibles.
Pourquoi les données ouvertes sont-elles importantes ?
Les données ouvertes sont importantes car le monde est devenu de plus en plus axé sur les données. Mais si des restrictions existent sur l'accès et l'utilisation des données, l'idée d'une gouvernance et d'une entreprise basées sur les données ne se concrétisera pas.
Par conséquent, les données ouvertes ont leur propre place unique. Elles peuvent permettre une compréhension plus complète des problèmes mondiaux et des questions universelles. Elles peuvent donner un grand coup de pouce aux entreprises. Elles peuvent être un grand stimulant pour l'apprentissage automatique. Elles peuvent aider à lutter contre les problèmes mondiaux tels que les maladies, la criminalité ou la famine. Les données ouvertes peuvent autonomiser les citoyens et ainsi renforcer la démocratie. Elles peuvent rationaliser les processus et les systèmes que la société et les gouvernements ont construits. Elles peuvent aider à transformer la manière dont nous comprenons et interagissons avec le monde.
Voici donc ma liste de 15 sources de données ouvertes exceptionnelles :
1. Données ouvertes de la Banque mondiale
En tant que dépôt des données les plus complètes au monde concernant ce qui se passe dans différents pays à travers le monde, les données ouvertes de la Banque mondiale sont une source vitale de données ouvertes. Elles fournissent également l'accès à d'autres ensembles de données mentionnés dans le catalogue de données.
Les données ouvertes de la Banque mondiale sont massives car elles contiennent 3000 ensembles de données et 14000 indicateurs englobant des microdonnées, des statistiques de séries chronologiques et des données géospatiales.
L'accès et la découverte des données que vous souhaitez sont également assez faciles. Tout ce que vous avez à faire est de spécifier les noms des indicateurs, les pays ou les sujets, et cela ouvrira le trésor des données ouvertes pour vous. Elles permettent également de télécharger des données dans différents formats tels que CSV, Excel et XML.
Si vous êtes journaliste ou académicien, vous serez enthousiasmé par la gamme d'outils disponibles pour vous. Vous pouvez accéder à des outils d'analyse et de visualisation qui peuvent renforcer vos recherches. Ils peuvent faciliter une compréhension plus profonde et meilleure des problèmes mondiaux.
Vous pouvez accéder à l'API qui peut vous aider à créer les visualisations de données dont vous avez besoin, des combinaisons en direct avec d'autres sources de données et bien d'autres fonctionnalités.
Par conséquent, il n'est pas surprenant que les données ouvertes de la Banque mondiale soient en tête de toute liste de sources de données ouvertes !
2. OMS (Organisation mondiale de la santé) — Dépôt de données ouvertes
Le dépôt de données ouvertes de l'OMS est la manière dont l'OMS suit les statistiques spécifiques à la santé de ses 194 États membres.
Le dépôt conserve les données organisées de manière systématique. Elles peuvent être accessibles selon différents besoins. Par exemple, qu'il s'agisse de la mortalité ou du fardeau des maladies, on peut accéder à des données classées dans 100 catégories ou plus, telles que les Objectifs de développement du millénaire (nutrition infantile, santé infantile, santé maternelle et reproductive, immunisation, VIH/sida, tuberculose, paludisme, maladies négligées, eau et assainissement), maladies non transmissibles et facteurs de risque, maladies à potentiel épidémique, systèmes de santé, santé environnementale, violence et blessures, équité, etc.
Pour vos besoins spécifiques, vous pouvez parcourir les ensembles de données selon les thèmes, la catégorie, l'indicateur et le pays.
Le bon point est qu'il est possible de télécharger les données dont vous avez besoin au format Excel. Vous pouvez également surveiller et analyser les données en utilisant son portail de données.
L'API vers le contenu des données et statistiques de l'Organisation mondiale de la santé est également disponible.
3. Google Public Data Explorer
Lancé en 2010, Google Public Data Explorer peut vous aider à explorer de vastes quantités d'ensembles de données d'intérêt public. Vous pouvez visualiser et communiquer les données pour vos utilisations respectives.
Il rend les données de différentes agences et sources disponibles. Par exemple, vous pouvez accéder aux données de la Banque mondiale, du Bureau américain des statistiques du travail et du Bureau américain, de l'OCDE, du FMI, et d'autres.
Différentes parties prenantes accèdent à ces données pour diverses raisons. Que vous soyez étudiant ou journaliste, que vous soyez décideur politique ou académicien, vous pouvez utiliser cet outil afin de créer des visualisations de données publiques.
Vous pouvez déployer diverses méthodes de représentation des données telles que des graphiques linéaires, des graphiques à barres, des cartes et des graphiques à bulles avec l'aide de Data Explorer.
Le meilleur aspect est que vous trouverez ces visualisations assez dynamiques. Cela signifie que vous les verrez changer au fil du temps. Vous pouvez changer de sujets, vous concentrer sur différentes entrées et modifier l'échelle.
C'est également facilement partageable. Dès que vous avez le graphique prêt, vous pouvez l'intégrer sur votre site web ou blog ou simplement partager un lien avec vos amis.
4. Registre des données ouvertes sur AWS (RODA)
Il s'agit d'un dépôt contenant des ensembles de données publics. Ce sont des données disponibles à partir des ressources AWS.
En ce qui concerne RODA, vous pouvez découvrir et partager les données qui sont publiquement disponibles.
Dans RODA, vous pouvez utiliser des mots-clés et des tags pour des types de données courants tels que les données génomiques, les images satellites et les transports afin de rechercher les données que vous cherchez. Tout cela est possible sur une interface web simple.
Pour chaque ensemble de données, vous découvrirez une page de détails, des exemples d'utilisation, des informations sur la licence et des tutoriels ou applications qui utilisent ces données.
En utilisant une large gamme de produits d'analyse de données et de calcul, vous pouvez analyser les données ouvertes et construire les services que vous souhaitez.
Bien que les données auxquelles vous accédez soient disponibles via les ressources AWS, vous devez garder à l'esprit qu'elles ne sont pas fournies par AWS. Ces données appartiennent à différentes agences, organisations gouvernementales, chercheurs, entreprises et particuliers.
5. Portail des données ouvertes de l'Union européenne
Vous pouvez accéder à toutes les données ouvertes que les institutions, agences et autres organisations de l'UE publient sur une seule plateforme, à savoir le Portail des données ouvertes de l'Union européenne.
Le Portail des données ouvertes de l'UE abrite des données ouvertes vitales concernant les domaines politiques de l'UE. Ces domaines politiques incluent l'économie, l'emploi, la science, l'environnement et l'éducation.
Environ 70 institutions, organisations ou départements de l'UE, tels qu'Eurostat, l'Agence européenne pour l'environnement, le Centre commun de recherche et d'autres directions générales de la Commission européenne et agences de l'UE, ont rendu leurs ensembles de données publics et ont permis l'accès. Ces ensembles de données ont dépassé le nombre de 11 700 à ce jour.
Le portail permet un accès facile. Vous pouvez facilement rechercher, explorer, lier, télécharger et réutiliser les données via un catalogue de métadonnées communes. Vous pouvez le faire pour vos besoins spécifiques. Cela peut être à des fins commerciales ou non commerciales.
Vous pouvez rechercher le catalogue de métadonnées via un moteur de recherche interactif (onglet Données) et des requêtes SPARQL (onglet Données liées).
En utilisant ce catalogue, vous pouvez accéder aux données stockées sur les différents sites web des institutions, agences et organisations de l'UE.
6. FiveThirtyEight
C'est un excellent site pour le journalisme et le storytelling basés sur les données.
Il fournit diverses sources de données pour une variété de secteurs tels que la politique, le sport, la science, l'économie, etc. Vous pouvez également télécharger les données.
Lorsque vous accédez aux données, vous trouverez une brève explication concernant chaque ensemble de données en ce qui concerne sa source. Vous saurez également ce qu'il représente et comment l'utiliser.
Afin de rendre ces données conviviales, elles sont fournies dans des formats aussi simples et non propriétaires que possible, tels que des fichiers CSV. Il va sans dire que ces formats peuvent être facilement accessibles et traités par les humains ainsi que par les machines.
Avec l'aide de ces ensembles de données, vous pouvez créer des histoires et des visualisations selon vos propres exigences et préférences.
7. Bureau du recensement des États-Unis
Le Bureau du recensement des États-Unis est la plus grande agence statistique du gouvernement fédéral. Il stocke et fournit des faits et des données fiables concernant les personnes, les lieux et l'économie de l'Amérique.
Le Bureau du recensement considère sa noble mission d'étendre ses services en tant que fournisseur le plus fiable de données de qualité.
Qu'il s'agisse d'un gouvernement fédéral, étatique, local ou tribal, tous utilisent les données du recensement pour diverses raisons. Ces gouvernements utilisent ces données pour déterminer l'emplacement des nouveaux logements et des installations publiques. Ils les utilisent également au moment d'examiner les caractéristiques démographiques des communautés, des États et des États-Unis.
Ces données sont également utilisées dans la planification des systèmes de transport et des routes. Lorsqu'il s'agit de décider des quotas et de créer des commissariats de police et des casernes de pompiers, ces données sont utiles. Lorsque les gouvernements créent des zones localisées pour les élections, les écoles, les services publics, etc., ils utilisent ces données. Il est courant de compiler les informations sur la population une fois par décennie, et ces données sont très utiles pour accomplir cette tâche.
Il existe divers outils tels que American Fact Finder, Census Data Explorer et Quick Facts qui sont utiles si vous souhaitez rechercher, personnaliser et visualiser des données.
Par exemple, Quick Facts contient à lui seul des statistiques pour tous les États, comtés, villes et même les villes d'une population de 5 000 habitants ou plus.
De même, American Fact Finder peut vous aider à découvrir des faits populaires tels que la population, le revenu, etc. Il fournit des informations qui sont fréquemment demandées.
Le bon point est que vous pouvez rechercher, interagir avec les données, connaître les statistiques populaires et voir les graphiques associés via Census Data Explorer. De plus, vous pouvez également utiliser l'outil visuel pour personnaliser les données sur une expérience de cartes interactives.
8. Data.gov
Data.gov est le trésor des données ouvertes du gouvernement américain. Ce n'est que récemment que la décision a été prise de rendre toutes les données gouvernementales disponibles gratuitement.
Lors de son lancement, il n'y avait que 47 ensembles de données. Il y en a maintenant 180 000.
Pourquoi Data.gov est une grande ressource, c'est parce que vous pouvez trouver des données, des outils et des ressources que vous pouvez déployer pour diverses raisons. Vous pouvez mener vos recherches, développer vos applications web et mobiles et même concevoir des visualisations de données.
Tout ce que vous avez à faire est d'entrer des mots-clés dans la boîte de recherche et de parcourir les types, les tags, les formats, les groupes, les types d'organisations, les organisations et les catégories. Cela facilitera l'accès aux données ou aux ensembles de données dont vous avez besoin.
Data.gov suit le schéma Project Open Data — un ensemble de champs requis (Titre, Description, Tags, Dernière mise à jour, Éditeur, Nom du contact, etc.) pour chaque ensemble de données affiché sur Data.gov.
9. DBpedia
Comme vous le savez, Wikipedia est une grande source d'informations. DBpedia vise à obtenir un contenu structuré à partir des informations précieuses créées par Wikipedia.
Avec DBpedia, vous pouvez rechercher et explorer sémantiquement les relations et les propriétés des ressources Wikipedia. Cela inclut également les liens vers d'autres ensembles de données connexes.
Il y a environ 4,58 millions d'entités dans l'ensemble de données DBpedia. 4,22 millions sont classées dans l'ontologie, y compris 1 445 000 personnes, 735 000 lieux, 123 000 albums musicaux, 87 000 films, 19 000 jeux vidéo, 241 000 organisations, 251 000 espèces et 6 000 maladies.
Il y a des étiquettes et des résumés pour ces entités dans environ 125 langues. Il y a 25,2 millions de liens vers des images. Il y a 29,8 millions de liens vers des pages web externes.
Tout ce que vous avez à faire pour utiliser DBpedia est d'écrire des requêtes SPARQL contre un point de terminaison ou en téléchargeant leurs dumps.
DBpedia a bénéficié à plusieurs entreprises, telles qu'Apple (via Siri), Google (via Freebase et Google Knowledge Graph), et IBM (via Watson), et particulièrement leurs projets prestigieux respectifs associés à l'intelligence artificielle.
10. Données ouvertes de freeCodeCamp
C'est une communauté open source. Pourquoi cela compte, c'est parce qu'elle vous permet de coder, de construire des projets pro bono pour des organisations à but non lucratif et de décrocher un emploi en tant que développeur.
Pour que cela se produise, la communauté freeCodeCamp.org met à disposition d'énormes quantités de données chaque mois. Ils les ont transformées en données ouvertes.
Vous trouverez une variété de choses dans ce dépôt. Vous pouvez trouver des ensembles de données, des analyses de ceux-ci et même des démonstrations de projets basés sur les données de freeCodeCamp. Vous pouvez également trouver des liens vers des projets externes impliquant les données de freeCodeCamp.
Cela peut vous aider avec une diversité de projets et de tâches que vous pourriez avoir en tête. Qu'il s'agisse d'analyses web, d'analyses des médias sociaux, d'analyses de réseaux sociaux, d'analyses éducatives, de visualisation de données, de développement web basé sur les données ou de bots, les données offertes par cette communauté peuvent être extrêmement utiles et efficaces.
11. Ensembles de données ouverts de Yelp
L'ensemble de données de Yelp est essentiellement un sous-ensemble de nos propres entreprises, avis et données utilisateur à utiliser dans des poursuites personnelles, éducatives et académiques.
Il y a 5 996 996 avis, 188 593 entreprises, 280 991 images et 10 zones métropolitaines inclus dans les ensembles de données ouverts de Yelp.
Vous pouvez les utiliser pour différentes raisons. Puisqu'ils sont disponibles sous forme de fichiers JSON, vous pouvez les utiliser pour enseigner aux étudiants les bases de données. Vous pouvez les utiliser pour apprendre le TAL ou pour des données de production d'échantillons tout en comprenant comment concevoir des applications mobiles.
Dans cet ensemble de données, vous trouverez chaque fichier composé d'un seul type d'objet, un objet JSON par ligne.
12. Ensemble de données de l'UNICEF
Puisque l'UNICEF s'occupe d'une grande variété de questions critiques, elle a compilé des données pertinentes sur l'éducation, le travail des enfants, le handicap des enfants, la mortalité infantile, la mortalité maternelle, l'eau et l'assainissement, le faible poids à la naissance, les soins prénatals, la pneumonie, le paludisme, les troubles dus à une carence en iode, les mutilations/coupures génitales féminines et les adolescents.
Les ensembles de données ouverts de l'UNICEF publiés sur le registre IATI : http://www.iatiregistry.org/publisher/unicef ont été extraits directement du système d'exploitation de l'UNICEF (VISION) et d'autres systèmes de données, et ils reflètent les contributions faites par les bureaux individuels de l'UNICEF.
Le bon point est qu'il y a une mise à jour régulière en ce qui concerne ces ensembles de données. Chaque mois, les données sont mises à jour afin de les rendre plus complètes, fiables et précises.
Vous pouvez accéder librement et facilement à ces données. Pour ce faire, vous pouvez télécharger ces données au format CSV. Vous pouvez également prévisualiser des données d'échantillon avant de les télécharger.
Bien que tout le monde puisse explorer et visualiser les ensembles de données de l'UNICEF, il y a trois principaux éditeurs :
PORTAIL DE TRANSPARENCE DE L'AIDE DE L'UNICEF : Vous pouvez accéder beaucoup plus facilement aux ensembles de données si vous utilisez ce portail. Il inclut également des détails pour chaque pays dans lequel l'UNICEF travaille.
Éditeur d-portal : Il est, pour le moment, en BETA. Avec ce portail, vous pouvez explorer les données IATI.
Vous pouvez rechercher les informations liées aux activités de développement, aux budgets, etc. Vous pouvez explorer ces informations pays par pays.
Plateforme de données de l'éditeur : Sur cette plateforme, vous pouvez facilement accéder aux statistiques, aux graphiques et aux métriques sur les données accessibles via le registre IATI. Si vous cliquez sur les en-têtes, vous pouvez également trier de nombreuses tables que vous voyez sur la plateforme. Vous trouverez également de nombreux ensembles de données sur les plateformes au format JSON lisible par machine.
13. Kaggle
Kaggle est génial car il promeut l'utilisation de différents formats de publication de jeux de données. Cependant, la meilleure partie est qu'il recommande fortement aux éditeurs de jeux de données de partager leurs données dans un format accessible et non propriétaire.
La plateforme prend en charge les formats de données ouverts et accessibles. C'est important non seulement pour l'accès, mais aussi pour tout ce que vous voulez faire avec ces données. Par conséquent, Kaggle Dataset définit clairement les formats de fichiers qui sont recommandés lors du partage de données.
L'aspect unique des jeux de données Kaggle est qu'il ne s'agit pas seulement d'un dépôt de données. Chaque jeu de données représente une communauté qui vous permet de discuter des données, de trouver des codes et des techniques publics, et de conceptualiser vos propres projets dans Kernels.
CSV, JSON, SQLite, Archive, Big Query, etc. sont des types de fichiers que Kaggle prend en charge. Vous pouvez trouver une variété de ressources pour commencer à travailler sur votre projet de données ouvertes.
La meilleure partie est que Kaggle vous permet de publier et de partager des jeux de données de manière privée ou publique.
14. LODUM
C'est l'initiative de données ouvertes de l'Université de Münster. Dans le cadre de cette initiative, il est possible pour quiconque d'accéder à toute information publique concernant l'université dans des formats lisibles par machine. Vous pouvez facilement y accéder et les réutiliser selon vos besoins.
Les données ouvertes sur les artefacts scientifiques et encodées en tant que données liées sont mises à disposition dans le cadre de ce projet.
Avec l'aide des données liées, il est possible de partager et d'utiliser des données, des ontologies et diverses normes de métadonnées. Il est, en fait, envisagé qu'il deviendra la norme acceptée pour fournir des métadonnées, et les données elles-mêmes sur le Web.
L'équipe LODUM a co-initié LinkedUniversities.org et LinkedScience.org.
Vous pouvez utiliser l'éditeur SPARQL ou le package SPARQL de R pour analyser les données.
Le package SPARQL permet de se connecter à un point de terminaison SPARQL via HTTP, de poser une requête SELECT ou une requête de mise à jour (LOAD, INSERT, DELETE).
15. Dépôt d'apprentissage automatique de l'UCI
Il sert de dépôt complet de bases de données, de théories de domaine et de générateurs de données qui sont utilisés par la communauté de l'apprentissage automatique pour l'analyse empirique des algorithmes d'apprentissage automatique.
Dans ce dépôt, il y a, à l'heure actuelle, 463 ensembles de données en tant que service à la communauté de l'apprentissage automatique.
Le Centre pour l'apprentissage automatique et les systèmes intelligents de l'Université de Californie, Irvine, l'héberge et le maintient. David Aha l'avait initialement créé en tant qu'étudiant diplômé à l'UCI.
Depuis lors, des étudiants, des éducateurs et des chercheurs du monde entier l'utilisent comme source fiable d'ensembles de données d'apprentissage automatique.
Son fonctionnement est le suivant : chaque ensemble de données a sa propre page web qui répertorie tous les détails connus, y compris les publications pertinentes qui l'étudient. Vous pouvez télécharger ces ensembles de données sous forme de fichiers ASCII, souvent au format CSV utile.
Les détails des ensembles de données sont résumés par des aspects tels que les types d'attributs, le nombre d'instances, le nombre d'attributs et l'année de publication, qui peuvent être triés et recherchés.
Portails et moteurs de recherche de données ouvertes :
Bien que de nombreux ensembles de données soient publiés par de nombreuses agences chaque année, très peu deviennent reconnus et établis.
La raison pour laquelle très peu de ces ensembles de données subsistent en tant que ressource utile est qu'il est difficile de développer, de gérer et de fournir les données de manière à ce que les personnes et les organisations les trouvent utiles et faciles à utiliser.
Cependant, veuillez trouver ci-dessous une liste de quelques autres portails et plateformes de données ouvertes importants qui permettent aux utilisateurs d'accéder facilement aux données ouvertes, d'étudier l'impact et d'en tirer des informations précieuses.
- Recherche de jeux de données Google
- Dataverse
- Open Data Kit
- Ckan
- Open Data Monitor
- Plenar.io
- Carte d'impact des données ouvertes
Conclusion
Les données ouvertes sont à l'ordre du jour. Le monde a progressivement commencé à évoluer vers des systèmes ouverts et les données ouvertes sont en phase avec cela.
Les entreprises et les organisations qui exploitent les données ouvertes obtiendront un avantage concurrentiel et seront en mesure de dominer l'avenir.