26 fantastische offene Datensätze für Ihre Data Science/ML-Projekte

Die Suche nach den richtigen Datensätzen kann entmutigend sein, insbesondere wenn Sie sie für maschinelles Lernen (ML) und Data-Science-Projekte benötigen. Wir reduzieren Ihren Rechercheaufwand, indem wir Ihnen die ultimative Liste kostenloser Datensätze zur Verfügung stellen.

Datensätze sind einfach Sammlungen von Daten. Dabei kann es sich um Finanz-, Gemeindegesundheits-, Börsendaten, Bankdaten, geografische Daten, partikelwissenschaftliche Forschungsdaten, Bewertungen von Produkten auf einer E-Commerce-Website usw. handeln.

Datensätze enthalten Daten, die durch einen wissenschaftlichen Erhebungsstandard gesammelt wurden, und sind wichtig für die weitere Visualisierung, Extraktion, Prognose usw. Da Daten das Äquivalent von Rohöl im digitalen Universum sind, werden Datensätze kommerziell und knapp.

Lesen Sie weiter, um mehr über die Grundlagen von Datensätzen zu erfahren. Sie werden auch einige Open-Source-Datensätze entdecken, die für Ihre Machine-Learning- (ML) oder Data-Science-Projekte wirklich kostenlos sind.

Was sind Datensätze?

Datensätze sind die Sammlung von Daten in einem strukturierten und organisierten Container. Normalerweise verknüpfen Vermesser Datensätze mit einem eindeutigen Körper, zum Beispiel Open Data der Weltbank.

Auch hier bewahren die Datensammler die Datensätze speziell für ein Thema auf, wie die vom United States Census Bureau veröffentlichten Daten der Volkszählung 2020 der Vereinigten Staaten von Amerika.

Sie finden viele Datensätze zu globalen und lokalen Themen. Die meisten Datensätze enthalten miteinander verbundene Datenpunkte. Zum Beispiel die Bevölkerung eines Landes und wie Adipositas mit verschiedenen Klassen dieser Bevölkerung zusammenhängt.

Die Datenwissenschaftler müssen solche Datensätze möglicherweise mithilfe von Big-Data-Tools bereinigen, neu strukturieren und verarbeiten, um zu wertvollen Schlussfolgerungen zu gelangen, wie z an.

Arten von Datensätzen

Je nach Quelle der Datensätze können diese öffentlich oder privat sein. Öffentliche Datensätze stehen allen offen und tragen viel zu Forschung und Entwicklung bei.

Auch hier können Datensätze abhängig von den darin enthaltenen Informationen von den folgenden Typen sein:

  • Multivariat: Solche Daten enthalten mehrere Variablen.
  • Kategorisch: Es porträtiert viele Kategorien von Menschen.
  • Numerisch: Solche Datensätze messen Daten in Zahlen wie Alter, Größe usw.
  • Korrelation: Bei diesem Typ sind Datenpunkte miteinander verknüpft.
  • File Based: Hier werden Datensätze in Dateien gespeichert.
  • Bivariat: Ein Datensatz mit zwei Variablen und einer Beziehung zwischen ihnen.
  • Webdatensatz: Daten, die von einem oder vielen ähnlichen Internetportalen gesammelt wurden.
  • Datenbank: Solche Datensätze speichern Daten in Tabellen, Spalten und Zeilen.

Open-Source-Datensätze für Data-Science-Projekte

Kostenlose Datensätze sind der Treibstoff, um Ihre Leidenschaft für eine Data-Science-Karriere anzutreiben. Denn wenn Sie in der Anfangsphase Ihrer Data-Science-Karriere stehen, möchten Sie vielleicht persönliche und nicht-kommerzielle Projekte zum Selbstvertrauen oder zum Portfolioaufbau übernehmen.

Erstens können Sie Ihre neu erlernten Fähigkeiten leicht testen, indem Sie Tools und Techniken auf reale Datensatzprobleme anwenden.

Beispielsweise gibt es frei verfügbare Krebsforschungsdaten, Covid-19-Daten, Strafregisterdaten des FBI, Partikelanalysedaten von CERN usw. Sie können solche Daten verwenden und ein datenwissenschaftliches Modell erstellen, um wichtige soziale, finanzielle und gesundheitliche Probleme zu beantworten .

Zweitens wirken solche Projekte als Portfolio-Enhancer für Ihre Karriere. Wenn Sie ein erfolgreiches Datenanalysemodell erstellen können, das umsetzbare Erkenntnisse bietet, können Sie diese Modelle online präsentieren, indem Sie Portfolio-Websites erstellen. Arbeitgeber bevorzugen Projekte gegenüber Absichtserklärungen.

  Wie man "Mein iPhone suchen" dazu bringt, "Kein Standort gefunden" zu sagen

Kostenlose Datensätze für Machine-Learning-Projekte

Wie ein Data-Science-Experte muss auch ein ML-Experte an selbstverwalteten Projekten arbeiten, um seine Fähigkeiten zu überprüfen. Wenn das Projekt erfolgreich wird, wird es auch zu einem idealen Bestandteil für Ihr Online- oder Offline-Portfolio von ML-Projekten.

Daher können Sie jetzt verstehen, dass Data Science und ML-Wachstum von strukturierten Datensätzen abhängen. Wenn solche Datensätze zu kommerzialisiert würden, würden Forschung und Entwicklung im Bereich Data Science vollständig unternehmenszentriert werden.

Um die datenwissenschaftliche ML-Forschung für alle offen zu halten, bieten die folgenden Agenturen, Institutionen und Plattformen kostenlose Datensätze an:

Daten.gov

Sie finden alle offenen Daten, die von der US-Regierung gesammelt und verarbeitet werden. in Data.gov. Die Plattform bietet auch Ressourcen und Tools, um Recherchen durchzuführen, Datenvisualisierungen zu entwerfen, mobile/Web-Apps zu entwickeln usw.

Zu den bemerkenswerten Datensätzen gehören Daten zur nachhaltigen Landnutzung, Daten zum ländlichen Wohnungsbau, elektronische Binnenschifffahrtskarten usw.

Datensätze öffnen: Kaggle

Kaggle bietet eine Fülle von öffentlichen Daten und Computercodes für Data-Science-Projekte. Sie können Datensätze für Rohdaten und Code für Programmiercodes auswählen. Trenddatensätze auf Kaggle sind AMEX-Daten, Simpsons-Zuschauerzahlen, Chatbot-Trainingsdaten usw.

Segmentdatensätze: YouTube 8-M

Segmentdatensätze von YouTube 8-M bieten Ihnen von menschlichen Prüfern verifizierte Segmentanmerkungen. Über dasselbe Portal können Sie auch auf den YouTube-8M-Datensatz zugreifen. Der Datensatz enthält 6,1 Millionen Video-IDs, 350.000 Stunden Video, 2,6 Milliarden audiovisuelle Merkmale, 3863 Videoklassen und durchschnittlich 3,0 Labels pro Video.

Registrierung offener Daten auf AWS

ROD auf AWS hilft Datenwissenschaftlern, auf AWS-Ressourcen gehostete Datensätze zu teilen und zu entdecken. Einige interessante Datensätze, die Sie hier finden können, sind The Cancer Genome Atlas, Foldingathome COVID-19 Datasets, Common Crawl usw.

Repository für maschinelles Lernen: UCI

Das UCI Machine Learning Repository verwaltet derzeit 622 Datensätze, die für Data Scientists und ML-Ingenieure geeignet sind, um ihre KI-Modelle zu trainieren. Außerdem gibt es eine durchsuchbare Schnittstelle, um die Datenbanken zu durchsuchen. Beliebte Attraktionen sind der Accelerometer-Datensatz, der Synchronous Machine-Datensatz, Wikipedia Math Essentials, der Turkish Headlines-Datensatz usw.

Öffentliche BigQuery-Datasets: Google Cloud

Viele öffentliche Datasets werden in BigQuery gespeichert. Google macht den Datensatz über das Google Cloud Public Dataset Program kostenlos zugänglich. Die kostenlose Abfrage ist jedoch auf 1 TB pro Monat begrenzt. Sie können Standard-SQL- und Legacy-SQL-Abfragen ausführen.

Fantastische öffentliche Datensätze: GitHub

Awesome Public Datasets ist ein Open-Source-Datensatz, der themenzentrierte öffentliche Daten enthält. Gesammelt und sortiert aus verschiedenen Blogs, Antworten und Nutzer-Feedback, kombiniert es kostenlose und kostenpflichtige Datensätze zu Physik, Sport, Software, natürlicher Sprache und maschinellem Lernen.

Daten der Weltbank

World Bank Open Data ist die Plattform, auf der Sie freien Zugang zu globalen Entwicklungsdaten erhalten. Es bietet auch andere wertvolle Ressourcen wie vorformatierte Tabellen und Berichte. Sie können ganz einfach nach Land oder Indikator suchen, um den gewünschten Datensatz zu erhalten.

  So klicken Sie mit der rechten Maustaste auf einen beliebigen Mac mit einem Trackpad, einer Maus oder einer Tastatur

FiveThirtyEight: Daten

FiveThirtyEight ist eine amerikanische Website, die sich mit Meinungsumfragen, Politik, Wirtschaft und Sport befasst. Sie können auf diese Umfragen und Prognosen über Datensätze von seiner Plattform zugreifen. Sie können die Datensätze mit einem Klick herunterladen.

ImageNet

ImageNet ist eine Bilddatenbank, aus der Forscher weltweit Open-Source-Datensätze für ihre nicht-kommerziellen Projekte beziehen können. Hier werden die Bilder basierend auf der WordNet-Hierarchie organisiert. Das Projekt spielt eine wichtige Rolle in der fortgeschrittenen Deep-Learning-Forschung.

Datensätze Archive: UNICEF DATA

Mithilfe des Datensatzarchivs können Sie auf Datensätze zugreifen, die von UNICEF auf der ganzen Welt gesammelt wurden. Daten zu Migration, Vertreibung, Ernährung, Konnektivität, Bildung, Gesundheit, Lernen, Sterblichkeit, Gewalt, Kindheitsentwicklung, Kinderheirat, Kinderarbeit und verschiedene Statistiken sind hier verfügbar.

Offene Daten finden: Govt. von Großbritannien

Wenn Ihr Projekt Daten benötigt, die von lokalen Stellen und der Zentralregierung des Vereinigten Königreichs veröffentlicht werden, ist Find Open Data das Portal, das Sie sich ansehen sollten. Es umfasst Staatsausgaben, Unternehmen, Gesundheit, Bildung, Verteidigung und weitere Datensätze.

Daten: United States Census Bureau

Benötigen Sie US-Volkszählungsdaten für ein relevantes Projekt? Sie können Unterstützung von USCB Data in Anspruch nehmen. Hier können Sie Daten, Tabellen, Karten und Datenprofile der Volkszählung 2020 erkunden, während Sie Daten visualisieren und Datentools verwenden.

Daten und Statistiken: CDC

Die US-Bundesbehörde Centers for Disease Control and Prevention stellt der Öffentlichkeit ebenfalls kostenlose Datensätze zur Verfügung, um auf Daten und Statistiken von diesem Portal zuzugreifen. Die Themen des Datensatzes sind Umweltgesundheit, chronische Krankheiten, Geburten und Geburten, Todesfälle und Sterblichkeit, Lebenserwartung, Verletzungen und Gewalt, reproduktive Gesundheit, nationale meldepflichtige Krankheiten usw.

Datensätze: MIT

Dieser Datensatz konzentriert sich auf Wirbel-induzierte Vibrationsdaten. Das Center for Ocean Engineering am MIT beherbergt einige öffentlich zugängliche Datensätze für Computercode-Benchmarking. Die Datensätze stehen allen offen, um neue Theorien aus den Daten einzuladen und Forscher, die auf demselben Gebiet arbeiten, zu synchronisieren.

Datenkatalog der Weltbank

Der Datenkatalog sammelt kostenlose Datensätze, die die entwicklungsbezogenen Daten der Weltbank leicht zugänglich machen. Die Verwendung in verschiedenen Projekten ist ein Kinderspiel, da Sie Ihre bevorzugten Informationen mühelos finden und herunterladen können. Es enthält über 5000 Datensätze, die die Mikrodaten-, Finanz- und Energieplattformen der Weltbank abdecken.

Weltraumwissenschaftliche Daten der NASA

Die NASA bietet Zugang zu ihren Archivdaten im Space Science Data Coordinated Archive. Diese Plattform ist eine große Hilfe für die breite Öffentlichkeit, insbesondere für Personen, die in Bildung und Weltraumforschung tätig sind. Es verfügt über 400 TB an digitalen Daten, die Informationen über 550 Weltraumwissenschaften enthalten.

Holen Sie sich die Daten: Inside Airbnb

Airbnb ist ein weltweit renommierter Online-Marktplatz für Gastfamilien und Ferienwohnungen. Es bietet auch eine Datensammlung zu verschiedenen Städten weltweit von Get the Data. Sie können durch die Stadt stöbern, um schnell an die Daten zu kommen. Darüber hinaus können Sie auf diesem Portal Ihre benötigten Daten anfordern und Datenannahmen einsehen.

  So reinigen und desinfizieren Sie alle Ihre Geräte

Webdaten: Amazon Reviews

Wer sich für Marktforschung und Produktbewertungen interessiert, sollte die von Snap Web Data bereitgestellten Datensätze verwenden. Es enthält mehr als 34 Millionen Benutzerbewertungen auf Amazon von Juni 1995 bis März 2013. Der Datensatz enthält Klartext, Produktinformationen, Benutzernamen, Bewertungen und eine Rezension.

IWF-Daten

Das IMF-Datenportal ist wertvoll für alle Arten von Wirtschafts- und Finanzdaten. Ob Sie nach Finanzdaten des IWF, Statistiken zum Außensektor, führenden Veröffentlichungen oder Daten zur Mikroökonomie suchen, hier finden Sie sie. Darüber hinaus können Sie einen Filter verwenden, um länderbezogene Daten zu erhalten.

Google Books-Ngrams

Wenn Sie an Wortarten und Sprache arbeiten, können Google Books Ngrams Ihnen erheblich helfen. Dieser Open-Source-Datensatz gibt Ihnen eine Vorstellung davon, wie Sie ein bestimmtes Wort und einen bestimmten Ausdruck im Laufe der Geschichte oder in einem bestimmten Zeitraum verwenden können. Quelle dieses Datensatzes sind die von Google indexierten digitalen Dokumente.

Marktdaten: The Financial Times

Wenn Sie zuverlässige und genaue globale und regionale Aktienmarktdaten in die Hände bekommen möchten, ist Markets Data von The Financial Times hier, um Ihnen zu helfen. Es ermöglicht Ihnen, mit Marktdaten aus Amerika, Asien-Pazifik, Europa, Afrika und dem globalen Markt zu arbeiten.

Erddaten: NASA

Die NASA bietet über das Earth Data-Programm vollen und offenen Zugang zu ihren wissenschaftlichen Daten, das Ihnen hilft, unseren Heimatplaneten zu verstehen und Projekte damit durchzuführen. Sie finden kostenlose Datensätze zu Atmosphäre, Biosphäre, Kryosphäre, menschlichen Dimensionen, Landoberfläche, Ozean, fester Erde, Sonne-Erde-Wechselwirkung und terrestrischer Hydrosphäre.

Datensatzsuche: Google

Wenn Sie ein Student, Forscher oder Datenwissenschaftler sind, der nach Datensätzen zur Unterstützung Ihres Projekts sucht, können Sie Unterstützung vom Portal „Datensatzsuche“ in Anspruch nehmen. Sie können es eine Suchmaschine für Datensätze nennen, da Sie Datensätze finden können, die in verschiedenen Berichten im Internet durch Stichwortsuche gehostet werden.

Offene Daten: CERN

Die europäische Forschungsorganisation CERN verfügt über ein Open-Data-Portal, über das Sie auf die forschungsgenerierten Daten des CERN zugreifen können. Dieses Datensatzportal enthält zwei Petabyte an Daten zur Teilchenphysik. Darüber hinaus enthält es Anwendungen und Dokumentationen, die für die Datenanalyse benötigt werden.

Crime Data Explorer: FBI

Der Crime Data Explorer (CDE) ist der Open-Source-Datensatz des FBI, der darauf abzielt, einen einfacheren Zugriff auf den Austausch von kriminellen, nicht kriminellen und Strafverfolgungsdaten zu ermöglichen. Auf dieser Plattform können Sie nicht nur die erforderlichen Daten durch Visualisierung und Kategoriefilterung ermitteln, sondern auch Daten im CSV-Format herunterladen.

Letzte Worte

Bisher haben Sie eine wirklich erschöpfende Liste qualitativ hochwertiger Datensätze durchgesehen. Der Artikel präsentiert Daten aus verschiedenen Nischen wie Naturwissenschaften, Krankenakten, Weltraumforschung, Strafregister, Produktbewertungen usw.

Abhängig von dem Data-Science- oder Machine-Learning-Projekt, das Sie vorhaben, können Sie Ihre Wahl treffen. Fast alle Datensätze enthalten auch geeignete Anweisungen, die Ihnen bei Ihrem Projekt helfen.

Möglicherweise interessieren Sie sich auch für diese Ressourcen zum Erlernen von Data Science und ML.