Was Sie nicht über AWS Glue wussten

Amazon Glue gewinnt an Popularität, da viele Unternehmen damit begonnen haben, verwaltete Datenintegrationsdienste zu nutzen.

ETL ist ein Prozess, der Daten von einer Quelldatenbank in ein Data Warehouse überträgt. ETL ist komplex und aufgrund seiner Komplexität für alle Unternehmensdaten schwierig zu implementieren. Amazon hat AWS Glue eingeführt, um dieses Problem anzugehen.

ETL-Entwickler und Datentechniker verwenden Glue zum Erstellen, Überwachen und Ausführen von ETL-Workflows.

Was ist AWS Glue?

AWS Glue, ein serverloser Datenintegrationsdienst, erleichtert das Auffinden, Vorbereiten, Verschieben und Integrieren von Daten aus mehreren Quellen. Dies ist nützlich für maschinelles Lernen (ML) und Analysen.

Es reduziert die Zeit, die für die Vorbereitung der Daten für die Analyse erforderlich ist, erheblich. Es findet und listet die Daten automatisch auf, generiert Scala- oder Python-Code, um die Daten von der Quelle zu übertragen, und lädt und transformiert den Job gemäß den zeitgesteuerten Ereignissen.

Dies ermöglicht eine flexible Planung und schafft eine Apache Spark-Umgebung, die für das gezielte Laden von Daten skaliert werden kann. Darüber hinaus bietet AWS Glue eine komplexe Datenstromüberwachung und -änderung. AWS Glue ist ein serverloser Service, der die komplizierten Vorgänge der Anwendungsentwicklung vereinfacht.

Es ermöglicht die schnelle Integration mehrerer gültiger Daten. Es zerlegt und autorisiert Daten auch schnell.

Wofür wird AWS Glue verwendet?

Es ist wichtig, die besten Orte für die Verwendung von Amazon Glue zu kennen. Dies sind nur einige Beispiele für die Verwendung von AWS Glue, die Sie in Betracht ziehen sollten.

  • Glue ist ein Tool, mit dem Sie serverlose Abfragen auf den Amazon S3 Data Lakes ausführen können. Amazon Glue ist ein großartiges Tool, um Ihnen den Einstieg zu erleichtern. Es macht alle Ihre Daten über eine Schnittstelle zugänglich, sodass Sie sie analysieren können, ohne sie verschieben zu müssen.
  • Amazon Glue kann verwendet werden, um Ihre Datenbestände zu verstehen. Amazon Glue erleichtert Ihnen die Suche nach verschiedenen AWS-Datensätzen mithilfe des Datenkatalogs. Mit dem Datenkatalog können Sie auch Daten über mehrere AWS-Services hinweg speichern und haben dennoch eine konsistente Ansicht.
  • Glue kann beim Erstellen ereignisgesteuerter ETL-Workflows hilfreich sein. Sie können Ihre ETL-Operationen von Amazon S3 aus ausführen, indem Sie Ihre Glue-ETL-Aufgaben über einen AWS Lambda-Service aufrufen.
  • AWS Glue kann auch zum Bereinigen, Verifizieren, Formatieren und Organisieren von Daten für die Speicherung in einem Data Lake oder Warehouse verwendet werden.

Was sind die Komponenten von AWS Glue?

Nachfolgend sind die Hauptkomponenten von AWS Glue aufgeführt:

  • Datenkatalog: Dieser Datenkatalog enthält Metadaten und die Datenstruktur.
  • Datenbank: Dies ist der Schlüssel für den Zugriff auf und die Erstellung der Datenbank für Quellen und Ziele.
  • Tabelle: Erstellen Sie eine oder mehrere Tabellen in der Datenbank, die sowohl vom Ziel als auch von der Quelle verwendet werden können.
  • Crawler und Classifier: Der Crawler ruft Daten aus der Quelle ab, indem er entweder integrierte oder benutzerdefinierte Klassifizierungen verwendet. Es erstellt/verwendet vordefinierte Metadatentabellen im Datenkatalog.
  • Job: Dies ist der Job der Geschäftslogik, um eine ETL-Aufgabe auszuführen. Diese Geschäftslogik wird intern von Apache Spark unter Verwendung von Python- und Scala-Sprachen geschrieben.
  • Trigger: Ein ETL-Trigger ist ein Gerät, das die Ausführung eines ETL-Jobs bei Bedarf oder zu einem bestimmten Zeitpunkt initiiert.
  • Endpunkt für die Entwicklung: Dadurch wird eine Umgebung geschaffen, in der das ETL-Jobskript getestet, entwickelt und debuggt wird.
  So prüfen Sie, ob eine Website von CloudBleed betroffen ist

Vorteile von AWS Glue

Dies sind die Vorteile der Verwendung an Ihrem Arbeitsplatz oder innerhalb einer Organisation.

  • AWS Glue scannt alle verfügbaren Daten mit einem Crawler.
  • Endgültig verarbeitete Daten können an vielen Stellen gespeichert werden (Amazon RDS und Amazon Redshift, Amazon S3, etc.
  • Es ist ein Cloud-basierter Dienst. Es besteht keine Notwendigkeit, Geld für Infrastrukturen vor Ort auszugeben.
  • Da es sich um ein serverloses ETL handelt, ist es eine kostengünstige Wahl.
  • Es ist schnell. Es gibt Ihnen sofort den Python/Scala ETL-Code.

Die wichtigsten Funktionen von AWS Glue?

Amazon Glue verfügt über alle Funktionen, die Sie zum Integrieren von Daten benötigen, damit Sie bessere Einblicke erhalten und Ihr Wissen nutzen können, um innerhalb von Minuten statt Monaten neue Fortschritte zu erzielen. Hier sind einige der Funktionen, die Sie kennen sollten.

  • Drag-and-Drop-Oberfläche: Mit einem Drag-and-Drop-Job-Editor können Sie einen ETL-Prozess erstellen. AWS Glue erstellt sofort den Code, der zum Extrahieren, Konvertieren und Hochladen der Daten erforderlich ist.
  • Automatische Schemaerkennung: Um Crawler zu erstellen, die eine Verbindung zu verschiedenen Datenquellen herstellen, können Sie den Glue-Dienst verwenden. Es organisiert Daten und extrahiert relevante Informationen. Diese Daten können dann verwendet werden, um ETL-Prozesse durch ETL-Tasks zu überwachen.
  • Auftragsplanung: Klebstoff kann entweder nach Bedarf oder gemäß einem geplanten Zeitplan verwendet werden. Der Scheduler kann verwendet werden, um komplexe ETL-Pipelines zu erstellen und Abhängigkeiten zwischen Aufgaben herzustellen.
  • Codegenerierung: Mit Glue Elastic Views können Sie auf einfache Weise materialisierte Ansichten erstellen, die Daten aus verschiedenen Datenquellen kombinieren und replizieren, ohne dass Sie proprietären Code schreiben müssen.
  • Integriertes maschinelles Lernen: Glue verfügt über eine integrierte maschinelle Lernfunktion namens „FindMatches“. Es dedupliziert Datensätze, die keine perfekten Kopien voneinander sind.
  • Entwickler-Endpunkte: Wenn Sie Ihren ETL-Code aktiv entwickeln möchten, bietet Glue Entwickler-Endpunkte, mit denen Sie den erstellten Code ändern, debuggen und testen können.
  • Glue DataBrew: Es ist ein Datenvorbereitungstool, das von Datenanalysten und Datenwissenschaftlern verwendet werden kann, um ihnen beim Bereinigen und Normalisieren von Daten zu helfen. Es verwendet die aktive und visuelle Schnittstelle von Glue DataBrew.

Wie funktioniert die AWS Glue-Preisgestaltung?

AWS Glue erhebt eine stündliche Gebühr, die pro Sekunde für Crawler (Ermitteln der Daten) und ETL-Jobs (Verarbeiten und Laden der Daten) abgerechnet wird. Für den Zugriff auf und das Speichern von Metadaten im AWS Glue-Datenkatalog wird eine einfache monatliche Gebühr erhoben.

Amazon Glue beginnt bei 0,44 $. Sie können aus vier Plänen wählen:

  • ETL-Aufgaben, Entwicklungsendpunkte und andere ETL-Aufgaben sind für 0,44 $ erhältlich
  • Crawlers Interactive Sessions sind für 0,44 $ erhältlich
  • DataBrew-Jobs beginnen bei 0,48 $
  • Monatliche Speicherung und Anfragen an den Data Catalog kosten 1,00 USD

AWS bietet keinen kostenlosen Glue-Plan an. Jede Stunde kostet 0,44 $ pro DPU. Im Durchschnitt würde es Sie 21 $ pro Tag kosten. Die Preise können je nach Wohnort variieren.

  So finden Sie jemanden auf OnlyFans per E-Mail

Schritte zum Einrichten von AWS Glue

Der Datenkatalog kann verwendet werden, um mehrere AWS-Datensätze schnell zu finden und zu durchsuchen, ohne die Daten verschieben zu müssen. Nachdem die Daten katalogisiert wurden, stehen sie sofort für Abfragen und Suchen mit Amazon Athena und Amazon EMR zur Verfügung.

Ref: https://aws.amazon.com/glue/

  • Amazon Redshift, Amazon S3, Amazon RDS und Datenbanken auf Amazon EC2 – Entdecken Sie Ihre Daten, speichern Sie Metadaten und verwenden Sie den AWS Glue-Datenkatalog, um sie zu entdecken
  • AWS Glue-Datenkatalog – Verwalten Sie Daten mit dem Datenkatalog, der als zentrales Repository für Metadaten fungiert
  • AWS Glue ETL – Lesen und schreiben Sie Metadaten in Ihren Datenkatalog
  • Amazon Athena und Amazon Redshift, Amazon EMR, Amazon ETL – Holen Sie sich den Datenkatalog für ETL, Analysen und mehr.

Wie richte ich AWS Glue ein?

Melden Sie sich zunächst bei der AWS Management Console an und öffnen Sie die IAM-Konsole. Klicken Sie auf Rolle erstellen. Suchen Sie dann für den Rollentyp nach Glue und wählen Sie Berechtigungen aus.

Ich wähle AWSGlueServiceRole für allgemeine AWS Glue Studio- und AWS Glue-Berechtigungen und die von AWS verwaltete Richtlinie AmazonS3FullAccess für den Zugriff auf Amazon S3-Ressourcen.

Geben Sie einen Rollennamen ein.

Klicken Sie auf Rolle erstellen.

Erstellen Sie einen Amazon S3-Bucket.

Erstellen Sie einen Ordner im S3-Bucket.

Wählen Sie die hochzuladende Datei aus.

Laden Sie abschließend die Datei in den Bucket hoch.

Öffnen Sie als Nächstes AWS Glue über die AWS-Verwaltungskonsole und erstellen Sie eine Datenbank.

Nachdem Sie nun eine Datenbank in AWS Glue haben, erstellen Sie einen Crawler.

Wählen Sie in der Datenquelle den von Ihnen erstellten S3-Bucket aus.

Wählen Sie als Nächstes die IaM-Rolle für AWS Glue aus, die Sie zu Beginn erstellt haben.

Wählen Sie schließlich in der Ausgabe die von Ihnen erstellte gluedb aus.

Überprüfen Sie alle Einstellungen und erstellen Sie den Crawler.

Sobald der Crawler erstellt ist, wählen Sie ihn aus und klicken Sie auf Ausführen. Nach einiger Zeit erhalten Sie den Status bereit.

Durch Ausführen des Crawlers erhält die Datenbank eine Tabelle mit allen Daten aus der CSV-Datei.

Wenn Sie auf Daten anzeigen klicken, werden Sie zu Amazon Athena (Abfrage-Editor) weitergeleitet. Wenn Sie die Abfrage ausführen, können Sie die Tabellendaten sehen.

Jetzt können Sie diesen AWS Glue-Crawler erfolgreich in jedem ETL-Job verwenden.

Was ist AWS Glue Databrew?

Mit AWS Glue DataBrew können Benutzer Daten normalisieren und bereinigen, ohne Code schreiben zu müssen. DataBrew kann den Zeitaufwand für die Vorbereitung von Daten für maschinelles Lernen und Analysen um bis zu 80 Prozent im Vergleich zu einer kundenspezifisch entwickelten Datenvorbereitung reduzieren.

Es gibt über 250 vorgefertigte Datentransformationen, die verwendet werden können, um Datenvorbereitungsaufgaben wie das Herausfiltern von Anomalien, das Korrigieren ungültiger Werte und das Konvertieren von Daten in Standardformate zu automatisieren.

DataBrew erleichtert Datenwissenschaftlern, Geschäftsanalysten und Ingenieuren die Zusammenarbeit bei der Gewinnung von Erkenntnissen aus Rohdaten. DataBrew ist serverlos, sodass Sie keine Infrastruktur verwalten oder Cluster erstellen müssen, um Rohdaten im Wert von Terabytes zu untersuchen und umzuwandeln.

  22 beste kostenlose Podcast-Aufnahmesoftware

DataBrew-Funktionen für Unternehmen

Visualisierte Datenaufbereitung

DataBrew ist eine andere Möglichkeit, Daten anzuzeigen, die normalerweise in spaltenorientierten Datenbanken als alphanumerische Zahlen angezeigt werden. DataBrew visualisiert alle geladenen Datenquellen, um Ihnen zu helfen, die Datenbeziehungen und -hierarchie zu verstehen.

Über 250 Datenvorbereitungsautomatisierungen

Von Datenwissenschaftlern wird erwartet, dass sie im Rahmen ihrer Arbeit einer Vielzahl wiederholbarer, isolierter Arbeitsabläufe folgen. Diese Workflows und Prozesse wurden von AWS als sprach- und datenunabhängige Modulmodule modelliert. Diese Bibliothek enthält Aktionen, die von Endbenutzern verwendet werden können.

Datenherkunft

Ähnlich wie Prüfprotokolle, die verwendet werden, um Kundenaktivitäten im IT-Netzwerk eines IT-Netzwerks zu verfolgen, ermöglicht Ihnen die Datenherkunft, die Datentransformationsaktivitäten innerhalb von AWS DataBrew zu verfolgen. Diese Informationen umfassen die Datenquelle, die angewendeten Transformationen und die Datenausgabe, einschließlich des Zielspeicherorts.

Datenzuordnung

Mit Databrew können Sie übereinstimmende Felder in zwei Datenquellen finden. Sobald übereinstimmende Felder identifiziert wurden, können sie in ein Schema geladen werden.

AWS Glue DataBrew: Vorteile

Nachfolgend sind die Funktionen von AWS Glue DataBrew aufgeführt:

  • Niedrigere Eintrittsbarriere für die Datenaufbereitung
  • Automatisierte Datenprofilerstellung
  • Automatisieren Sie mehr als 250 Datenvorbereitungsprozesse
  • Intelligente Verordnungsvorschläge

Alternativen zu AWS Glue

Luftzug

Airflow gehört zum Workflow-Manager-Abschnitt eines Tech-Stacks. Es ist ein Open-Source-Tool, das GitHub-Stars, GitHub-Forks und andere Funktionen unterstützt. Mit Airflow können Sie Workflows mithilfe gerichteter azyklischer Diagramme (DAGs) erstellen. Der Airflow-Scheduler führt Ihre Aufgaben mit einer Reihe von Workern aus und folgt den angegebenen Abhängigkeiten.

Matillion

Matillion ETL, ein ETL/ELT-Tool, wurde explizit für Cloud-Datenbankplattformen wie Amazon Redshift und Google BigQuery entwickelt. Es ist eine moderne browserbasierte Benutzeroberfläche mit leistungsstarken Pushdown-ETL/ELT-Funktionen. Mit einer schnellen Einrichtung können Sie in wenigen Minuten einsatzbereit sein.

Stich

Stitch ist ein Open-Source-ETL-Dienst, der mehrere Datenquellen verbindet und Daten an bevorzugte Ziele repliziert. Es ist sehr einfach zu bedienen, da Sie keine Programmierkenntnisse benötigen, um Daten zwischen Quellen und Zielen in Stitch zu verschieben. Es ist einfach zu bedienen, hat eine benutzerfreundliche GUI und ist schnell.

Im Gegensatz zu anderen ETL-Tools können Sie bei Stitch kein vorgefertigtes Dashboard auswählen. Stattdessen müssen Sie Ihre Daten in die offenen Data Warehouses integrieren, die Sie als Ziel auswählen. Es kann schwierig sein, in den Inventaren zu navigieren.

Alteryx

Alteryx ist eine Analytics-Automatisierungsplattform, die bei der Vorbereitung und Zusammenführung der Datenerfassung hilft. Diese Daten können verwendet werden, um Prozesse zu beschleunigen und Geschäftseinblicke zu liefern. Da es sich um ein Drag-and-Drop-Tool handelt, benötigen Sie keinerlei Programmierkenntnisse. Alteryx ist eine großartige Anlaufstelle für Ratschläge und Antworten von Branchenexperten.

Fazit

Das war also alles über AWS Glue, eine Cloud-basierte Lösung, mit der Sie mit ETL-Pipelines arbeiten können. Zusammenfassend besteht der Benutzerinteraktionsprozess von AWS Glue aus drei Phasen. Um einen Datenkatalog zu erstellen, verwenden Sie zunächst Daten-Crawler. Als Nächstes erstellen Sie den für die AWS-Datenpipeline erforderlichen ETL-Code. Abschließend wird dann der ETL-Zeitplan erstellt. Ich hoffe, dieser Blog hat Ihnen einen guten Überblick über Amazon Glue gegeben.

Sie können sich auch die besten Tipps zum Sichern von AWS S3-Speicher ansehen.