Was ist Amazon Athena und wie funktioniert es?

Veröffentlicht: 2021-10-26

Was ist Amazon Athena und wie funktioniert es? | Encaptechno

Der Prozess der Datenanalyse ist von Natur aus etwas komplex und umfasst mehrere Schritte zur Vereinfachung von Dingen, für die viele Tools verfügbar sind. Amazon kommt zur Rettung, indem es einen Dienst namens Amazon Athena bereitstellt, der bei der Analyse von Daten hilft.

Amazon Athena ist ein serverloses Analysetool , mit dem Benutzer die Daten von S3 mit der Standard-SQL-Syntax abfragen können. Als führendes Unternehmen in der Welt des Cloud Computing bietet AWS eine breite Palette von Services, die im Vergleich zu einer On-Premise-Architektur eine wettbewerbsfähige Leistung und erschwingliche Lösungen für die Ausführung von Workloads bieten.

AWS Athena ist ein Service aus dem Analysebereich, der sich auf das Abrufen von statischen Daten konzentriert, die in S3-Buckets mithilfe der Standard-SQL-Anweisungen gespeichert sind. Es kann als robustes Tool betrachtet werden, das Kunden hilft, wichtige Einblicke in ihre auf S3 gespeicherten Daten zu gewinnen, da es serverlos ist und keine Infrastruktur für die Verwaltung vorhanden ist.

Was ist Amazon Athena?

Amazon hat am 20. November 2016 Athena als wichtigen Dienst eingeführt. Es wurde als serverloser Abfragedienst gestartet, der eine Analyse von Daten unter Verwendung des in Amazon S3 gespeicherten Standard-SQL vereinfachen sollte . Mit nur wenigen einfachen Klicks in der AWS-Managementkonsole können die Kunden Amazon Athena ganz einfach auf ihre in Amazon S3 gespeicherten Daten verweisen, während sie Abfragen mit Standard-SQL ausführen, um in Sekundenschnelle Ergebnisse zu generieren.

Beim interaktiven Analysedienst von Amazon Athena muss keine Infrastruktur eingerichtet oder verwaltet werden, und die Kunden zahlen nur für die Abfragen, die sie ausführen möchten. Es skaliert automatisch, während Abfragen parallel ausgeführt werden, was schließlich selbst bei einem riesigen Datensatz und komplexen Abfragen schnelle Ergebnisse liefert.

Athena verwendet eine verteilte SQL-Engine namens Presto, die beim Ausführen der SQL-Abfragen nützlich ist. Es basiert auf der beliebten Open-Source-Technologie namens Hive, die beim Speichern von strukturierten, unstrukturierten und halbstrukturierten Daten weiter hilft. Die Data Warehouse-Software Apache Hive erleichtert das Lesen, Schreiben und Verwalten großer Datensätze, die sich im verteilten Speicher befinden, mithilfe von SQL.

Es gibt eine einfache Datenpipeline, in der Daten aus verschiedenen Quellen abgerufen und in die S3-Buckets abgelegt werden. Dies sind Rohdaten, was bedeutet, dass noch keine Transformationen auf die Daten angewendet wurden. Derzeit kann Amazon Athena verwendet werden, um während der Analyse eine Verbindung zu diesen Daten in S3 herzustellen. Dies ist ein einfacher Prozess, da Sie keine Datenbank oder externe Tools einrichten müssen, um die Rohdaten abzufragen. Nachdem Sie mit der Analyse fertig sind und die gewünschten Ergebnisse ermittelt haben, kann ein EMR-Cluster verwendet werden, um die komplexen analytischen Datentransformationen auszuführen, während die Daten bereinigt, verarbeitet und gespeichert werden.

Warum sollten Sie Athena verwenden?

Warum sollten Sie Amazon Athena verwenden?

Ein Athena-Benutzer kann die verschlüsselten Daten mit Schlüsseln abfragen, die vom AWS-Schlüsselverwaltungsdienst verwaltet werden, und auch die Abfrageergebnisse verschlüsseln. Tatsächlich ermöglicht Athena auch den kontenübergreifenden Zugriff auf S3-Buckets, die einem anderen Benutzer gehören. Es verwendet verwaltete Datenkataloge zum Speichern von Informationen und Schemas im Zusammenhang mit Suchen in Amazon S3-Daten.

Alles in allem ist der interaktive Abfragedienst eigentlich ein Analysetool, das Organisationen dabei hilft, wichtige Daten, die in Amazon S3 gespeichert sind, schnell zu analysieren. Es kann bei der Verarbeitung von unstrukturierten, strukturierten und halbstrukturierten Datensätzen verwendet werden. Mit der Verwendung von Athena ist es möglich, dynamische Abfragen für Datensätze zu erstellen. Es funktioniert mit AWS Glue, um Ihnen eine viel bessere Möglichkeit zum Speichern von Metadaten in S3 zu bieten.

Mit AWS Cloud Formation und Athena können Sie benannte Abfragen verwenden, die es Ihnen ermöglichen, eine bestimmte Abfrage zu benennen und sie dann auch unter Verwendung des Namens aufzurufen. Dies ist ein interaktiver Dienst von AWS, der von Data Scientists und Entwicklern verwendet werden kann, um einen Blick in die Tabelle der Ausführung der Abfrage zu werfen. Es hilft beim Abrufen von Daten aus S3 und lädt sie mithilfe des Athena JDBC-Treibers für die Protokollspeicheranalyse und Data Warehousing-Ereignisse in verschiedene Datenspeicher.

Funktionsweise von AWS Athena

Amazon Athena arbeitet in direkter Verbindung mit den S3-Daten. Es wird als verteilte SQL-Engine zum Ausführen der Abfragen verwendet und verwendet außerdem Apache Hive zum Erstellen und Ändern von Tabellen und Partitionen. Einige der wichtigen Standpunkte, die für die Arbeit mit Athena erforderlich sind, sind:

  1. Sie müssen über ein AWS-Konto verfügen
  2. Sie sollten Ihr Konto aktivieren, um die Kosten- und Nutzungsdaten in den S3-Bucket zu exportieren.
  3. Sie können Buckets vorbereiten, damit Athena eine Verbindung herstellen kann.
  4. AWS erstellt außerdem jedes Mal, wenn es in den Bucket schreibt, Manifestdateien unter Verwendung von Metadaten. Tatsächlich erstellt es einen Ordner innerhalb der Technologie AWS Billing Data Bucket, bekannt als Athena, der nur die Daten enthält.
  5. Zur Vereinfachung der Einrichtung kann auch eine Region namens US-West-2-Region verwendet werden.
  6. Der letzte und letzte Schritt ist das Herunterladen der Anmeldeinformationen für den neuen Benutzer, da die Anmeldeinformationen bei der indirekten Zuordnung zu den Datenbank-Anmeldeinformationen helfen.

Amazon bietet auch ein Tool namens Cost Explorer zum Ziehen und Ablegen an, das eine Reihe vorgefertigter Berichte wie monatliche Servicekosten, Nutzung reservierter Instanzen usw. enthält. Falls Sie neugierig sind, sollten Sie versuchen, die Abfrage über dem Service neu zu erstellen Kosten und Betrieb. Dies ist in der Tat nicht unmöglich. Sie können die Rohdaten aufteilen, während Sie die Wachstumsraten berechnen, Histogramme erstellen, Ergebnisse berechnen usw.

Einige der zusätzlichen Überlegungen, die bei der Arbeit mit Amazon Athena zu beachten sind, umfassen:

Preismodell

Der Preis von Athena liegt bei über 5 US-Dollar für das Scannen von Terabyte-Daten von S3, umgeben vom nächsten Megabyte mit einem Minimum von 10 MB pro Abfrage.

Reduzierung der Kosten

Der Trick besteht darin, die gescannten Daten auf drei Arten zu reduzieren, die als Komprimieren von Daten, Verwenden von Spaltendaten und Partitionieren der Daten bezeichnet werden.

Eigenschaften von Athena

Von den vielen Diensten, die Amazon anbietet, ist Athena einer der besten Dienste. Es verfügt über mehrere Funktionen, die es für die Datenanalyse geeignet machen. Einige der Funktionen umfassen:

  • Schnelle Implementierung

Amazon Athena muss nicht installiert werden. Es kann tatsächlich nur über die AWS CLI direkt von der AWS-Konsole aus darauf zugegriffen werden.

  • Serverlos

Es ist serverlos, sodass sich der Endbenutzer keine Gedanken über Konfiguration, Infrastruktur, Skalierung oder Fehler machen muss. Athena erledigt das alles ganz einfach.

  • Bezahlung pro Abfrage

Athena berechnet Ihnen nur die von Ihnen ausgeführte Abfrage, d. h. die Datenmenge, die pro Abfrage verwaltet wird. Sie können tatsächlich viel sparen, wenn Sie die Daten komprimieren und entsprechend formatieren.

  • Sicher

Unter Verwendung der IAM-Richtlinien und der AWS-Identität bietet Amazon Athena vollständige Kontrolle über den Datensatz. Da die Daten in S3-Buckets gespeichert werden, können die IAM-Richtlinien bei der Verwaltung der Benutzerkontrolle helfen.

  • Verfügbar

Amazon Athena ist hochverfügbar und die Benutzer können rund um die Uhr Abfragen ausführen.

  • Schnell

Amazon Athena ist ein schnelles Analysetool, da es komplexe Abfragen in kürzerer Zeit durchführen kann, indem es die Abfragen in einfache Abfragen aufteilt und sie parallel ausführt und die Ergebnisse kombiniert, um die gewünschte Ausgabe zu bieten.

  • Integration

Eine der besten Eigenschaften von Athena ist, dass es einfach in AWS Glue integriert werden kann, was Benutzern hilft, ein einheitliches Datenrepository zu erstellen. Dies hilft auch bei der Erstellung einer viel besseren Versionierung von Daten mit besseren Tabellen, Ansichten usw.

  • Verbundabfragen

Mit Amazon Athena Federate Query kann Athena SQL-Abfragen in allen relationalen, Objekt-, nicht relationalen und benutzerdefinierten Datenquellen ausführen.

  • Maschinelles Lernen

Die Entwickler können Amazon Sage Maker zum Erstellen und Bereitstellen der Modelle für maschinelles Lernen in Amazon Athena verwenden.

Optimierungstechniken für AWS Athena

Optimierungstechniken für AWS Athena

Bei der Arbeit mit Cloud-Diensten muss man sich um die Dienste kümmern, die mit den geringstmöglichen Ressourcen verwendet werden, und diejenigen, die auf kostengünstige Weise das beste Ergebnis bieten. Es gibt viele Maßnahmen, die zur Optimierung von Abfragen innerhalb der AWS Athena ergriffen werden können, um die Gesamtleistung zu steigern und auch die Kosten im Zaum zu halten. Einige der gängigen Optimierungstechniken für den interaktiven Analysedienst von Amazon Athena sind:

  • Partitionieren der Daten in S3

    Eine der am häufigsten angewandten Praktiken zum Speichern von Daten in S3 ist die Partitionierung zum Erstellen separater Verzeichnisse basierend auf Hauptdimensionen wie der Datumsdimension und der Regionsdimension. Es kann verwendet werden, um nach Jahr, Monat und sogar Tag zu partitionieren, um Dateien unter dem Verzeichnis jedes Tages zu speichern. Andererseits können Sie auch nach Regionen partitionieren, in denen Daten für ähnliche Regionen in einem Verzeichnis gespeichert werden können. Durch die Partitionierung kann Athena weniger Daten pro Abfrage scannen, wodurch der gesamte Job schnell und effektiv wird.

  • Datenkomprimierungstechniken

    Beim Komprimieren der Daten wird eine CPU zum Komprimieren und Dekomprimieren benötigt, während die Abfrage stattfindet. Obwohl verschiedene Komprimierungstechniken verfügbar sind, ist Apache Parquet oder Apache ORC eine der beliebtesten, die mit Athena verwendet werden. Dies ist eine Technik, die beim Komprimieren der Daten mit Standardalgorithmen für spaltenorientierte Datenbanken hilfreich ist.

  • Optimierung der JOIN-Bedingungen innerhalb von Abfragen

    Beim Abfragen der Daten über mehrere Dimensionen hinweg ist es wichtig, die Daten aus zwei Tabellen für die Durchführung der Analyse zusammenzuführen. Der Beitrittsprozess sieht einfach aus, kann aber manchmal sehr komplex sein. Daher ist es immer empfehlenswert, die Tabellen mit großen Daten links und weniger Daten rechts zu halten. Auf diese Weise kann die Datenverarbeitungs-Engine die kleinere Tabelle auf der rechten Seite problemlos an die Worker-Knoten verteilen, während sie die Daten aus der linken Tabelle streamt und die beiden zusammenführt.

Ausgewählte Spalten in der Abfrage verwenden

Dies ist eine weitere obligatorische Optimierungstechnik, die den Zeit- und Kostenaufwand für die Ausführung von Athena-Abfragen erheblich reduziert. Es wird immer empfohlen, den Namen der Spalten, für die jemand eine Analyse durchführt, in der Auswahlabfrage explizit zu erwähnen, anstatt eine Auswahl aus dem Tabellennamen anzugeben.

Optimieren Sie die Musterabgleichstechnik in der Abfrage

Es gibt viele Fälle, in denen es erforderlich ist, die Daten basierend auf Mustern in den Daten im Gegensatz zu einem Schlüsselwort abzufragen. In SQL ist eine der einfachen Möglichkeiten, dies zu implementieren, die Verwendung des LIKE-Operators, bei dem man das Muster erwähnen kann und die Abfrage Daten abruft, die wieder mit dem Muster übereinstimmen. In Amazon Athena kann man anstelle des LIKE-Operators REGEX zum Abgleichen von Mustern verwenden, da dies viel schneller ist.

Fazit

Da Daten zu einem wichtigen Bestandteil der Unternehmensentwicklung geworden sind, ist der Prozess, Erkenntnisse zu gewinnen und mehr Daten zu extrahieren, jetzt umso wichtiger geworden. Mit den öffentlichen Cloud-Diensten, die dienstbasierte Analysedienste wie Amazon Athena anbieten, können viele Unternehmen ohne Komplikationen mehr Einblicke erhalten, als dies bei anderen Analysetools der Fall wäre.

Als eine der besten serverlosen Architekturen macht Amazon Athena Datenabfragen einfach zu verwenden, einzurichten und schnell auszuführen. Tatsächlich macht das Pay-per-Use-Modell von Athena das Ganze erschwinglich, um Analysen durchzuführen. Da Athena mit Amazon S3 zusammenarbeitet und über eine hervorragende Skalierbarkeit, Zuverlässigkeit und Langlebigkeit verfügt, ist dies außerdem eine der besten Suiten für die Ausführung von Analyse-Workloads.

Falls Sie Unterstützung bei der Implementierung und Nutzung von Amazon Athena benötigen, können Sie sich gerne an unsere Berater bei Encaptechno wenden . Wir haben ein geschultes Team, das Ihnen während Ihrer gesamten Reise mit Amazon Athena umfassende Unterstützung bietet.