Ce este Amazon Athena și cum funcționează?

Publicat: 2021-10-26

Ce este Amazon Athena și cum funcționează? | Encaptechno

Procesul de analiză a datelor este oarecum complex în natură și include mai mulți pași pentru simplificarea lucrurilor pentru care sunt disponibile multe instrumente. Amazon vine în ajutor furnizând un serviciu cu numele Amazon Athena care ajută la analiza datelor.

Amazon Athena este un instrument de analiză fără server care permite utilizatorilor să interogheze datele din S3 utilizând sintaxa SQL standard. În calitate de lider în lumea cloud computing, AWS oferă o gamă largă de servicii care oferă performanță competitivă și soluții accesibile, utilizate pentru rularea sarcinilor de lucru, în comparație cu arhitectura on-premise.

AWS Athena este un serviciu din domeniul de analiză care se concentrează pe regăsirea datelor statice care sunt stocate în compartimente S3 folosind instrucțiunile SQL standard. Poate fi considerat un instrument robust care îi ajută pe clienți să obțină informații importante despre datele lor stocate pe S3, deoarece este fără server și nu există o infrastructură de gestionare.

Ce este Amazon Athena?

Amazon a lansat Athena ca un serviciu important pe 20 noiembrie 2016. A fost lansat ca un serviciu de interogare fără server, menit să simplifice o analiză a datelor, folosind SQL-ul standard stocat în Amazon S3. Cu doar câteva clicuri simple în Consola de management AWS, clienții pot indica cu ușurință Amazon Athena către datele lor stocate în Amazon S3 în timp ce execută interogări folosind SQL standard pentru a genera rezultate în câteva secunde.

Cu serviciul de analiză interactiv al Amazon Athena, nu există nicio infrastructură pentru configurarea sau gestionarea, iar clienții plătesc doar pentru interogările pe care doresc să le execute. Se scalează automat în timp ce execută interogări în paralel, ceea ce oferă în cele din urmă rezultate rapide chiar și cu un set de date uriaș și interogări complexe.

Athena folosește un motor SQL distribuit numit Presto, care este util în rularea interogărilor SQL. Se bazează pe tehnologia populară open-source numită Hive, care ajută în continuare la stocarea datelor structurate, nestructurate și semi-structurate. Software-ul Apache Hive pentru depozitul de date facilitează citirea, scrierea și gestionarea seturilor de date mari care se află în stocarea distribuită folosind SQL.

Există o conductă de date simplă în care datele din diferite surse sunt preluate și aruncate în compartimentele S3. Acestea sunt date brute, ceea ce înseamnă că nu există încă transformări aplicate datelor. În acest moment, Amazon Athena poate fi utilizat pentru conectarea la aceste date în S3 în timp ce este analizat. Acesta este un proces simplu, deoarece nu trebuie să configurați nicio bază de date sau instrumente externe pentru a interoga datele brute. După ce ați terminat cu analiza și ați aflat rezultatele dorite, un cluster EMR poate fi utilizat pentru a rula transformările complexe de date analitice, în timp ce datele sunt curățate, procesate și stocate.

De ce ar trebui să folosești Athena?

De ce ar trebui să utilizați Amazon Athena?

Un utilizator Athena poate interoga datele criptate cu chei gestionate de serviciul de gestionare a cheilor AWS și, de asemenea, poate cripta rezultatele interogării. De fapt, Athena permite și accesul în mai multe conturi la compartimentele S3 deținute de un alt utilizator. Folosește cataloage de date gestionate pentru stocarea informațiilor și schemelor legate de căutările pe datele Amazon S3.

Una peste alta, serviciul interactiv de interogare este de fapt un instrument analitic care ajută organizațiile să analizeze rapid datele importante stocate în Amazon S3. Poate fi utilizat în procesarea seturilor de date nestructurate, structurate și semistructurate. Cu ajutorul lui Athena, este posibil să se creeze interogări dinamice pentru seturi de date. Funcționează cu AWS Glue pentru a vă oferi o modalitate mult mai bună de a stoca metadate în S3.

Folosind AWS Cloud Formation și Athena, puteți utiliza interogări denumite care vă permit să denumiți o anumită interogare și apoi să o denumiți folosind numele. Acesta este un serviciu interactiv de la AWS care poate fi folosit de oamenii de știință de date și dezvoltatori pentru a arunca o privire în tabelul de rulare a interogării. Ajută la preluarea datelor din S3 și le încarcă în diferite depozite de date folosind driverul Athena JDBC pentru analiza magazinului de jurnal și evenimentele de depozitare a datelor.

Funcționează AWS Athena

Amazon Athena lucrează în asociere directă cu datele S3. Este folosit ca motor SQL distribuit pentru rularea interogărilor și, de asemenea, folosește Apache Hive pentru crearea și modificarea tabelelor și partițiilor. Unele dintre punctele de vedere importante necesare pentru a lucra cu Athena includ:

  1. Trebuie să aveți un cont AWS
  2. Ar trebui să activați contul pentru a exporta datele de cost și utilizare în compartimentul S3.
  3. Puteți pregăti găleți pentru ca Athena să se conecteze.
  4. AWS creează, de asemenea, fișiere manifest cu utilizarea metadatelor de fiecare dată când scrie în bucket. De fapt, creează un folder în tehnologia AWS data de facturare, cunoscut sub numele de Athena, care conține doar datele.
  5. Pentru a simplifica configurarea, poate fi folosită și o regiune numită regiunea US-West-2.
  6. Ultimul și ultimul pas este descărcarea acreditărilor pentru noul utilizator, deoarece acreditările ajută la maparea indirectă la acreditările bazei de date.

Amazon oferă, de asemenea, un instrument numit Cost Explorer pentru glisare și plasare, care vine cu un set de rapoarte predefinite, cum ar fi costul lunar al serviciului, utilizarea instanței rezervate etc. În cazul în care sunteți curios, ar trebui să încercați să recreați interogarea deasupra serviciului. costuri și exploatare. Acest lucru nu este de fapt imposibil. Puteți tăia datele brute în timp ce calculați ratele de creștere fiecare, construiți histograme, calculați scorurile etc.

Unele dintre considerentele suplimentare de reținut în timpul lucrului cu Amazon Athena includ:

Model de prețuri

Prețul Athena este de peste 5 USD pentru scanarea datelor Terabyte de la S3 înconjurat până la cel mai apropiat megaoctet având un minim de 10 MB per interogare.

Reducerea costurilor

Trucul constă în reducerea datelor care sunt scanate în trei moduri numite comprimarea datelor, utilizarea datelor în coloană și partiționarea datelor.

Caracteristicile lui Athena

Dintre numeroasele servicii oferite de Amazon, Athena este unul dintre cele mai bune servicii. Are multiple caracteristici care îl fac potrivit pentru analiza datelor. Unele dintre caracteristici includ:

  • Implementare rapidă

Amazon Athena nu are nevoie de instalare. De fapt, poate fi accesat direct din Consola AWS numai folosind AWS CLI.

  • Fără server

Este fără server, astfel încât utilizatorul final nu trebuie să-și facă griji cu privire la configurare, infrastructură, scalare sau eșec. Athena se ocupă de toate cu ușurință.

  • Plătiți pe interogare

Athena vă taxează doar pentru interogarea pe care o executați, adică cantitatea de date care este gestionată per interogare. De fapt, puteți economisi mult dacă comprimați datele și le formatați în consecință.

  • Sigur

Folosind politicile IAM și identitatea AWS, Amazon Athena oferă control complet asupra setului de date. Cu datele stocate în compartimente S3, politicile IAM pot ajuta la gestionarea controlului pentru utilizatori.

  • Disponibil

Amazon Athena este foarte disponibil, iar utilizatorii pot executa interogări non-stop.

  • Rapid

Amazon Athena este un instrument de analiză rapid, deoarece poate efectua interogări complexe în mai puțin timp, împărțind interogările în unele simple și rulându-le în paralel și combinând rezultatele pentru a oferi rezultatul dorit.

  • Integrare

Una dintre cele mai bune caracteristici ale Athena este că poate fi integrat cu ușurință cu AWS Glue, care ajută utilizatorii să creeze un depozit de date unificat. Acest lucru ajută, de asemenea, la crearea unei versiuni mult mai bune a datelor, cu tabele, vizualizări etc. mai bune.

  • Interogări federate

Interogarea federativă Amazon Athena îi permite lui Athena să ruleze interogări SQL peste surse de date relaționale, obiect, non-relaționale și personalizate.

  • Învățare automată

Dezvoltatorii pot folosi Amazon Sage Maker pentru crearea și implementarea modelelor de învățare automată în Amazon Athena.

Tehnici de optimizare pentru AWS Athena

Tehnici de optimizare pentru AWS Athena

În timp ce lucrați cu servicii cloud, trebuie să aveți grijă de serviciile care sunt utilizate pentru cele mai puține resurse posibile și de cele care oferă cel mai bun rezultat într-un mod rentabil. Există multe măsuri care pot fi luate pentru optimizarea interogărilor în cadrul AWS Athena, astfel încât performanța generală să poată fi îmbunătățită și, de asemenea, costul poate fi ținut sub control. Unele dintre tehnicile comune de optimizare pentru serviciul de analiză interactivă Amazon Athena sunt:

  • Partiționarea datelor în S3

    Una dintre cele mai frecvente practici urmate pentru stocarea datelor în S3, partiționarea se face pentru a crea directoare separate pe baza dimensiunilor majore, cum ar fi dimensiunea dată și dimensiunea regiune. Poate fi folosit pentru a partiționa în funcție de an, lună și chiar zi pentru stocarea fișierelor în directorul fiecărei zile. Pe de altă parte, puteți, de asemenea, să partiționați după regiunea în care datele pot fi stocate pentru regiuni similare într-un singur director. Cu partiționare, Athena poate scana mai puține date per interogare, ceea ce face ca întreaga lucrare să fie rapidă și eficientă.

  • Tehnici de comprimare a datelor

    În timpul comprimarii datelor, este necesar un procesor pentru comprimarea și decomprimarea în timpul interogării. Chiar dacă există diferite tehnici de compresie disponibile, una dintre cele mai populare de utilizat cu Athena este Apache Parquet sau Apache ORC. Aceasta este o tehnică care este utilă în comprimarea datelor cu algoritmi impliciti pentru bazele de date columnare.

  • Raționalizarea condițiilor JOIN în cadrul interogărilor

    În momentul interogării datelor pe mai multe dimensiuni, un lucru important necesar este alăturarea datelor din două tabele pentru efectuarea analizei. Procesul de alăturare pare simplu, dar poate fi foarte complex uneori. Prin urmare, este întotdeauna recomandat să păstrați tabelele cu date mari în stânga și cu date mai mici în dreapta. Acesta este modul în care motorul de procesare a datelor poate distribui cu ușurință tabelul mai mic din dreapta către nodurile de lucru în timp ce transmiterea datelor din tabelul din stânga și le unește pe cele două.

Utilizarea coloanelor selectate în interogare

Aceasta este încă o altă tehnică de optimizare obligatorie care reduce în mare măsură timpul și banii necesari pentru a rula interogările Athena. Este întotdeauna recomandat să menționați în mod explicit numele coloanelor pe care cineva efectuează analize în interogarea de selectare, în comparație cu specificarea unei selectări din numele tabelului.

Optimizați tehnica de potrivire a modelelor în interogare

Există de multe ori când este necesară interogarea datelor pe baza modelelor din date, spre deosebire de un cuvânt cheie. În SQL, una dintre modalitățile ușoare de a implementa acest lucru este utilizarea operatorului LIKE, unde se poate menționa modelul și interogarea preia date care se potrivesc din nou cu modelul. În Amazon Athena, se poate folosi REGEX pentru potrivirea modelelor în loc de operatorul LIKE, deoarece este mult mai rapid.

Concluzie

Odată cu faptul că datele devin o parte importantă a dezvoltării unei companii, procesul de obținere a informațiilor și extragerea mai multor date a devenit cu atât mai important acum. Cu serviciile cloud publice, care oferă servicii de analiză bazate pe servicii, cum ar fi Amazon Athena, multe companii pot obține mai multe informații fără complicații care pot veni cu alte instrumente de analiză.

Fiind una dintre cele mai bune arhitecturi fără server, Amazon Athena face interogările de date ușor de utilizat, configurat și rapid de rulat. De fapt, modelul de plată pe utilizare al Athena face ca întregul lucru să fie accesibil pentru a rula analize. În plus, deoarece Athena funcționează cu Amazon S3 și vine cu o scalabilitate, fiabilitate și durabilitate deosebite, aceasta este una dintre cele mai bune suite pentru a rula sarcini de lucru de analiză.

În cazul în care aveți nevoie de sprijin în implementarea și utilizarea Amazon Athena, nu ezitați să luați legătura cu consultanții noștri de la Encaptechno . Avem o echipă instruită pentru a vă oferi asistență extinsă pe tot parcursul călătoriei dvs. cu Amazon Athena.