Что такое Amazon Athena и как это работает?

Опубликовано: 2021-10-26

Процесс анализа данных несколько сложен по своей природе и включает в себя несколько шагов для упрощения вещей, для которых доступно множество инструментов. На помощь приходит Amazon, предоставляя сервис под названием Amazon Athena, который помогает в анализе данных.

Amazon Athena — это бессерверный аналитический инструмент , который позволяет пользователям запрашивать данные из S3, используя стандартный синтаксис SQL. Являясь лидером в мире облачных вычислений, AWS предлагает широкий спектр услуг, которые предлагают конкурентоспособную производительность и доступные решения, используемые для выполнения рабочих нагрузок по сравнению с локальной архитектурой.

AWS Athena — это сервис из области аналитики, который фокусируется на извлечении статических данных, хранящихся в корзинах S3, с помощью стандартных операторов SQL. Его можно рассматривать как надежный инструмент, который помогает клиентам получать важную информацию об их данных, хранящихся на S3, поскольку он не содержит серверов и не имеет инфраструктуры для управления.

Что такое Амазон Афина?

Amazon запустил Athena в качестве важного сервиса 20 ноября 2016 года. Он был запущен как бессерверный сервис запросов, предназначенный для упрощения анализа данных с использованием стандартного SQL, хранящегося в Amazon S3. С помощью всего нескольких простых щелчков в Консоли управления AWS клиенты могут легко указать Amazon Athena на свои данные, хранящиеся в Amazon S3, и выполнять запросы с использованием стандартного SQL для получения результатов за считанные секунды.

В сервисе интерактивной аналитики Amazon Athena отсутствует инфраструктура для настройки или управления, и клиенты платят только за те запросы, которые они хотят выполнять. Он автоматически масштабируется при параллельном выполнении запросов, что в конечном итоге дает быстрые результаты даже с огромным набором данных и сложными запросами.

Athena использует распределенный механизм SQL под названием Presto, который полезен при выполнении запросов SQL. Он основан на популярной технологии с открытым исходным кодом под названием Hive, которая также помогает хранить структурированные, неструктурированные и частично структурированные данные. Программное обеспечение хранилища данных Apache Hive облегчает чтение, запись и управление большими наборами данных, которые находятся в распределенном хранилище, с помощью SQL.

Существует простой конвейер данных, в котором данные из разных источников извлекаются и сбрасываются в корзины S3. Это необработанные данные, что означает, что к данным еще не применялись преобразования. В настоящее время Amazon Athena можно использовать для подключения к этим данным в S3 во время анализа. Это простой процесс, поскольку вам не нужно настраивать базу данных или внешние инструменты для запроса необработанных данных. После того, как вы закончите анализ и получите желаемые результаты, кластер EMR можно использовать для выполнения сложных аналитических преобразований данных, пока данные очищаются, обрабатываются и сохраняются.

Почему вы должны использовать Афину?

Пользователь Athena может запрашивать зашифрованные данные с помощью ключей, управляемых службой управления ключами AWS, а также шифровать результаты запроса. Фактически, Athena также разрешает доступ между учетными записями к корзинам S3, принадлежащим другому пользователю. Он использует управляемые каталоги данных для хранения информации и схем, связанных с поиском данных Amazon S3.

В целом интерактивный сервис запросов на самом деле является аналитическим инструментом, который помогает организациям быстро анализировать важные данные, хранящиеся в Amazon S3. Его можно использовать при обработке неструктурированных, структурированных и полуструктурированных наборов данных. С помощью Athena можно создавать динамические запросы к наборам данных. Он работает с AWS Glue, предоставляя вам гораздо лучший способ хранения метаданных в S3.

Используя AWS Cloud Formation и Athena, вы можете использовать именованные запросы, которые позволяют вам назвать конкретный запрос, а затем также вызвать его, используя имя. Это интерактивный сервис от AWS, который может использоваться учеными и разработчиками данных для просмотра таблицы выполнения запроса. Он помогает извлекать данные из S3 и загружать их в разные хранилища данных с помощью драйвера Athena JDBC для анализа хранилища журналов и событий хранилища данных.

Работа AWS Athena

Amazon Athena работает в прямой связи с данными S3. Он используется как распределенный механизм SQL для выполнения запросов, а также использует Apache Hive для создания и изменения таблиц и разделов. Некоторые из важных точек зрения, необходимых для работы с Athena, включают:

У вас должна быть учетная запись AWS
Вы должны разрешить своей учетной записи экспортировать данные о затратах и использовании в корзину S3.
Вы можете подготовить ведра для подключения Athena.
AWS также создает файлы манифеста с использованием метаданных при каждой записи в корзину. На самом деле, он создает папку в технологическом сегменте биллинговых данных AWS, известную как Athena, которая содержит только данные.
Для упрощения настройки также можно использовать регион под названием US-West-2.
Последним и заключительным шагом является загрузка учетных данных для нового пользователя, поскольку учетные данные помогают косвенно сопоставить учетные данные базы данных.

Amazon также предлагает инструмент под названием Cost Explorer для перетаскивания, который поставляется с набором предварительно созданных отчетов, таких как ежемесячная стоимость обслуживания, использование зарезервированного экземпляра и т. д. Если вам интересно, попробуйте воссоздать запрос над службой. расходы и эксплуатация. Это на самом деле не невозможно. Вы можете нарезать необработанные данные, вычисляя темпы роста каждого, строя гистограммы, вычисляя баллы и т. д.

Некоторые из дополнительных соображений, которые следует учитывать при работе с Amazon Athena, включают:

Модель ценообразования

Цена Athena составляет более 5 долларов США за сканирование данных в терабайтах с S3, окруженных ближайшим мегабайтом, имеющим минимум 10 МБ на запрос.

Снижение стоимости

Хитрость заключается в сокращении сканируемых данных тремя способами: сжатием данных, использованием данных столбцов и разделением данных.

Особенности Афины

Из множества сервисов, предоставляемых Amazon, Athena — один из лучших сервисов. Он имеет несколько функций, которые делают его подходящим для анализа данных. Некоторые из особенностей включают в себя:

Быстрая реализация

Amazon Athena не требует установки. На самом деле к нему можно получить доступ непосредственно из консоли AWS только с помощью интерфейса командной строки AWS.

Бессерверный

Это бессерверное решение, поэтому конечному пользователю не нужно беспокоиться о конфигурации, инфраструктуре, масштабировании или сбоях. Афина легко со всем этим справится.

Оплата за запрос

Athena взимает плату только за выполняемый вами запрос, который представляет собой объем данных, обрабатываемых для каждого запроса. На самом деле вы можете значительно сэкономить, если сожмете данные и отформатируете их соответствующим образом.

Безопасный

Используя политики IAM и удостоверение AWS, Amazon Athena предлагает полный контроль над набором данных. Поскольку данные хранятся в корзинах S3, политики IAM могут помочь в управлении контролем для пользователей.

Доступный

Amazon Athena отличается высокой доступностью, и пользователи могут выполнять запросы круглосуточно.

Быстрый

Amazon Athena — это инструмент для быстрой аналитики, поскольку он может выполнять сложные запросы за меньшее время, разбивая запросы на простые, выполняя их параллельно и объединяя результаты для получения желаемого результата.

Интеграция

Одной из лучших особенностей Athena является то, что ее можно легко интегрировать с AWS Glue, что помогает пользователям создавать единый репозиторий данных. Это также помогает создавать более качественные версии данных, с лучшими таблицами, представлениями и т. д.

Федеративные запросы

Объединение запросов Amazon Athena позволяет Athena выполнять SQL-запросы ко всем реляционным, объектным, нереляционным и пользовательским источникам данных.

Машинное обучение

Разработчики могут использовать Amazon Sage Maker для создания и развертывания моделей машинного обучения в Amazon Athena.

Методы оптимизации для AWS Athena

При работе с облачными сервисами необходимо позаботиться о сервисах, которые используются с наименьшими возможными ресурсами, и о тех, которые предлагают наилучший результат с минимальными затратами. Существует множество мер, которые можно предпринять для оптимизации запросов в AWS Athena, чтобы повысить общую производительность и контролировать затраты. Вот некоторые из распространенных методов оптимизации службы интерактивной аналитики Amazon Athena:

Разделение данных в S3
Одна из наиболее распространенных практик хранения данных в S3 — разделение выполняется для создания отдельных каталогов на основе основных измерений, таких как измерение даты и измерение региона. Его можно использовать для разделения по годам, месяцам и даже дням для хранения файлов в каталоге каждого дня. С другой стороны, вы также можете разделить по регионам, где могут храниться данные для аналогичных регионов в одном каталоге. Благодаря секционированию Athena может сканировать меньше данных за запрос, что делает всю работу быстрой и эффективной.
Методы сжатия данных
При сжатии данных ЦП необходим для сжатия и распаковки во время выполнения запросов. Несмотря на то, что доступны различные методы сжатия, одним из самых популярных для использования с Athena является Apache Parquet или Apache ORC. Это метод, который полезен при сжатии данных с помощью алгоритмов по умолчанию для столбцовых баз данных.

Оптимизация условий JOIN в запросах
Во время запроса данных по нескольким измерениям важно объединить данные из двух таблиц для проведения анализа. Процесс присоединения выглядит простым, но иногда может быть очень сложным. Следовательно, всегда рекомендуется держать таблицы с большими данными слева и меньшими данными справа. Это способ, которым механизм обработки данных может легко распределять меньшую таблицу справа по рабочим узлам, одновременно передавая данные из левой таблицы и объединяя их.

Использование выбранных столбцов в запросе

Это еще один обязательный метод оптимизации, который значительно сокращает время и деньги, затрачиваемые на выполнение запросов Athena. Всегда рекомендуется явно указывать имя столбца, для которого кто-то выполняет анализ в запросе на выборку, по сравнению с указанием выбора из имени таблицы.

Оптимизация метода сопоставления с образцом в запросе

Во многих случаях требуется запрашивать данные на основе шаблонов в данных, а не ключевого слова. В SQL одним из простых способов реализовать это является использование оператора LIKE, в котором можно упомянуть шаблон, и запрос извлекает данные, которые снова соответствуют шаблону. В Amazon Athena можно использовать REGEX для сопоставления шаблонов вместо оператора LIKE, так как это намного быстрее.

Вывод

Поскольку данные становятся важной частью развития компании, процесс получения информации и извлечения большего количества данных становится все более важным. С общедоступными облачными сервисами, предлагающими услуги аналитики на основе сервисов, такие как Amazon Athena, многие компании могут получить больше информации без осложнений, которые могут возникнуть с другими инструментами аналитики.

Как одна из лучших бессерверных архитектур, Amazon Athena упрощает использование, настройку и быстрое выполнение запросов к данным. Фактически, модель Athena с оплатой по мере использования делает все это доступным для запуска аналитики. Более того, поскольку Athena работает с Amazon S3 и обладает отличной масштабируемостью, надежностью и долговечностью, это один из лучших наборов для выполнения аналитических рабочих нагрузок.

Если вам нужна поддержка во внедрении и использовании Amazon Athena, не стесняйтесь обращаться к нашим консультантам в Encaptechno . У нас есть обученная команда, которая предложит вам всестороннюю поддержку на протяжении всего вашего путешествия с Amazon Athena.

Что такое Amazon Athena и как это работает?

Что такое Амазон Афина?

Почему вы должны использовать Афину?

Работа AWS Athena

Модель ценообразования

Снижение стоимости

Особенности Афины

Быстрая реализация

Бессерверный

Оплата за запрос

Безопасный

Доступный

Быстрый

Интеграция

Федеративные запросы

Машинное обучение

Методы оптимизации для AWS Athena

Разделение данных в S3

Методы сжатия данных

Оптимизация условий JOIN в запросах

Использование выбранных столбцов в запросе

Оптимизация метода сопоставления с образцом в запросе

Вывод