Инструменты, которые нужны вашему специалисту по обработке и анализу данных для эффективной работы
Опубликовано: 2022-04-28В предыдущих сообщениях мы обсуждали, как построить дорожную карту науки о данных и определить , какие данные вы будете использовать, чтобы помочь только что нанятому специалисту по данным взяться за дело. Но недостаточно иметь хорошие идеи, данные и специалиста по данным: специалисту по данным нужны мощные инструменты для эффективного выполнения своей работы. В этом посте мы обсудим типы инструментов, необходимых типичному специалисту по данным для достижения успеха.
Уровень данных
Современные технологические продукты могут генерировать множество данных: потоки посещений, телеметрию, пользовательский контент, такой как комментарии или обзоры, и точки взаимодействия с клиентами, и это лишь некоторые из них. Очень важно, чтобы эти данные были расположены, нанесены на карту и, если возможно, загружены в единое центральное место. Это центральное хранилище данных является уровнем данных вашей операции Data Science.
Хранилища данных
Если большая часть ваших данных существует в реляционных базах данных (или в том, что часто называют базами данных SQL), то одна из самых простых и лучших вещей, которые вы можете сделать для своего потенциального специалиста по данным, — создать хранилище данных .
Данные обычно не собираются с явной целью «заниматься наукой о данных»; например, сайт электронной коммерции собирает отзывы клиентов в базу данных, чтобы эти отзывы можно было отобразить на странице, а не для того, чтобы специалисты по данным могли выполнять обработку естественного языка для обнаружения закономерностей в отзывах. Это означает, что, хотя отзывы собираются, их сложно и долго анализировать.
Хранилище данных — это база данных SQL, содержащая все данные, необходимые для аналитики и бизнес-аналитики в вашей организации. При правильной архитектуре хранилища данных быстро запрашиваются, легко масштабируются и будут содержать все данные, необходимые вашему специалисту по данным для достижения ваших целей. Создание такой системы до привлечения специалиста по данным сократит время, затрачиваемое на ожидание доступа к данным или запросы к медленным базам данных.
Все основные поставщики облачных услуг предоставляют технологию хранилища данных, которую легко настроить и масштабировать. Amazon Web Services (AWS) предоставляет Amazon Redshift и Redshift Spectrum, у Google есть Google BigQuery , а Microsoft предлагает Azure SQL Data Warehouse.
Озера данных
Хранилища данных являются мощными и полезными, если ваши данные могут быть загружены в базу данных SQL. Однако это не всегда практично. Многие современные технологические организации имеют дело с частично структурированными или неструктурированными данными, и в этом случае может быть довольно сложно загрузить их в хранилище данных, которое изначально создано для структурированных данных. В этом случае мы можем предпочесть начать с озера данных . Озеро данных — это организованное хранилище данных, содержащее все данные, созданные вашей организацией, обычно в необработанном формате.
Чтобы эффективно использовать озеро данных, вам потребуются инструменты для выполнения крупномасштабных запросов и анализа данных, содержащихся в озере данных. Инструменты запросов являются неотъемлемой частью хранилища данных, но вам нужно будет выбрать инструмент запросов, который будет сочетаться с вашим озером данных. Традиционно это делалось с помощью среды под названием Apache Hadoop , набора программных инструментов для выполнения запланированных или пакетных вычислений на огромных наборах данных.
Еще одним распространенным инструментом для запросов к озерам данных является Apache Spark, который позволяет специалистам по данным работать в интерактивном режиме с большими наборами данных, используя предпочитаемый ими язык программирования (python или R). Чтобы лучше понять, как работают озера данных, ознакомьтесь с этой инфографикой, созданной G2 Crowd Learning Hub.

Источник: Толпа G2
Уровень вычислений
Специалисты по обработке и анализу данных выполняют разные задачи в разных организациях, но есть одна постоянная вещь: им придется выполнять довольно тяжелую работу с числами. Для этого специалисту по данным требуется мощный ноутбук, и в зависимости от функций, которые он будет выполнять, ему могут понадобиться дополнительные вычислительные инструменты. Инструменты, доступные для вычислений, образуют вычислительный уровень вашей операции по обработке и анализу данных.

Для повседневной работы
Производительность вашего Data Scientist может быть значительно повышена за счет оборудования с большой вычислительной мощностью. Типичными инструментами для анализа данных являются R или Python с записной книжкой Jupyter, и эти инструменты зависят от хранения наборов данных и выполнения вычислений в памяти. Это часто приводит к тому, что Data Scientist максимально использует память своего ноутбука, что приводит к замедлению или даже потере работы. Чтобы решить эту проблему, выберите максимально возможную оперативную память при покупке ноутбука для вашего специалиста по данным.
Вычислительные инструменты для машинного обучения
Современные методы машинного обучения удивительно хорошо справляются с такими задачами, как распознавание изображений или лиц, обработка естественного языка и многие другие задачи, которые были почти невообразимы для компьютера даже несколько лет назад. Но за эти достижения приходится платить: создание моделей машинного обучения требует огромной вычислительной мощности — большей, чем у большинства ноутбуков.
Одним из важных достижений является разработка вычислений GPU (Graphics Processing Unit) для машинного обучения. Графические процессоры изначально разрабатывались как инструменты для эффективного рендеринга сложной графики, освобождая ЦП (центральный процессор) для других задач. В то время как центральный процессор предназначен для выполнения сложных задач по одной, графические процессоры предназначены для выполнения тысяч очень простых задач одновременно. Этот стиль вычислений идеально подходит для математики, которую используют глубокое обучение и другие сложные методы машинного обучения. Исследователи и разработчики машинного обучения научились использовать вычисления на GPU для ускорения процесса создания этих моделей.
Чтобы воспользоваться преимуществами вычислений на графическом процессоре, вам необходим доступ к компьютеру с дискретным графическим процессором. Традиционно это можно было найти в игровых компьютерах, но по мере роста популярности вычислений на графических процессорах дискретные графические процессоры стали более широко доступны на профессиональных компьютерах высокого класса.
Облачные вычисления
Для большинства организаций сохранение всей работы по машинному обучению в облаке дает множество преимуществ. Такие сервисы, как Google Cloud Platform, Amazon Web Services, Microsoft Azure и другие, позволяют пользователям арендовать виртуальный экземпляр хорошо оборудованного компьютера, расположенного в одном из их центров обработки данных. К облачным экземплярам можно безопасно получить доступ с любого компьютера, подключенного к Интернету, а это означает, что этот подход не требует от вашего специалиста по обработке и анализу данных наличия специального ноутбука. Есть еще несколько важных преимуществ облачных вычислений.
Наиболее очевидным преимуществом является масштабируемость. Если вам нужно больше вычислительной мощности для нового проекта, дополнительные ресурсы могут быть мобилизованы мгновенно, увеличив ваш ежемесячный платеж в облачный сервис. И ресурсы можно сократить так же быстро. Вы даже можете запустить несколько экземпляров: экземпляр с меньшей мощностью для повседневных вычислений и экземпляр с большей мощностью, который включается только для тяжелой работы. Это распространено, особенно когда требуются вычисления на графическом процессоре, поскольку экземпляры с поддержкой графического процессора, как правило, дороже.
Еще одним преимуществом является безопасность данных. Не лучшая идея загружать данные на свой персональный ноутбук для анализа, особенно если эти данные являются конфиденциальными. Использование одного и того же облачного провайдера для хранения и вычислений — это один из способов повысить безопасность ваших данных.
Сотрудничайте со своим специалистом по данным
К сожалению, слишком часто организации нанимают специалистов по данным, но не могут предоставить им инструменты и оборудование, необходимые для достижения успеха.
Будьте готовы слушать своего нового Data Scientist. Это особенно верно, если вы нанимаете опытного специалиста по данным с опытом выполнения такой работы в других компаниях. Если вы не уверены, какие инструменты вам потребуются для расширения возможностей ученого по данным, будьте готовы сотрудничать с ним или с ней в дорожной карте по науке о данных, которая включает идеи, данные и вычислительные ресурсы.
