Instrumentele de care are nevoie cercetătorul dvs. de date pentru a fi eficiente

Publicat: 2022-04-28

În postările anterioare, am discutat despre cum să construim o foaie de parcurs pentru știința datelor și să stabilim ce date veți folosi pentru a ajuta un cercetător de date nou angajat să dea drumul. Dar nu este suficient să ai idei bune, date și un cercetător de date: cercetătorul de date are nevoie de instrumente puternice pentru a-și face treaba în mod eficient. În această postare vom discuta despre tipurile de instrumente necesare pentru ca un om de știință de date tipic să aibă succes.

Stratul de date

Produsele tehnologice moderne pot genera o mulțime de date: fluxuri de clic, telemetrie, conținut generat de utilizatori, cum ar fi comentarii sau recenzii și puncte de contact pentru experiența clienților, pentru a numi câteva. Este esențial ca aceste date să fie localizate, mapate și, dacă este posibil, încărcate într-o singură locație centrală. Acest depozit de date central este stratul de date al operațiunii tale Data Science.

Depozite de date

Dacă majoritatea datelor dvs. există în baze de date relaționale (sau ceea ce sunt adesea numite baze de date SQL), atunci unul dintre cele mai simple și mai bune lucruri pe care le puteți face pentru viitorul dvs. Data Scientist este să construiți un Data Warehouse .

De obicei, datele nu sunt colectate în scopul expres de a „face știință a datelor”; de exemplu, un site de comerț electronic colectează recenzii ale clienților într-o bază de date, astfel încât recenziile să poată fi afișate pe o pagină, nu pentru ca oamenii de știință din date să poată efectua procesarea limbajului natural pentru a descoperi modele în recenzii. Aceasta înseamnă că, deși recenziile sunt colectate, acestea sunt dificil și consumatoare de timp de analizat.

Un depozit de date este o bază de date SQL care conține toate datele necesare pentru analiză și business intelligence în organizația dvs. Dacă sunt proiectate corect, depozitele de date sunt rapid de interogat, ușor de scalat și vor conține toate datele de care are nevoie Data Scientist pentru a vă îndeplini obiectivele. Construirea acesteia înainte de a aduce un Data Scientist va reduce timpul pierdut în așteptarea accesului la date sau în interogarea bazelor de date lente.

Toți principalii furnizori de cloud oferă un anumit tip de tehnologie de depozit de date, care este ușor de configurat și scalat. Amazon Web Services (AWS) oferă Amazon Redshift și Redshift Spectrum, Google are Google BigQuery , iar Microsoft oferă Azure SQL Data Warehouse.

Data Lakes

Depozitele de date sunt puternice și utile atâta timp cât datele dumneavoastră pot fi încărcate într-o bază de date SQL. Cu toate acestea, acest lucru nu este întotdeauna practic. Multe organizații tehnologice moderne se ocupă de date semi-structurate sau nestructurate, caz în care poate fi destul de dificil să se încarce într-un depozit de date, care este construit în mod inerent pentru date structurate. În acest caz, am putea prefera să începem cu un Data Lake . Un lac de date este un depozit de date organizat care conține toate datele generate de organizația dvs., de obicei într-un format brut.

Pentru a utiliza eficient un lac de date, veți avea nevoie de instrumente pentru a efectua interogări și analize la scară largă asupra datelor conținute în lacul de date. Instrumentele de interogare sunt parte integrantă a unui depozit de date, dar va trebui să alegeți un instrument de interogare care să se asocieze cu lacul dvs. de date. În mod tradițional, acest lucru a fost realizat cu un cadru numit Apache Hadoop , un set de instrumente software pentru efectuarea de calcule programate sau în lot pe seturi enorme de date.

Un alt instrument comun pentru interogarea lacurilor de date este Apache Spark, care le permite oamenilor de știință să lucreze interactiv cu seturi de date mari folosind limbajul lor de programare preferat (python sau R). Pentru a înțelege mai bine cum funcționează lacurile de date, consultați acest infografic creat de G2 Crowd Learning Hub.

Ce-este-un-lac-de-date

Sursa: G2 Crowd

Stratul de calcul

Oamenii de știință în domeniul datelor fac lucruri diferite la diferite organizații, dar o constantă este că vor trebui să efectueze o analiză destul de grea. Pentru a face acest lucru, un cercetător de date are nevoie de un laptop puternic și, în funcție de funcțiile pe care le vor îndeplini, ar putea avea nevoie de instrumente de calcul suplimentare. Instrumentele puse la dispoziție pentru calcul formează stratul de calcul al operațiunii dvs. de știință a datelor.

Pentru munca de zi cu zi

Productivitatea Data Scientist poate fi mult îmbunătățită prin furnizarea de echipamente cu o cantitate mare de putere de calcul. Instrumentele tipice pentru analiza datelor sunt R sau Python cu notebook-ul Jupyter, iar aceste instrumente depind de stocarea seturilor de date și de efectuarea calculelor în memorie. Acest lucru face obișnuit ca un Data Scientist să-și maximizeze memoria laptopului, ceea ce duce la o muncă lentă sau chiar pierdută. Pentru a combate această problemă, alegeți cea mai mare RAM posibilă atunci când cumpărați un laptop pentru cercetătorul dvs. de date.

Instrumente de calcul pentru învățarea automată

Tehnicile moderne de învățare automată sunt uimitor de bune în a face lucruri precum recunoașterea imaginilor sau a fețelor, procesarea limbajului natural și multe alte sarcini care erau aproape de neimaginat pentru un computer chiar și acum câțiva ani. Dar aceste progrese au un cost: construirea modelelor de învățare automată necesită o putere de calcul imensă – mai mult decât poate fi găsită în majoritatea laptopurilor.

Un progres important este dezvoltarea de calcul GPU (Graphics Processing Unit) pentru învățarea automată. GPU-urile au fost concepute inițial ca instrumente pentru redarea eficientă a graficelor complexe, eliberând CPU (unitatea centrală de procesare) pentru a face alte lucruri. În timp ce un procesor este proiectat pentru a îndeplini sarcini complexe pe rând, GPU-urile sunt concepute pentru a îndeplini sarcini foarte simple în mii de o dată. Acest stil de calcul este perfect pentru matematica pe care o folosesc învățarea profundă și alte metode complexe de învățare automată. Cercetătorii și dezvoltatorii de învățare automată au învățat să valorifice calculul GPU pentru a accelera procesul de construire a acestor modele.

Pentru a profita de calculul GPU, aveți nevoie de acces la un computer cu un GPU discret. În mod tradițional, acest lucru se găsește în computerele de jocuri, dar pe măsură ce calcularea GPU a câștigat popularitate, GPU-urile discrete au devenit mai disponibile pe computerele profesionale de ultimă generație.

Cloud Computing

Pentru majoritatea organizațiilor, există o mulțime de avantaje pentru a menține efectiv toată activitatea de învățare automată pe cloud. Servicii precum Google Cloud Platform, Amazon Web Services, Microsoft Azure și altele permit utilizatorilor să închirieze o instanță virtuală a unui computer bine echipat situat într-unul dintre centrele lor de date. Instanțele cloud pot fi accesate în siguranță de pe orice computer conectat la Internet, ceea ce înseamnă că această abordare nu necesită ca Data Scientist să aibă un laptop specializat. Există și alte câteva avantaje majore ale cloud computing-ului.

Cel mai evident avantaj este scalabilitatea. Dacă aveți nevoie de mai multă putere de calcul pentru un nou proiect, resursele suplimentare pot fi grupate instantaneu prin creșterea plății lunare către serviciul cloud. Și resursele pot fi reduse la fel de repede. Puteți chiar să alegeți să rulați mai multe instanțe: o instanță cu putere mai mică pentru calcularea de zi cu zi și o instanță cu putere mai mare care este activată doar pentru ridicarea greutății. Acest lucru este obișnuit mai ales atunci când este necesară calcularea GPU, deoarece instanțele compatibile cu GPU tind să fie mai scumpe.

Un alt avantaj este securitatea datelor. Nu este cea mai bună idee să descărcați date pe laptopul personal pentru analiză, mai ales dacă acele date sunt sensibile. Utilizarea aceluiași furnizor de cloud pentru stocare și calcul este o modalitate de a vă păstra datele mai sigure.

Colaborați cu cercetătorul dvs. de date

Din păcate, este prea obișnuit ca organizațiile să angajeze un cercetător de date, dar nu reușesc să le ofere instrumentele și echipamentele necesare pentru a avea succes.

Fii pregătit să-l asculți pe noul tău Data Scientist. Acest lucru este valabil mai ales dacă angajați un Data Scientist experimentat cu experiență în realizarea acestui tip de muncă la scară la alte companii. Dacă nu sunteți sigur de ce instrumente veți avea nevoie pentru a-l împuternici pe Data Scientist, fiți pregătit să colaborați cu el sau ea pe o foaie de parcurs pentru Data Science care include idei, date și resurse de calcul.