Gli strumenti di cui il tuo data scientist ha bisogno per essere efficace
Pubblicato: 2022-04-28Nei post precedenti, abbiamo discusso su come creare una roadmap per la scienza dei dati e determinare quali dati utilizzerai per aiutare un data scientist appena assunto a iniziare a correre. Ma non basta avere buone idee, dati e un data scientist: il data scientist ha bisogno di strumenti potenti per svolgere il proprio lavoro in modo efficace. In questo post discuteremo i tipi di strumenti necessari per il successo di un tipico data scientist.
Il livello dati
I prodotti tecnologici moderni possono generare molti dati: flussi di clic, telemetria, contenuti generati dagli utenti come commenti o recensioni e punti di contatto dell'esperienza del cliente, solo per citarne alcuni. È fondamentale che questi dati vengano individuati, mappati e, se possibile, caricati in un'unica posizione centrale. Questo archivio dati centrale è il livello dati della tua operazione di Data Science.
Data Warehouse
Se la maggior parte dei tuoi dati esiste in database relazionali (o quelli che vengono spesso chiamati database SQL), una delle cose più semplici e migliori che puoi fare per il tuo potenziale scienziato di dati è costruire un Data Warehouse .
I dati non vengono generalmente raccolti per lo scopo esplicito di "fare scienza dei dati"; ad esempio, un sito di e-commerce raccoglie le recensioni dei clienti in un database in modo che le recensioni possano essere visualizzate su una pagina, non affinché i data scientist possano eseguire l'elaborazione del linguaggio naturale per scoprire i modelli nelle recensioni. Ciò significa che, sebbene le recensioni siano raccolte, sono difficili e dispendiose in termini di tempo da analizzare.
Un data warehouse è un database SQL che contiene tutti i dati necessari per l'analisi e la business intelligence nell'organizzazione. Se progettati correttamente, i data warehouse sono veloci da interrogare, facili da scalare e conterranno tutti i dati di cui il tuo data scientist ha bisogno per raggiungere i tuoi obiettivi. Avere questo costruito prima di coinvolgere un Data Scientist ridurrà il tempo sprecato nell'attesa dell'accesso ai dati o nell'esecuzione di query su database lenti.
Tutti i principali fornitori di cloud forniscono un qualche tipo di tecnologia di data warehouse, che è facile da configurare e scalare. Amazon Web Services (AWS) fornisce Amazon Redshift e Redshift Spectrum, Google ha Google BigQuery e Microsoft offre Azure SQL Data Warehouse.
Laghi di dati
I data warehouse sono potenti e utili fintanto che i dati possono essere caricati in un database SQL. Tuttavia, questo non è sempre pratico. Molte moderne organizzazioni tecnologiche si occupano di dati semi-strutturati o non strutturati, nel qual caso può essere piuttosto difficile caricarli in un data warehouse, che è intrinsecamente costruito per dati strutturati. In questo caso potremmo preferire iniziare con un Data Lake . Un data lake è un archivio dati organizzato che contiene tutti i dati generati dall'organizzazione, in genere in un formato non elaborato.
Per utilizzare in modo efficace un data lake, saranno necessari strumenti per eseguire query e analisi su larga scala sui dati contenuti nel data lake. Gli strumenti di query sono parte integrante di un data warehouse, ma dovrai scegliere uno strumento di query da abbinare al tuo data lake. Tradizionalmente, questo è stato fatto con un framework chiamato Apache Hadoop , un insieme di strumenti software per eseguire calcoli programmati o batch su enormi insiemi di dati.
Un altro strumento comune per eseguire query sui data lake è Apache Spark, che consente ai data scientist di lavorare in modo interattivo con i big data set utilizzando il loro linguaggio di programmazione preferito (python o R). Per capire meglio come funzionano i data lake, dai un'occhiata a questa infografica creata da G2 Crowd Learning Hub.

Fonte: folla G2
Il livello di calcolo
I data scientist fanno cose diverse in diverse organizzazioni, ma una costante è che dovranno eseguire un crunching di numeri piuttosto pesante. Per fare ciò, un data scientist richiede un laptop potente e, a seconda delle funzioni che eseguirà, potrebbe aver bisogno di strumenti di calcolo aggiuntivi. Gli strumenti messi a disposizione per il calcolo formano il livello di calcolo dell'operazione di data science.

Per il lavoro quotidiano
La produttività del tuo Data Scientist può essere notevolmente migliorata fornendo apparecchiature con una grande quantità di potenza di calcolo. Gli strumenti tipici per l'analisi dei dati sono R o Python con il notebook Jupyter e questi strumenti dipendono dall'archiviazione di set di dati e dall'esecuzione di calcoli in memoria. Ciò rende comune per un Data Scientist massimizzare la memoria del proprio laptop, con conseguente rallentamento o addirittura perdita di lavoro. Per combattere questo problema, scegli la maggior quantità di RAM possibile quando acquisti un laptop per il tuo data scientist.
Strumenti informatici per l'apprendimento automatico
Le moderne tecniche di apprendimento automatico sono sorprendentemente brave a fare cose come riconoscere immagini o volti, elaborare il linguaggio naturale e molte altre attività che erano quasi inimmaginabili per un computer anche solo pochi anni fa. Ma questi progressi hanno un costo: la creazione di modelli di machine learning richiede un'immensa potenza di calcolo, più di quella che si può trovare nella maggior parte dei laptop.
Un importante progresso è lo sviluppo del calcolo GPU (Graphics Processing Unit) per l'apprendimento automatico. Le GPU sono state originariamente progettate come strumenti per il rendering efficiente di grafica complessa, liberando la CPU (Central Processing Unit) per fare altre cose. Mentre una CPU è progettata per eseguire attività complesse una alla volta, le GPU sono progettate per eseguire attività molto semplici migliaia alla volta. Questo stile di calcolo è perfetto per la matematica utilizzata dal deep learning e da altri complessi metodi di machine learning. I ricercatori e gli sviluppatori di machine learning hanno imparato a sfruttare il GPU computing per accelerare il processo di creazione di questi modelli.
Per sfruttare il GPU computing, è necessario accedere a un computer con una GPU discreta. Tradizionalmente questo si trova nei computer da gioco, ma poiché il GPU computing ha guadagnato popolarità, le GPU discrete sono diventate più ampiamente disponibili sui computer professionali di fascia alta.
Cloud computing
Per la maggior parte delle organizzazioni, ci sono molti vantaggi nel mantenere effettivamente tutto il lavoro di machine learning sul cloud. Servizi come Google Cloud Platform, Amazon Web Services, Microsoft Azure e altri consentono agli utenti di noleggiare un'istanza virtuale di un computer ben attrezzato situato in uno dei loro data center. È possibile accedere in modo sicuro alle istanze cloud da qualsiasi computer connesso a Internet, il che significa che questo approccio non richiede che il data scientist disponga di un laptop specializzato. Ci sono alcuni altri importanti vantaggi del cloud computing.
Il vantaggio più evidente è la scalabilità. Se hai bisogno di più potenza di calcolo per un nuovo progetto, è possibile utilizzare istantaneamente risorse aggiuntive aumentando il pagamento mensile al servizio cloud. E le risorse possono essere ridimensionate altrettanto velocemente. Puoi anche scegliere di eseguire più istanze: un'istanza a potenza inferiore per l'elaborazione quotidiana e un'istanza a potenza superiore che viene attivata solo per il sollevamento di carichi pesanti. Questo è comune soprattutto quando è richiesto il GPU computing, poiché le istanze abilitate per GPU tendono ad essere più costose.
Un altro vantaggio è la sicurezza dei dati. Non è l'idea migliore scaricare i dati sul tuo laptop personale per l'analisi, soprattutto se tali dati sono sensibili. L'utilizzo dello stesso provider cloud per l'archiviazione e il calcolo è un modo per mantenere i tuoi dati più sicuri.
Collabora con il tuo data scientist
Purtroppo è troppo comune che le organizzazioni assumano un data scientist ma non forniscano loro gli strumenti e le attrezzature necessarie per avere successo.
Preparati ad ascoltare il tuo nuovo Data Scientist. Ciò è particolarmente vero se stai assumendo un esperto di dati con esperienza in questo tipo di lavoro su larga scala presso altre aziende. Se non sei sicuro di quali strumenti ti occorrono per potenziare il data scientist, preparati a collaborare con lui o lei su una roadmap di data science che includa idee, dati e risorse computazionali.
