Alat yang Dibutuhkan Data Scientist agar Efektif

Diterbitkan: 2022-04-28

Dalam posting sebelumnya, kita telah membahas cara membuat peta jalan ilmu data dan menentukan data mana yang akan Anda gunakan untuk membantu ilmuwan data yang baru direkrut untuk memulai. Tetapi tidak cukup hanya memiliki ide, data, dan ilmuwan data yang baik: ilmuwan data membutuhkan alat yang kuat untuk melakukan pekerjaan mereka secara efektif. Dalam posting ini kita akan membahas jenis alat yang diperlukan agar ilmuwan data tipikal berhasil.

Lapisan Data

Produk teknologi modern dapat menghasilkan banyak data: aliran klik, telemetri, konten buatan pengguna seperti komentar atau ulasan, dan titik kontak pengalaman pelanggan, untuk beberapa nama. Sangat penting untuk data ini ditempatkan, dipetakan, dan jika mungkin, dimuat ke satu lokasi pusat. Penyimpanan data pusat ini adalah Lapisan Data dari operasi Ilmu Data Anda.

Gudang Data

Jika sebagian besar data Anda ada di database relasional (atau yang sering disebut database SQL), maka salah satu hal termudah dan terbaik yang dapat Anda lakukan untuk calon Data Scientist Anda adalah dengan membangun Data Warehouse .

Data biasanya tidak dikumpulkan untuk tujuan “melakukan ilmu data”; misalnya, situs e-niaga mengumpulkan ulasan pelanggan dalam database sehingga ulasan dapat ditampilkan di halaman, bukan agar Ilmuwan Data dapat melakukan pemrosesan bahasa alami untuk menemukan pola dalam ulasan. Ini berarti bahwa, meskipun ulasan dikumpulkan, mereka sulit dan memakan waktu untuk dianalisis.

Gudang data adalah database SQL yang berisi semua data yang diperlukan untuk analitik dan intelijen bisnis di organisasi Anda. Jika dirancang dengan benar, gudang data cepat untuk melakukan kueri, mudah untuk diskalakan, dan akan berisi semua data yang dibutuhkan Data Scientist untuk memenuhi tujuan Anda. Memiliki ini dibangun sebelum membawa Ilmuwan Data akan mengurangi waktu yang terbuang untuk menunggu akses ke data atau menanyakan database yang lambat.

Semua penyedia cloud utama menyediakan beberapa jenis teknologi gudang data, yang mudah diatur dan diskalakan. Amazon Web Services (AWS) menyediakan Amazon Redshift dan Redshift Spectrum, Google memiliki Google BigQuery , dan Microsoft menawarkan Azure SQL Data Warehouse.

Danau Data

Gudang data sangat kuat dan berguna selama data Anda dapat dimuat ke dalam database SQL. Namun, ini tidak selalu praktis. Banyak organisasi teknologi modern berurusan dengan data yang semi-terstruktur atau tidak terstruktur, dalam hal ini cukup sulit untuk memuatnya ke dalam gudang data, yang secara inheren dibangun untuk data terstruktur. Dalam hal ini kita mungkin lebih suka memulai dengan Data Lake . Data lake adalah penyimpanan data terorganisir yang berisi semua data yang dihasilkan oleh organisasi Anda, biasanya dalam format mentah.

Untuk memanfaatkan data lake secara efektif, Anda akan memerlukan alat untuk melakukan kueri dan analisis skala besar pada data yang terkandung dalam data lake. Alat kueri adalah bagian tak terpisahkan dari gudang data, tetapi Anda harus memilih alat kueri untuk dipasangkan dengan data lake Anda. Secara tradisional, ini telah dilakukan dengan kerangka kerja yang disebut Apache Hadoop , seperangkat alat perangkat lunak untuk melakukan perhitungan terjadwal atau batch pada kumpulan data yang sangat besar.

Alat umum lainnya untuk menanyakan data lake adalah Apache Spark, yang memungkinkan Ilmuwan Data bekerja secara interaktif dengan kumpulan data besar menggunakan bahasa pemrograman pilihan mereka (python atau R). Untuk lebih memahami cara kerja data lake, lihat infografis yang dibuat oleh G2 Crowd Learning Hub ini.

Apa-itu-data-danau

Sumber: G2 Crowd

Lapisan Hitung

Ilmuwan Data melakukan hal yang berbeda di organisasi yang berbeda, tetapi satu hal yang konstan adalah bahwa mereka perlu melakukan beberapa penghitungan angka yang cukup berat. Untuk melakukan ini, seorang ilmuwan data memerlukan laptop yang kuat, dan tergantung pada fungsi yang akan mereka lakukan, mereka mungkin memerlukan alat komputasi tambahan. Alat yang tersedia untuk komputasi membentuk lapisan komputasi dari operasi ilmu data Anda.

Untuk Pekerjaan Sehari-hari

Produktivitas Data Scientist Anda dapat ditingkatkan secara signifikan dengan menyediakan peralatan dengan daya komputasi yang besar. Alat khas untuk analisis data adalah R atau Python dengan notebook Jupyter, dan alat ini bergantung pada penyimpanan kumpulan data dan melakukan perhitungan dalam memori. Hal ini membuat Data Scientist biasa memaksimalkan memori laptop mereka, sehingga pekerjaan menjadi lambat atau bahkan hilang. Untuk mengatasi masalah ini, pilihlah RAM sebanyak mungkin saat membeli laptop untuk ilmuwan data Anda.

Alat Komputasi untuk Pembelajaran Mesin

Teknik pembelajaran mesin modern sangat bagus dalam melakukan hal-hal seperti mengenali gambar atau wajah, pemrosesan bahasa alami, dan banyak lagi tugas yang hampir tak terbayangkan untuk komputer bahkan beberapa tahun yang lalu. Namun kemajuan ini membutuhkan biaya: membangun model pembelajaran mesin membutuhkan daya komputasi yang sangat besar—lebih dari yang dapat ditemukan di kebanyakan laptop.

Salah satu kemajuan penting adalah pengembangan komputasi GPU (Graphics Processing Unit) untuk pembelajaran mesin. GPU pada awalnya dirancang sebagai alat untuk merender grafik kompleks secara efisien, membebaskan CPU (Central Processing Unit) untuk melakukan hal lain. Sementara CPU dirancang untuk melakukan tugas kompleks satu per satu, GPU dirancang untuk melakukan ribuan tugas yang sangat sederhana sekaligus. Gaya komputasi ini sangat cocok untuk matematika yang digunakan pembelajaran mendalam dan metode pembelajaran mesin kompleks lainnya. Peneliti dan pengembang pembelajaran mesin telah belajar memanfaatkan komputasi GPU untuk mempercepat proses pembuatan model ini.

Untuk memanfaatkan komputasi GPU, Anda memerlukan akses ke komputer dengan GPU diskrit. Secara tradisional ini akan ditemukan di komputer game, tetapi karena komputasi GPU telah mendapatkan popularitas, GPU diskrit menjadi lebih banyak tersedia di komputer profesional kelas atas.

Komputasi awan

Bagi sebagian besar organisasi, ada banyak keuntungan untuk benar-benar menjaga agar semua pembelajaran mesin bekerja di cloud. Layanan seperti Google Cloud Platform, Amazon Web Services, Microsoft Azure, dan lainnya memungkinkan pengguna untuk menyewa mesin virtual dari komputer yang dilengkapi dengan baik yang terletak di salah satu pusat data mereka. Instans cloud dapat diakses dengan aman dari komputer mana pun yang terhubung ke Internet, artinya pendekatan ini tidak mengharuskan Data Scientist Anda memiliki laptop khusus. Ada beberapa keuntungan utama lainnya dari komputasi awan.

Keuntungan yang paling jelas adalah skalabilitas. Jika Anda membutuhkan lebih banyak daya komputasi untuk proyek baru, sumber daya tambahan dapat disusun secara instan dengan meningkatkan pembayaran bulanan Anda ke layanan cloud. Dan sumber daya dapat diperkecil dengan cepat. Anda bahkan dapat memilih untuk menjalankan beberapa instans: instans bertenaga lebih rendah untuk komputasi sehari-hari, dan instans bertenaga lebih tinggi yang hanya diaktifkan untuk pekerjaan berat. Ini umum terjadi terutama ketika komputasi GPU diperlukan, karena instans yang mendukung GPU cenderung lebih mahal.

Keunggulan lainnya adalah keamanan data. Bukan ide terbaik untuk mengunduh data ke laptop pribadi Anda untuk dianalisis, terutama jika data itu sensitif. Menggunakan penyedia cloud yang sama untuk penyimpanan dan komputasi adalah salah satu cara untuk menjaga data Anda lebih aman.

Berkolaborasi dengan Ilmuwan Data Anda

Sayangnya terlalu umum bahwa organisasi akan mempekerjakan seorang ilmuwan data tetapi gagal untuk menyediakan mereka dengan alat dan peralatan yang diperlukan untuk menjadi sukses.

Bersiaplah untuk mendengarkan Ilmuwan Data baru Anda. Ini terutama benar jika Anda mempekerjakan seorang Data Scientist berpengalaman dengan pengalaman melakukan jenis pekerjaan ini dalam skala besar di perusahaan lain. Jika Anda tidak yakin alat apa yang Anda perlukan untuk memberdayakan Data Scientist, bersiaplah untuk berkolaborasi dengannya dalam peta jalan Ilmu Data yang mencakup ide, data, dan sumber daya komputasi.