الأدوات التي يحتاجها عالم البيانات لديك لتكون فعالة

نشرت: 2022-04-28

في المنشورات السابقة ، ناقشنا كيفية إنشاء خارطة طريق لعلوم البيانات وتحديد البيانات التي ستستخدمها لمساعدة عالم البيانات المعين حديثًا على بدء العمل. لكن لا يكفي أن يكون لديك أفكار وبيانات وعالم بيانات جيد: يحتاج عالم البيانات إلى أدوات قوية للقيام بعمله بفعالية. سنناقش في هذا المنشور أنواع الأدوات المطلوبة لنجاح عالم البيانات النموذجي.

طبقة البيانات

يمكن أن تولد منتجات التكنولوجيا الحديثة الكثير من البيانات: النقرات ، والقياس عن بعد ، والمحتوى الذي ينشئه المستخدم مثل التعليقات أو المراجعات ، ونقاط اتصال تجربة العملاء ، على سبيل المثال لا الحصر. من الأهمية بمكان أن يتم تحديد موقع هذه البيانات وتخطيطها وتحميلها إن أمكن في موقع مركزي واحد. مخزن البيانات المركزي هذا هو طبقة البيانات لعملية علوم البيانات الخاصة بك.

مستودعات البيانات

إذا كانت غالبية بياناتك موجودة في قواعد البيانات العلائقية (أو ما يطلق عليه غالبًا قواعد بيانات SQL) ، فإن أحد أسهل وأفضل الأشياء التي يمكنك القيام بها لعالم البيانات المرتقب هو إنشاء مستودع بيانات .

لا يتم جمع البيانات عادةً لغرض صريح وهو "ممارسة علم البيانات" ؛ على سبيل المثال ، يجمع موقع التجارة الإلكترونية مراجعات العملاء في قاعدة بيانات بحيث يمكن عرض المراجعات على الصفحة ، وليس حتى يتمكن علماء البيانات من إجراء معالجة اللغة الطبيعية لاكتشاف الأنماط في المراجعات. هذا يعني أنه على الرغم من جمع المراجعات ، إلا أنها صعبة وتستغرق وقتًا طويلاً في التحليل.

مستودع البيانات هو قاعدة بيانات SQL تحتوي على جميع البيانات اللازمة للتحليلات وذكاء الأعمال في مؤسستك. إذا تمت هندستها بشكل صحيح ، فستكون مستودعات البيانات سريعة في الاستعلام ، ويسهل قياسها ، وستحتوي على جميع البيانات التي يحتاجها عالم البيانات لديك لتحقيق أهدافك. سيؤدي بناء هذا قبل إحضار عالم البيانات إلى تقليل الوقت الضائع في انتظار الوصول إلى البيانات أو الاستعلام عن قواعد البيانات البطيئة.

يوفر جميع موفري السحابة الرئيسيين نوعًا من تقنية مستودعات البيانات ، والتي يسهل إعدادها وتوسيع نطاقها. توفر Amazon Web Services (AWS) Amazon Redshift و Redshift Spectrum ، وتمتلك Google Google BigQuery ، وتقدم Microsoft مستودع بيانات Azure SQL.

بحيرات البيانات

تعد مستودعات البيانات قوية ومفيدة طالما يمكن تحميل بياناتك في قاعدة بيانات SQL. ومع ذلك ، هذا ليس عمليًا دائمًا. تتعامل العديد من المؤسسات التقنية الحديثة مع البيانات شبه المهيكلة أو غير المهيكلة ، وفي هذه الحالة قد يكون من الصعب جدًا تحميلها في مستودع بيانات ، والذي تم إنشاؤه بطبيعته للبيانات المنظمة. في هذه الحالة ، قد نفضل البدء ببحيرة بيانات . بحيرة البيانات هي مخزن بيانات منظم يحتوي على جميع البيانات التي تم إنشاؤها بواسطة مؤسستك ، عادةً بتنسيق خام.

للاستفادة بشكل فعال من بحيرة البيانات ، سوف تحتاج إلى أدوات لإجراء استعلامات واسعة النطاق وتحليل البيانات الموجودة في بحيرة البيانات. تعد أدوات الاستعلام جزءًا لا يتجزأ من مستودع البيانات ، ولكنك ستحتاج إلى اختيار أداة استعلام للاقتران مع بحيرة البيانات الخاصة بك. تقليديا ، تم ذلك باستخدام إطار عمل يسمى Apache Hadoop ، وهي مجموعة من الأدوات البرمجية لإجراء عمليات حسابية مجدولة أو مجمعة على مجموعات هائلة من البيانات.

هناك أداة شائعة أخرى للاستعلام عن بحيرات البيانات وهي Apache Spark ، والتي تسمح لعلماء البيانات بالعمل بشكل تفاعلي مع مجموعات البيانات الضخمة باستخدام لغة البرمجة المفضلة لديهم (python أو R). لفهم كيفية عمل بحيرات البيانات بشكل أفضل ، تحقق من مخطط المعلومات هذا الذي تم إنشاؤه بواسطة G2 Crowd Learning Hub.

ما هي بحيرة البيانات

المصدر: G2 Crowd

طبقة الحساب

يقوم علماء البيانات بأشياء مختلفة في مؤسسات مختلفة ، ولكن الثابت الوحيد هو أنهم سيحتاجون إلى إجراء بعض الطحن الكبير للأرقام. للقيام بذلك ، يحتاج عالم البيانات إلى جهاز كمبيوتر محمول قوي ، واعتمادًا على الوظائف التي سيقومون بأدائها ، قد يحتاجون إلى أدوات حساب إضافية. تشكل الأدوات المتاحة للحساب طبقة الحساب لعملية علوم البيانات الخاصة بك.

للعمل اليومي

يمكن تحسين إنتاجية عالم البيانات لديك بشكل كبير من خلال تزويد المعدات بكمية كبيرة من قوة الحوسبة. الأدوات النموذجية لتحليل البيانات هي R أو Python مع دفتر Jupyter ، وتعتمد هذه الأدوات على تخزين مجموعات البيانات وإجراء العمليات الحسابية في الذاكرة. هذا يجعل من الشائع لعالم البيانات زيادة ذاكرة الكمبيوتر المحمول إلى الحد الأقصى ، مما يؤدي إلى بطء العمل أو حتى ضياعه. لمكافحة هذه المشكلة ، اختر أكبر قدر ممكن من ذاكرة الوصول العشوائي عند شراء كمبيوتر محمول لعالم البيانات الخاص بك.

أدوات الحوسبة لتعلم الآلة

تعد تقنيات التعلم الآلي الحديثة جيدة بشكل مذهل في القيام بأشياء مثل التعرف على الصور أو الوجوه ومعالجة اللغة الطبيعية والعديد من المهام التي لم يكن من الممكن تصورها للكمبيوتر حتى قبل بضع سنوات. لكن هذه التطورات تأتي بتكلفة: بناء نماذج التعلم الآلي يتطلب قوة حسابية هائلة - أكثر مما يمكن العثور عليه في معظم أجهزة الكمبيوتر المحمولة.

أحد التطورات المهمة هو تطوير حوسبة GPU (وحدة معالجة الرسومات) للتعلم الآلي. تم تصميم وحدات معالجة الرسومات في الأصل كأدوات لعرض الرسومات المعقدة بكفاءة ، وتحرير وحدة المعالجة المركزية (وحدة المعالجة المركزية) للقيام بأشياء أخرى. بينما تم تصميم وحدة المعالجة المركزية لأداء المهام المعقدة واحدًا تلو الآخر ، فقد تم تصميم وحدات معالجة الرسومات لأداء مهام بسيطة جدًا بالآلاف في المرة الواحدة. هذا النمط من الحساب مثالي للرياضيات التي يستخدمها التعلم العميق وطرق التعلم الآلي المعقدة الأخرى. لقد تعلم باحثو ومطورو التعلم الآلي تسخير حوسبة وحدة معالجة الرسومات لتسريع عملية بناء هذه النماذج.

للاستفادة من حوسبة GPU ، تحتاج إلى الوصول إلى جهاز كمبيوتر به وحدة معالجة رسومات منفصلة. تقليديا يمكن العثور على هذا في أجهزة كمبيوتر الألعاب ، ولكن مع اكتساب حوسبة GPU شعبية ، أصبحت وحدات معالجة الرسومات المنفصلة متاحة على نطاق واسع على أجهزة الكمبيوتر الاحترافية المتطورة.

حوسبة سحابية

بالنسبة لمعظم المؤسسات ، هناك الكثير من المزايا للحفاظ على عمل التعلم الآلي على السحابة. تتيح خدمات مثل Google Cloud Platform و Amazon Web Services و Microsoft Azure وغيرها للمستخدمين استئجار مثيل افتراضي لجهاز كمبيوتر مجهز جيدًا موجود في أحد مراكز البيانات الخاصة بهم. يمكن الوصول إلى مثيلات السحابة بأمان من أي جهاز كمبيوتر متصل بالإنترنت ، مما يعني أن هذا الأسلوب لا يتطلب من عالم البيانات لديك امتلاك جهاز كمبيوتر محمول متخصص. هناك بعض المزايا الرئيسية الأخرى للحوسبة السحابية.

الميزة الأكثر وضوحا هي قابلية التوسع. إذا كنت بحاجة إلى مزيد من قوة الحوسبة لمشروع جديد ، فيمكن حشد موارد إضافية على الفور عن طريق زيادة مدفوعاتك الشهرية للخدمة السحابية. ويمكن تقليص الموارد بنفس السرعة. يمكنك حتى اختيار تشغيل مثيلات متعددة: مثيل ذو طاقة أقل للحوسبة اليومية ، ومثيل طاقة أعلى يتم تشغيله فقط للرفع الثقيل. هذا أمر شائع خاصةً عندما تكون حوسبة GPU مطلوبة ، حيث تميل المثيلات التي تدعم GPU إلى أن تكون أكثر تكلفة.

ميزة أخرى هي أمن البيانات. ليس من الأفضل تنزيل البيانات على الكمبيوتر المحمول الشخصي لتحليلها ، خاصةً إذا كانت هذه البيانات حساسة. يعد استخدام نفس مزود السحابة للتخزين والحساب إحدى الطرق للحفاظ على أمان بياناتك.

تعاون مع عالم البيانات الخاص بك

لسوء الحظ ، من الشائع جدًا أن تقوم المنظمات بتوظيف عالم بيانات ولكنها تفشل في تزويدهم بالأدوات والمعدات اللازمة لتحقيق النجاح.

كن مستعدًا للاستماع إلى عالم البيانات الجديد. هذا صحيح بشكل خاص إذا كنت تقوم بتعيين عالم بيانات متمرس لديه خبرة في القيام بهذا النوع من العمل على نطاق واسع في شركات أخرى. إذا لم تكن متأكدًا من الأدوات التي ستحتاج إليها لتمكين عالم البيانات ، فاستعد للتعاون معه أو معها في خارطة طريق لعلوم البيانات التي تتضمن الأفكار والبيانات والموارد الحسابية.