الأربعاء، 30 سبتمبر 2020

Agile Data Science Tutorial البرنامج التعليمي لعلوم البيانات الرشيقة

 Agile Data Science Tutorial البرنامج التعليمي لعلوم البيانات الرشيقة

Agile Data Science Tutorial البرنامج التعليمي لعلوم البيانات الرشيقة



Agile هي منهجية لتطوير البرمجيات تساعد في بناء البرامج من خلال جلسات إضافية باستخدام تكرارات قصيرة من 1 إلى 4 أسابيع بحيث يتماشى التطوير مع احتياجات العمل المتغيرة. يتألف علم البيانات الرشيقة من مزيج من المنهجية الرشيقة وعلم البيانات. في هذا البرنامج التعليمي ، استخدمنا أمثلة مناسبة لمساعدتك على فهم التطوير السريع وعلم البيانات بطريقة عامة وسريعة.

الجمهور

تم إعداد هذا البرنامج التعليمي للمطورين ومديري المشاريع لمساعدتهم على فهم أساسيات مبادئ أجايل وتنفيذها. بعد الانتهاء من هذا البرنامج التعليمي ، ستجد نفسك في مستوى معتدل من الخبرة ، حيث يمكنك التقدم أكثر في تنفيذ علم البيانات ومنهجية أجايل.

المتطلبات الأساسية

من المهم أن يكون لديك معرفة أساسية بوحدات علوم البيانات ومفاهيم تطوير البرمجيات مثل متطلبات البرامج والترميز والاختبار.


المقدمة عن الآجيل agile

 Agile Data Science هو نهج لعلوم البيانات يتمحور حول تطوير تطبيقات الويب.  يؤكد أن الناتج الأكثر فاعلية لعملية علم البيانات المناسبة لإحداث التغيير في المؤسسة هو تطبيق الويب.  يؤكد أن تطوير التطبيق هو مهارة أساسية لعالم البيانات.  لذلك ، يصبح علم البيانات يتعلق ببناء التطبيقات التي تصف عملية البحث التطبيقي: النماذج الأولية السريعة ، وتحليل البيانات الاستكشافية ، والتصور التفاعلي ، والتعلم الآلي التطبيقي.


 أصبحت أساليب البرمجيات الرشيقة agile هي الطريقة الفعلية لتقديم البرامج اليوم.  هناك مجموعة من المنهجيات المطورة بالكامل ، مثل Scrum ، والتي توفر إطارًا يمكن من خلاله بناء برمجيات جيدة بزيادات صغيرة.  كانت هناك بعض المحاولات لتطبيق أساليب البرمجيات الرشيقة agile على علم البيانات ، ولكن هذه المحاولات كانت لها نتائج غير مرضية.  هناك فرق جوهري بين تقديم برمجيات الإنتاج والأفكار القابلة للتنفيذ كأدوات لعملية رشيقة.  إن الحاجة إلى أن تكون الرؤى قابلة للتنفيذ تخلق عنصرًا من عدم اليقين حول عناصر علم البيانات - فقد تكون "كاملة" بمعنى البرامج ، ومع ذلك تفتقر إلى أي قيمة لأنها لا تسفر عن رؤى حقيقية وقابلة للتنفيذ.  كما يقول عالم البيانات دانييل تونكيلانج ، "إن عالم الرؤى القابلة للتنفيذ هو بالضرورة أكثر مرونة من عالم هندسة البرمجيات."  لا تتعامل Scrum ومنهجيات البرامج الذكية الأخرى مع عدم اليقين هذا جيدًا.  ببساطة: البرمجيات الرشيقة لا تجعل Agile Data Science.  خلق هذا الدافع لهذا الكتاب: تقديم منهجية جديدة تناسب عدم اليقين في علم البيانات إلى جانب دليل حول كيفية تطبيقه من شأنه أن يوضح المبادئ في البرامج الحقيقية.


 "بيان" علم البيانات الرشيقة الاجيل agile هو محاولتي لإنشاء طريقة صارمة لتطبيق المرونة في ممارسة علم البيانات.  تنطبق هذه المبادئ بما يتجاوز علماء البيانات الذين يقومون ببناء منتجات البيانات في الإنتاج.  تطبيق الويب هو أفضل تنسيق لمشاركة الرؤى القابلة للتنفيذ داخل وخارج المؤسسة.


 لا تتعلق Agile Data Science بكيفية شحن برامج العمل فحسب ، بل تتعلق بكيفية مواءمة علم البيانات بشكل أفضل مع بقية المؤسسة.  هناك اختلال مزمن بين علم البيانات والهندسة ، حيث يتساءل الفريق الهندسي غالبًا عما يفعله فريق علم البيانات أثناء قيامهم بتحليل البيانات الاستكشافية والبحث التطبيقي.  غالبًا ما يكون الفريق الهندسي غير متأكد مما يجب فعله في هذه الأثناء ، مما يؤدي إلى "سحب الشلال" ، حيث تتخذ المشاريع الرشيقة agile المفترض بها خصائص الشلال.  تعمل Agile Data Science على سد هذه الفجوة بين الفريقين ، مما يخلق محاذاة أكثر قوة لجهودهم.


 يتناول هذا الكتاب أيضًا موضوع "البيانات الضخمة".  Agile Data Science هي منهجية تطوير تتواءم مع الحقائق غير المتوقعة لإنشاء تطبيقات تحليلات من البيانات على نطاق واسع.  إنه دليل نظري وتقني لتشغيل مصفاة بيانات Spark لتسخير قوة "البيانات الضخمة" في مؤسستك.  لقد منحتنا الحوسبة على مستوى المستودعات موارد هائلة للتخزين والحساب لحل أنواع جديدة من المشكلات التي تتضمن تخزين ومعالجة كميات غير مسبوقة من البيانات.  هناك اهتمام كبير بجلب أدوات جديدة للتعامل مع المشكلات المستعصية سابقًا ، مما يمكننا من اشتقاق منتجات جديدة تمامًا من البيانات الأولية ، وتحسين البيانات الأولية إلى رؤى مربحة ، وإنتاج الأفكار وإنتاجها في أنواع جديدة من تطبيقات التحليلات.  هذه الأدوات عبارة عن نوى للمعالج وأعمدة دوران للقرص ، مقترنة بالتصور والإحصاءات والتعلم الآلي.  هذا علم البيانات.


 في الوقت نفسه ، خلال العشرين عامًا الماضية ، برزت شبكة الويب العالمية كوسيلة مهيمنة لتبادل المعلومات.  خلال هذا الوقت ، تغيرت هندسة البرمجيات بفعل الثورة "الرشيقة agile" في كيفية تصور التطبيقات وبناؤها وصيانتها.  تجلب هذه العمليات الجديدة المزيد من المشاريع والمنتجات في الوقت المحدد وتحت الميزانية ، وتمكن الفرق الصغيرة أو الجهات الفاعلة الفردية من تطوير تطبيقات كاملة تغطي مجالات واسعة.  هذا هو تطوير البرمجيات الرشيقة.


 لكن هناك مشكلة.  يستغرق العمل مع البيانات الحقيقية في البرية ، والقيام بعلوم البيانات ، وإجراء البحوث الجادة وقتًا أطول من دورة رشيقة (في حدود الأشهر).  يستغرق الأمر وقتًا أطول مما هو متاح في العديد من المؤسسات لسباق المشروع ، مما يعني أن الباحث التطبيقي اليوم مضغوط أكثر من الوقت.  علم البيانات عالق في جدول برامج المدرسة القديمة المعروف باسم طريقة الشلال.


 تأتي مشكلتنا وفرصتنا عند تقاطع هذين الاتجاهين: كيف يمكننا دمج علم البيانات ، وهو بحث تطبيقي ويتطلب جهدًا شاقًا على جدول زمني لا يمكن التنبؤ به ، في تطبيق رشيق؟  كيف يمكن أن تؤدي تطبيقات التحليلات أداءً أفضل من طريقة الشلال التي تخلفنا عنها منذ فترة طويلة؟  كيف يمكننا صياغة تطبيقات لنماذج بيانات غير معروفة ومتطورة؟  كيف يمكننا تطوير أساليب رشيقة جديدة لملاءمة عملية علم البيانات لإنشاء منتجات رائعة؟


 يحاول هذا الكتاب تجميع مجالين ، التطوير السريع agile وعلم البيانات على مجموعات البيانات الكبيرة ؛  لدمج البحث والهندسة في علاقة مثمرة.  لتحقيق ذلك ، يقدم منهجية رشيقة جديدة وأمثلة على منتجات البناء مع مجموعة برامج مناسبة.  تم تصميم المنهجية لتعظيم إنشاء ميزات البرنامج بناءً على الرؤى الأكثر اختراقًا.  مجموعة البرامج عبارة عن مجموعة أدوات خفيفة الوزن يمكنها التعامل مع بحر البيانات الخام المتغير غير المؤكد وتوفر إنتاجية كافية لتمكين العملية الرشيقة من النجاح.  يمضي الكتاب ليوضح لك كيفية بناء القيمة بشكل متكرر باستخدام هذه المجموعة ، للعودة إلى المرونة واستخراج البيانات لتحويلها إلى دولارات.


 تهدف Agile Data Science إلى إعادتك إلى مقعد القيادة ، مما يضمن أن ينتج عن بحثك التطبيقي منتجات مفيدة تلبي احتياجات المستخدمين الحقيقيين.

علم البيانات الرشيقة الآجيل agile هو نهج لاستخدام علم البيانات مع منهجية رشيقة لتطوير تطبيقات الويب. يركز على ناتج عملية علم البيانات المناسبة لإحداث التغيير في المؤسسة. يتضمن علم البيانات بناء التطبيقات التي تصف عملية البحث بالتحليل والتصور التفاعلي والتعلم الآلي التطبيقي أيضًا.

الهدف الرئيسي لعلم البيانات السريع هو -

توثيق وتوجيه تحليل البيانات التوضيحية لاكتشاف واتباع المسار الحرج لمنتج مقنع.

يتم تنظيم علم البيانات الرشيق Agile وفقًا لمجموعة المبادئ التالية -

التكرار المستمر

تتضمن هذه العملية التكرار المستمر مع جداول الإنشاء والمخططات والتقارير والتنبؤات. سيتطلب بناء النماذج التنبؤية العديد من التكرارات لهندسة الميزات مع استخراج البصيرة وإنتاجها.

متوسط ​​الإخراج

هذه هي قائمة المسار للمخرجات التي تم إنشاؤها. يقال أيضًا أن التجارب الفاشلة لها نتائج أيضًا. سيساعد تتبع إخراج كل تكرار في إنشاء مخرجات أفضل في التكرار التالي.

تجارب النموذج الأولي

تتضمن تجارب النموذج الأولي تعيين المهام وتوليد المخرجات حسب التجارب. في مهمة معينة ، يجب علينا التكرار لتحقيق البصيرة ويمكن تفسير هذه التكرارات بشكل أفضل على أنها تجارب.

تكامل البيانات

تتضمن دورة حياة تطوير البرامج مراحل مختلفة مع البيانات الأساسية لـ -

  • العملاء

  • المطورين و

  • العمل

يمهد تكامل البيانات الطريق لآفاق ومخرجات أفضل.

قيمة بيانات الهرم

قيمة البيانات الهرمية

وصفت قيمة الهرم أعلاه الطبقات اللازمة لتطوير "علم البيانات السريع". يبدأ بمجموعة من السجلات بناءً على المتطلبات وسجلات السباكة الفردية. يتم إنشاء المخططات بعد تنظيف البيانات وتجميعها. يمكن استخدام البيانات المجمعة لتصور البيانات. يتم إنشاء التقارير بالهيكل المناسب والبيانات الوصفية وعلامات البيانات. الطبقة الثانية من الهرم من الأعلى تتضمن تحليل التنبؤ. طبقة التنبؤ هي المكان الذي يتم فيه إنشاء المزيد من القيمة ولكنها تساعد في إنشاء تنبؤات جيدة تركز على هندسة المعالم.

تتضمن الطبقة العليا إجراءات يتم فيها دفع قيمة البيانات بشكل فعال. أفضل مثال على هذا التنفيذ هو "الذكاء الاصطناعي".


تعريف الاجيل agile 

ما هو علم البيانات الرشيقة (ADS)؟  في هذا ، أوجز منهجية جديدة لتطوير منتجات التحليلات ، وهو أمر ألمحت إليه في الإصدار الأول ولكني لم أعبر عنه بالتفصيل.  للبدء ، ما هو الهدف من عملية ADS؟


 المنهجية كتغريدة methodology 

 الهدف من عملية Agile Data Science هو توثيق وتسهيل وتوجيه تحليل البيانات الاستكشافية لاكتشاف واتباع المسار الحرج لمنتج تحليلات مقنع (الشكل 1-1. علم البيانات الرشيقة "يتحول إلى تعريف" ويضع العدسة على  عملية تحليل البيانات الاستكشافية ، لتوثيق البصيرة عند حدوثها. يصبح هذا هو النشاط الأساسي لتطوير المنتج. من خلال "الانتقال إلى التعريف" ، نجعل العملية تركز على شيء يمكن التنبؤ به ، ويمكن إدارته ، بدلاً من ناتج المنتج نفسه ،  التي لا تستطيع.




التسميات: