الأربعاء، 4 نوفمبر 2020

Agile Data Science - Data Visualization علم البيانات الرشيقة - تصور البيانات الرسومات البيانية

 Agile Data Science - Data Visualization علم البيانات الرشيقة - تصور البيانات الرسومات البيانية

Agile Data Science - Data Visualization علم البيانات الرشيقة - تصور البيانات الرسومات البيانية

علم البيانات الرشيقة - تصور البيانات

Agile Data Science - Data Visualization علم البيانات الرشيقة - تصور البيانات الرسومات البيانية. 

هل الرسومات البيانية او التصويرية Data Visualization هي منهجية في التطوير السريع agile? 

طبعا لا الرسومات البيانية او تصور البيانات هي أداة تستخدم لتحليل وضع تحليلات بياناتك في رسومات نجيب على هذا السؤال بالتفاصيل هنا
تصور البيانات هو أداة لعرض البيانات في سياق مرئي. تم وصفه بأنه مجال يلتقي فيه الفن والعلم ؛ يتطلب التصور الجذاب مهارات قوية في تحليل البيانات إلى جانب الذوق الإبداعي للتصميم المرئي.

تقدم التصورات حججًا مقنعة لأنها تزيد من وضوح الرسالة من خلال تقديم بيانات معقدة في سياق مرئي. ومع ذلك ، فإن الجانب المرئي يعني أنه حتى العيوب الدقيقة يمكن أن تضعف بشكل غير متناسب الحجة التي يتم تقديمها ومصداقية عمل تحليل البيانات. لذلك ، في مقترحات مشاريع علوم البيانات البحثية ، يجب النظر بعناية في التصورات المقترحة ومواردها وفقًا لذلك.

بصفتي مهندس برمجيات بحثي ، كنت غالبًا ما أشارك في مشاريع بحثية حيث تشتمل المخرجات على "تصور". إنني أدرك الإثارة التي يجلبها الوعد بالرسومات الرائعة والمفيدة لمقترح المشروع.

نوع المرئيات التي عملت عليها شخصيًا تتراوح من الرسوم البيانية الخطية البسيطة التي تشير إلى الاتجاهات بمرور الوقت ، إلى الخرائط الجغرافية المكانية مع طبقات متعددة للفلاتر ، إلى لوحات المعلومات التي تحتوي على مزيج من كل ما سبق. تتراوح التفاعلات داخل المرئيات من التصفية الأساسية على مجموعة بيانات واحدة ، إلى التحديد الجماعي حيث يتم دمج مجموعات البيانات المتنوعة تمامًا في صورة متماسكة. ما اكتشفته هو أن العمل في تطوير التصورات هو وحش معقد ، والمتطلب الأساسي لأي شيء من هذا النوع هو أهداف محددة بوضوح.

إن بدء ساعة المشروع في مشروع تصور البيانات دون تحديد رسالة التصور يؤدي دائمًا إلى استخدام غير فعال للموارد. يبدو هذا واضحًا للغاية ، لكنني استغرقت وقتًا لتعلم ذلك ، ووقتًا أكثر لبناء الثقة للإصرار عليها. هذه هي الدروس التي تعلمتها.

الأسئلة المفتوحة مضيعة للوقت في التطوير الرشيق Agile 

كنت أفترض دائمًا أن العميل سيعرف الرسالة التي يريد أن ينقلها تصورهم. لذلك ، عند بدء مشروع التصور ، طرحت أسئلة مفتوحة على غرار "ما هو هذا التصور؟". الغرض من هذا النوع من الأسئلة هو بدء النقاش مع المتعاونين ، وأيضًا كمهندس برمجيات يحدد إحساس المشروع (بطريقة الإصبع في الريح). هل سيكون هناك جانب واحد من مجموعة البيانات لعرضه أم أننا سنطلب عدة قطع لإظهار الصورة بأكملها؟ كم من المشروع يتعلق أيضًا بتصميم واجهة المستخدم ، هل تتكون واجهة المستخدم هذه من صف من الأزرار مدسوس في الجزء العلوي من الصفحة أو لوحة معلومات كاملة تشغل ثلث المساحة.

هذا خطأ لأن هذا السؤال لا يقترب مني كثيرًا مما يحتاجه تصور البيانات بالفعل ، وهو رسالة يجب نقلها.

يزداد الأمر سوءًا لأن الإجابات على هذا السؤال تحتوي في كثير من الأحيان على عبارات مثل "تمكين المستخدمين" من "استكشاف البيانات" أو "اكتشاف معرفة جديدة". ما لم يكن المشروع على وجه التحديد حول تمكين استكشاف البيانات ، فإن قلبي يغرق أكثر قليلاً. دعني أخبرك لماذا.

في المشاريع البحثية ، عندما لا يكون التصور هو الناتج الوحيد ، فقد يكون من الصعب جدًا حث الأشخاص على تحديد القصة التي يريدون سردها. المرئيات مطلوبة لأنها يمكن أن توفر عرضًا موجزًا ​​بشكل جميل لتحليل البيانات أو نتائج التكامل. ومع ذلك ، في حين أن القصة أو الرسالة الجاهزة ضرورية لتصميم التصور ، فإن الواقع هو أن مقاييس البحث والاستنتاجات تكون سلسة أثناء تحديد نطاق المشروع ، وتظل كذلك خلال معظم أعمال المشروع.

هذا يعرض تسليم التخيل للخطر. أولاً ، هناك غرامة على الموارد يتم دفعها في كل مرة يتم فيها تغيير رسالة التصور. لا يدرك الكثير من الناس أن إضافة "مُدخل / متغير إضافي" يغير التصور من حيث الوضوح والتدفق البصري المخطط والاتساق. يمكن أن تؤدي إضافة نصوص إضافية "فقط" إلى تقليل تأثير الرسالة ونتيجة لذلك يضيع كل الجهود التي بُذلت في السابق.

ثانيًا ، عند إنتاج نتائج التحليل ، قد نجد أن البيانات ليست مثيرة للاهتمام وأن الصرح بأكمله الذي تم التخطيط للتخيل عليه يسقط. نتيجة لذلك ، تحمي العديد من المشاريع اقتراحها من خلال اشتراط أن يكون التصور "مرنًا" ، بحيث يمكن "اكتشاف قصة مثيرة للاهتمام". هذه مجرد طريقة لركل الكرة على الطريق.

إعطاء الأولوية لتحديد رسالة التصور التطوير الرشيق agile 

يستغرق الأمر بعض الوقت لتوسيع هذا النوع من الاعتبار لمشاريع تصور البيانات. كان خطئي هو الاعتقاد بأنه من المقبول تحديد الرسالة التي يجب أن يسلمها التصور بعد بدء ساعة المشروع. نتيجة لذلك ، تستمر عملية تحديد الرسالة هذه حتى نهاية الجدول الزمني للمشروع. بدون أهداف واضحة ، يصبح تصور البيانات عملية للعثور على أفضل قصة أو زاوية. هذا يستهلك الموارد التي كان ينبغي تخصيصها للتطوير الفعلي.

في المقابل ، لا تعتبر مشروعات تورينج لعلوم البيانات جاهزة للبدء حتى تصبح الأسئلة ومقاييس النجاح والبيانات جاهزة. يبدو لي أنه بالمثل ، يجب التعامل مع أي تصور مدرج في مقترح المشروع بنفس الطريقة ويجب أن يخضع لنفس التعريف القوي لتقليل أي "تزوير".

بالطبع ، تمامًا كما أن العمل الاستكشافي للبيانات ضروري في مشاريع علوم البيانات ، فإن بعض أشكال التخطيط والنماذج الأولية هو جزء من خط أنابيب التصور. ومع ذلك ، فإن تأثير تغيير رسالة تصور منتصف المشروع لا يقل أهمية عن تغيير سؤال تحليل البيانات ، ويجب الاعتراف به على هذا النحو.

لذلك التصور يلعب دور مهم في منهجية التطوير الرشيق agile

يلعب تصور البيانات دورًا مهمًا جدًا في علم البيانات. يمكننا اعتبار تصور البيانات كوحدة نمطية لعلوم البيانات. يتضمن علم البيانات أكثر من مجرد بناء النماذج التنبؤية. يتضمن شرح النماذج واستخدامها لفهم البيانات واتخاذ القرارات. يعد تصور البيانات جزءًا لا يتجزأ من تقديم البيانات بأكثر الطرق إقناعًا.

من وجهة نظر علم البيانات ، يعد تصور البيانات ميزة تسليط الضوء على التغييرات والاتجاهات.

ضع في اعتبارك الإرشادات التالية لتصور البيانات الفعال -

  • بيانات الموقع على طول المقياس المشترك.

  • يعد استخدام الأشرطة أكثر فعالية مقارنة بالدوائر والمربعات.

  • يجب استخدام اللون المناسب لمخططات التشتت.

  • استخدم المخطط الدائري لإظهار النسب.

  • يعتبر تصور Sunburst أكثر فاعلية للمخططات الهرمية.

يحتاج Agile إلى لغة برمجة نصية بسيطة لتصور البيانات ومع علم البيانات بالتعاون ، فإن Python هي اللغة المقترحة لتصور البيانات.

مثال 1

يوضح المثال التالي تصور بيانات الناتج المحلي الإجمالي المحسوب في سنوات محددة. "Matplotlib" هي أفضل مكتبة لتصور البيانات في Python. تركيب هذه المكتبة موضح أدناه -

يوضح تصور البيانات

ضع في اعتبارك الكود التالي لفهم هذا -

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

 مخرجات الكود في تصور البيانات التطوير الرشيق agile 

يولد الكود أعلاه الناتج التالي -

يولد الكود

هناك العديد من الطرق لتخصيص المخططات باستخدام تسميات المحاور وأنماط الخطوط وعلامات النقاط. دعنا نركز على المثال التالي الذي يوضح تصورًا أفضل للبيانات. يمكن استخدام هذه النتائج للحصول على إخراج أفضل.

مثال 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

انتاج |

يولد الكود أعلاه الناتج التالي -

يولد الكود ثانيًا

التسميات: