Agile Data Science - معالجة البيانات في Agile

Agile Data Science - معالجة البيانات في Agile


Agile Data Science - معالجة البيانات في Agile




Agile Data Science - معالجة البيانات في Agile

في هذا الفصل ، سنركز على الفرق بين البيانات المهيكلة وشبه المهيكلة وغير المهيكلة.

البيانات المنظمة organize data

تتعلق البيانات المنظمة بالبيانات المخزنة بتنسيق SQL في جدول يحتوي على صفوف وأعمدة. يتضمن مفتاحًا علائقيًا ، يتم تعيينه في مجالات مصممة مسبقًا. يتم استخدام البيانات المنظمة على نطاق أوسع.

تمثل البيانات المهيكلة 5 إلى 10 في المائة فقط من جميع البيانات المعلوماتية.

البيانات شبه المنظمة

تتضمن البيانات المنظمة شبه الهيكلية البيانات التي لا توجد في قاعدة البيانات العلائقية. وهي تتضمن بعض الخصائص التنظيمية التي تسهل التحليل. يتضمن نفس العملية لتخزينها في قاعدة بيانات علائقية. أمثلة قواعد البيانات شبه المهيكلة هي ملفات CSV ووثائق XML و JSON. تعتبر قواعد بيانات NoSQL شبه منظمة.

بيانات غير منظمة

تمثل البيانات غير المهيكلة 80 بالمائة من البيانات. غالبًا ما تتضمن نصًا ومحتوى وسائط متعددة. تتضمن أفضل الأمثلة على البيانات غير المنظمة الملفات الصوتية والعروض التقديمية وصفحات الويب. أمثلة البيانات غير المهيكلة التي تم إنشاؤها بواسطة الآلة هي صور الأقمار الصناعية والبيانات العلمية والصور الفوتوغرافية والفيديو وبيانات الرادار والسونار.

Agile Data Science - معالجة البيانات في Agile

يركز الهيكل الهرمي أعلاه بشكل خاص على كمية البيانات ونسبة انتشارها.

تظهر البيانات شبه المنظمة كنوع بين البيانات غير المهيكلة وشبه المنظمة. في هذا البرنامج التعليمي ، سنركز على البيانات شبه المنظمة ، والتي تعد مفيدة لمنهجية أجايل وأبحاث علوم البيانات.

لا تحتوي البيانات شبه المهيكلة على نموذج بيانات رسمي ولكن لها نمط وبنية واضحان للوصفة الذاتية تم تطويرهما من خلال تحليلها.