Agile Data Science - SQL مقابل NoSQL
Agile Data Science - SQL مقابل NoSQL
Agile Data Science - SQL مقابل NoSQL
التركيز الكامل لهذا البرنامج التعليمي هو اتباع منهجية التطوير الرشيق Agile مع عدد أقل من الخطوات وتنفيذ المزيد من الأدوات المفيدة. لفهم هذا ، من المهم معرفة الفرق بين قواعد بيانات SQL و NoSQL.
معظم المستخدمين على دراية بقاعدة بيانات SQL ولديهم معرفة جيدة إما بقواعد بيانات MySQL أو Oracle أو قواعد بيانات SQL الأخرى. على مدى السنوات العديدة الماضية ، تم اعتماد قاعدة بيانات NoSQL على نطاق واسع لحل مشاكل ومتطلبات العمل المختلفة للمشروع.
يوضح الجدول التالي الفرق بين قواعد بيانات SQL و NoSQL -
SQL | NoSQL |
---|---|
تسمى قواعد بيانات SQL بشكل أساسي نظام إدارة قواعد البيانات العلائقية (RDBMS). | قاعدة بيانات NoSQL تسمى أيضًا قاعدة البيانات الموجهة بالوثائق. إنها غير علائقية وموزعة. |
تتضمن قواعد البيانات المستندة إلى SQL بنية الجدول مع الصفوف والأعمدة. مجموعة من الجداول وهياكل المخططات الأخرى تسمى قاعدة البيانات. | تتضمن قاعدة بيانات NoSQL المستندات كهيكل رئيسي ويسمى إدراج المستندات التجميع. |
تتضمن قواعد بيانات SQL مخططًا محددًا مسبقًا. | تحتوي قواعد بيانات NoSQL على بيانات ديناميكية وتتضمن بيانات غير منظمة. |
قواعد بيانات SQL قابلة للتطوير الرأسي. | قواعد بيانات NoSQL قابلة للتطوير الأفقي. |
قواعد بيانات SQL مناسبة لبيئة الاستعلام المعقدة. | لا تمتلك NoSQL واجهات قياسية لتطوير الاستعلام المعقد. |
قواعد بيانات SQL غير مجدية لتخزين البيانات الهرمية. | تناسب قواعد بيانات NoSQL بشكل أفضل تخزين البيانات الهرمي. |
قواعد بيانات SQL هي الأنسب للمعاملات الثقيلة في التطبيقات المحددة. | لا تزال قواعد بيانات NoSQL غير قابلة للمقارنة في الحمل الكبير لتطبيقات المعاملات المعقدة. |
توفر قواعد بيانات SQL دعمًا ممتازًا لبائعيها. | لا تزال قاعدة بيانات NoSQL تعتمد على دعم المجتمع. يتوفر عدد قليل فقط من الخبراء للإعداد ونشرهم لعمليات نشر NoSQL على نطاق واسع. |
تركز قواعد بيانات SQL على خصائص حمض الهيدروكلوريك - الذري والاتساق والعزل والمتانة. | تركز قاعدة بيانات NoSQL على خصائص CAP - الاتساق والتوافر وتحمل التقسيم. |
يمكن تصنيف قواعد بيانات SQL على أنها مفتوحة المصدر أو مغلقة المصدر بناءً على البائعين الذين اختاروها. | يتم تصنيف قواعد بيانات NoSQL بناءً على نوع التخزين. قواعد بيانات NoSQL مفتوحة المصدر بشكل افتراضي. |
لماذا NoSQL للرشاقة؟ Agile
توضح المقارنة المذكورة أعلاه أن قاعدة بيانات مستندات NoSQL تدعم التطوير السريع بشكل كامل. إنه مخطط أقل ولا يركز بشكل كامل على نمذجة البيانات. بدلاً من ذلك ، تؤجل NoSQL التطبيقات والخدمات ، وبالتالي يحصل المطورون على فكرة أفضل عن كيفية نمذجة البيانات. تعرف NoSQL نموذج البيانات على أنه نموذج التطبيق.
تركيب MongoDB
خلال هذا البرنامج التعليمي ، سوف نركز أكثر على أمثلة MongoDB لأنه يعتبر أفضل "مخطط NoSQL".
Agile Data Science - Data Visualization علم البيانات الرشيقة - تصور البيانات الرسومات البيانية
Agile Data Science - Data Visualization علم البيانات الرشيقة - تصور البيانات الرسومات البيانية
علم البيانات الرشيقة - تصور البيانات
Agile Data Science - Implementation Of Agile تنفيذ التطوير الرشيق سكروم
Agile Data Science - Implementation Of Agile تنفيذ التطوير الرشيق سكروم
Agile Data Science - تنفيذ Agile
إنشاء مشهد أفضل باستخدام علم البيانات والرشاقة
إنشاء مشهد أفضل باستخدام علم البيانات والرشاقة
تساعد منهجية Agile المؤسسات على التكيف مع التغيير والمنافسة في السوق وبناء منتجات عالية الجودة. ويلاحظ أن المؤسسات تنضج بمنهجية رشيقة ، مع زيادة التغيير في متطلبات العملاء. يعد تجميع البيانات ومزامنتها مع فرق منظمة Agile أمرًا مهمًا في تجميع البيانات عبر الحافظة المطلوبة.
بناء خطة أفضل
يعتمد الأداء الرشيق المعياري فقط على الخطة. مخطط البيانات المطلوبة يعزز الإنتاجية والجودة والاستجابة لتقدم المنظمة. يتم الحفاظ على مستوى تناسق البيانات مع سيناريوهات تاريخية وحقيقية.
ضع في اعتبارك الرسم التخطيطي التالي لفهم دورة تجربة علوم البيانات -
يتضمن علم البيانات تحليل المتطلبات متبوعًا بإنشاء خوارزميات على أساسها. بمجرد تصميم الخوارزميات جنبًا إلى جنب مع الإعداد البيئي ، يمكن للمستخدم إنشاء تجارب وجمع البيانات لتحليل أفضل.
هذه الأيديولوجية تحسب آخر سباق سريع للرشاقة ، والذي يسمى "الأفعال".
تتضمن الإجراءات جميع المهام الإلزامية لآخر سباق أو مستوى منهجية رشيقة. يمكن الحفاظ على مسار مراحل علم البيانات (فيما يتعلق بدورة الحياة) باستخدام بطاقات القصة كعناصر عمل.
التحليل التنبئي والبيانات الضخمة
يكمن مستقبل التخطيط تمامًا في تخصيص تقارير البيانات بالبيانات التي تم جمعها من التحليل. وسيشمل أيضًا التلاعب بتحليل البيانات الضخمة. بمساعدة البيانات الضخمة ، يمكن تحليل أجزاء منفصلة من المعلومات بشكل فعال من خلال تقطيع وتقطيع مقاييس المنظمة يعتبر التحليل دائمًا حلاً أفضل.
إصلاح مشكلة التنبؤ Agile Data Science - Fixing Prediction Problem
إصلاح مشكلة التنبؤ Agile Data Science - Fixing Prediction Problem
إصلاح مشكلة التنبؤ
إصلاح مشكلة التنبؤ Agile Data Science - Fixing Prediction Problem
في هذا الفصل ، سوف نركز على إصلاح مشكلة التنبؤ بمساعدة سيناريو محدد.
ضع في اعتبارك أن الشركة تريد أتمتة تفاصيل الأهلية للقرض وفقًا لتفاصيل العميل المقدمة من خلال نموذج الطلب عبر الإنترنت. تتضمن التفاصيل اسم العميل والجنس والحالة الاجتماعية ومبلغ القرض وتفاصيل إلزامية أخرى.
يتم تسجيل التفاصيل في ملف CSV كما هو موضح أدناه -
قم بتنفيذ الكود التالي لتقييم مشكلة التوقع -
import pandas as pd from sklearn import ensemble import numpy as np from scipy.stats import mode from sklearn import preprocessing,model_selection from sklearn.linear_model import LogisticRegression from sklearn.preprocessing import LabelEncoder #loading the dataset data=pd.read_csv('train.csv',index_col='Loan_ID') def num_missing(x): return sum(x.isnull()) #imputing the the missing values from the data data['Gender'].fillna(mode(list(data['Gender'])).mode[0], inplace=True) data['Married'].fillna(mode(list(data['Married'])).mode[0], inplace=True) data['Self_Employed'].fillna(mode(list(data['Self_Employed'])).mode[0], inplace=True) # print (data.apply(num_missing, axis=0)) # #imputing mean for the missing value data['LoanAmount'].fillna(data['LoanAmount'].mean(), inplace=True) mapping={'0':0,'1':1,'2':2,'3+':3} data = data.replace({'Dependents':mapping}) data['Dependents'].fillna(data['Dependents'].mean(), inplace=True) data['Loan_Amount_Term'].fillna(method='ffill',inplace=True) data['Credit_History'].fillna(method='ffill',inplace=True) print (data.apply(num_missing,axis=0)) #converting the cateogorical data to numbers using the label encoder var_mod = ['Gender','Married','Education','Self_Employed','Property_Area','Loan_Status'] le = LabelEncoder() for i in var_mod: le.fit(list(data[i].values)) data[i] = le.transform(list(data[i])) #Train test split x=['Gender','Married','Education','Self_Employed','Property_Area','LoanAmount', 'Loan_Amount_Term','Credit_History','Dependents'] y=['Loan_Status'] print(data[x]) X_train,X_test,y_train,y_test=model_selection.train_test_split(data[x],data[y], test_size=0.2) # # #Random forest classifier # clf=ensemble.RandomForestClassifier(n_estimators=100, criterion='gini',max_depth=3,max_features='auto',n_jobs=-1) clf=ensemble.RandomForestClassifier(n_estimators=200,max_features=3,min_samples _split=5,oob_score=True,n_jobs=-1,criterion='entropy') clf.fit(X_train,y_train) accuracy=clf.score(X_test,y_test) print(accuracy)
مخرجات إصلاح مشكلة التنبؤ Agile Data Science - Fixing Prediction Problem
يولد الكود أعلاه الناتج التالي.
استخراج الميزات باستخدام PySpark Agile Data Science - Extracting Features With PySpark
استخراج الميزات باستخدام PySpark Agile Data Science - Extracting Features With PySpark
استخراج الميزات باستخدام PySpark
علم البيانات الرشيقة - دور التنبؤات Agile Data Science - Role Of Predictions
علم البيانات الرشيقة - دور التنبؤات Agile Data Science - Role Of Predictions
علم البيانات الرشيقة - دور التنبؤات
Agile Data Science - العمل مع التقارير Agile Data Science - Working With Reports
Agile Data Science - العمل مع التقارير Agile Data Science - Working With Reports
Agile Data Science - العمل مع التقارير
برمجة علم البيانات الرشيقة - برمجة NoSQL وتدفق البيانات Agile Data Science - NoSQL & Dataflow Programming
برمجة علم البيانات الرشيقة - برمجة NoSQL وتدفق البيانات Agile Data Science - NoSQL & Dataflow Programming
Agile Data Science - Data Science Process Agile Data Science - عملية علوم البيانات او تحليل البيانات
Agile Data Science - Data Science Process Agile Data Science - عملية علوم البيانات
Agile Data Scie
nce - عملية علوم البيانات
في هذا الفصل ، سوف نفهم عملية علم البيانات والمصطلحات المطلوبة لفهم العملية.
"علم البيانات هو مزيج من واجهة البيانات ، وتطوير الخوارزمية والتكنولوجيا من أجل حل المشكلات التحليلية المعقدة".
علم البيانات هو مجال متعدد التخصصات يشمل الأساليب والعمليات والأنظمة العلمية مع الفئات المدرجة فيه مثل التعلم الآلي والرياضيات والمعرفة الإحصائية مع البحث التقليدي. يتضمن أيضًا مزيجًا من مهارات القرصنة والخبرة الموضوعية. يستمد علم البيانات المبادئ من الرياضيات والإحصاء وعلوم المعلومات وعلوم الكمبيوتر واستخراج البيانات والتحليل التنبئي.
الأدوار المختلفة التي تشكل جزءًا من فريق علوم البيانات مذكورة أدناه -
العملاء agile clients
العملاء هم الأشخاص الذين يستخدمون المنتج. يحدد اهتمامهم نجاح المشروع وتكون ملاحظاتهم ذات قيمة كبيرة في علم البيانات.
تطوير الأعمال agile development business
يقوم فريق علوم البيانات هذا بالتوقيع على العملاء الأوائل ، إما بشكل مباشر أو من خلال إنشاء صفحات مقصودة وعروض ترويجية. يقدم فريق تطوير الأعمال قيمة المنتج.
مديرو المنتجات agile products managers
يأخذ مديرو المنتجات أهمية إنشاء أفضل منتج ذي قيمة في السوق.
مصممو التفاعل agile interactive designers
يركزون على تفاعلات التصميم حول نماذج البيانات بحيث يجد المستخدمون القيمة المناسبة.
علماء البيانات Agile Data Science
يستكشف علماء البيانات البيانات ويحولونها بطرق جديدة لإنشاء ميزات جديدة ونشرها. يجمع هؤلاء العلماء أيضًا البيانات من مصادر متنوعة لإنشاء قيمة جديدة. يلعبون دورًا مهمًا في إنشاء تصورات مع الباحثين والمهندسين ومطوري الويب.
الباحثون Agile researchers
كما يحدد الاسم يشارك الباحثون في أنشطة البحث. إنهم يحلون مشاكل معقدة لا يستطيع علماء البيانات حلها. تتضمن هذه المشكلات تركيزًا مكثفًا ووقتًا مكثفًا لتعلم الآلة ووحدة الإحصاء.
التكيف مع التغيير Agile adopted with change
مطلوب من جميع أعضاء فريق علم البيانات التكيف مع التغييرات الجديدة والعمل على أساس المتطلبات. يجب إجراء العديد من التغييرات لاعتماد منهجية Agile مع علم البيانات ، والتي تم ذكرها على النحو التالي -
- اختيار المتخصصين على المتخصصين.
- تفضيل الفرق الصغيرة على الفرق الكبيرة.
- باستخدام أدوات ومنصات عالية المستوى.
- المشاركة المستمرة والمتكررة للعمل الوسيط.
ملحوظة
في فريق علم البيانات Agile ، يستخدم فريق صغير من الاختصاصيين أدوات عالية المستوى قابلة للتطوير وتنقيح البيانات من خلال التكرارات إلى حالات ذات قيمة أعلى بشكل متزايد.
ضع في اعتبارك الأمثلة التالية المتعلقة بعمل أعضاء فريق علوم البيانات -
يقدم المصممون CSS.
ينشئ مطورو الويب تطبيقات كاملة ، ويفهمون تجربة المستخدم ، وتصميم الواجهة.
يجب أن يعمل علماء البيانات على كل من البحث وبناء خدمات الويب بما في ذلك تطبيقات الويب.
يعمل الباحثون في قاعدة الكود ، والتي تظهر النتائج تشرح النتائج الوسيطة.
يحاول مديرو المنتجات تحديد وفهم العيوب في جميع المجالات ذات الصلة.
Why Data Science? ما هي علم البيانات؟
فيما يلي مزايا مهمة لاستخدام تقنية تحليلات البيانات:
- البيانات هي نفط عالم اليوم. باستخدام الأدوات والتقنيات والخوارزميات الصحيحة ، يمكننا استخدام البيانات وتحويلها إلى ميزة تجارية مميزة
- يمكن أن تساعدك Data Science في اكتشاف الاحتيال باستخدام خوارزميات التعلم الآلي المتقدمة
- يساعدك على منع أي خسائر مالية كبيرة
- يسمح ببناء قدرة الذكاء في الآلات
- يمكنك إجراء تحليل المشاعر لقياس ولاء العملاء للعلامة التجارية
- إنها تمكنك من اتخاذ قرارات أفضل وأسرع
- يساعدك على التوصية بالمنتج المناسب للعميل المناسب لتعزيز عملك
Data Science Components مكونات علوم علم البيانات
الإحصاء:statistics
الإحصاء هو أهم وحدة في علم البيانات. إنها طريقة أو علم جمع البيانات الرقمية وتحليلها بكميات كبيرة للحصول على رؤى مفيدة.
التصور:Visualization
تساعدك تقنية التصور على الوصول إلى كميات ضخمة
من البيانات في مرئيات سهلة الفهم والفهم.
التعلم الالي: Machine Learning
يستكشف التعلم الآلي بناء ودراسة الخوارزميات التي تتعلم كيفية عمل تنبؤات حول البيانات غير المتوقعة / المستقبلية.
تعلم عميق: deep learning
طريقة التعلم العميق هي بحث جديد للتعلم الآلي حيث تختار الخوارزمية نموذج التحليل لتتبعه.
تعلم عميق:
طريقة التعلم العميق هي بحث جديد للتعلم الآلي حيث تختار الخوارزمية نموذج التحليل لتتبعه.
عملية علم البيانات
1.الاكتشاف:
تتضمن خطوة الاكتشاف الحصول على البيانات من جميع المصادر الداخلية والخارجية المحددة والتي تساعدك على الإجابة على سؤال العمل.
يمكن أن تكون البيانات.
- سجلات من خوادم الويب
- تم جمع البيانات من وسائل التواصل الاجتماعي
- مجموعات بيانات التعداد
- يتم تدفق البيانات من مصادر عبر الإنترنت باستخدام واجهات برمجة التطبيقات
2-إعداد البيانات:
يمكن أن تحتوي البيانات على الكثير من التناقضات مثل القيمة المفقودة ، والأعمدة الفارغة ، وتنسيق البيانات غير الصحيح الذي يحتاج إلى التنظيف. تحتاج إلى معالجة البيانات واستكشافها وشرطها قبل النمذجة. كلما كانت بياناتك أنظف ، كانت توقعاتك أفضل.
3.Model Planning:
في هذه المرحلة ، تحتاج إلى تحديد الطريقة والتقنية لرسم العلاقة بين متغيرات الإدخال. يتم تنفيذ التخطيط لنموذج باستخدام صيغ إحصائية وأدوات تصور مختلفة. خدمات تحليل SQL و R و SAS / access هي بعض الأدوات المستخدمة لهذا الغرض.
4. Model Building:
في هذه الخطوة ، تبدأ عملية بناء النموذج الفعلية. هنا ، يقوم عالم البيانات بتوزيع مجموعات البيانات للتدريب والاختبار. يتم تطبيق تقنيات مثل الارتباط والتصنيف والتجميع على مجموعة بيانات التدريب. يتم اختبار النموذج الذي تم تحضيره مرة واحدة مقابل مجموعة بيانات "الاختبار".
5. Operationalize:
في هذه المرحلة ، تقوم بتسليم النموذج الأساسي النهائي مع التقارير والتعليمات البرمجية والمستندات الفنية. تم نشر النموذج في بيئة إنتاج في الوقت الفعلي بعد اختبار شامل.
6. توصيل النتائج
في هذه المرحلة ، يتم إبلاغ النتائج الرئيسية إلى جميع أصحاب المصلحة. يساعدك هذا في تحديد ما إذا كانت نتائج المشروع ناجحة أو فاشلة بناءً على المدخلات من النموذج.
أدوار وظائف علوم البيانات
أبرز عناوين وظائف عالم البيانات هي:
- عالم البيانات
- مهندس البيانات
- محلل بيانات
- الإحصائي
- مهندس البيانات
- إدارة البيانات
- محلل الأعمال
- مدير البيانات / التحليلات
دعونا نتعلم بالتفصيل ما يستلزمه كل دور:
عالم البيانات:
وظيفة:
عالم البيانات هو محترف يدير كميات هائلة من البيانات للتوصل إلى رؤى عمل مقنعة باستخدام أدوات وتقنيات ومنهجيات وخوارزميات متنوعة ، إلخ.
اللغات:
R ، SAS ، Python ، SQL ، Hive ، Matlab ، Pig ، Spark
مهندس بيانات:
الدور :
يتمثل دور مهندس البيانات في العمل بكميات كبيرة من البيانات. يقوم بتطوير وإنشاء واختبار وصيانة البنى مثل نظام المعالجة وقواعد البيانات على نطاق واسع.
اللغات :
SQL, Hive, R, SAS, Matlab, Python, Java, Ruby, C + +, and Perl
محلل بيانات:
Role:
محلل البيانات مسؤول عن استخراج كميات هائلة من البيانات. سيبحث هو أو هي عن العلاقات والأنماط والاتجاهات في البيانات. لاحقًا ، سيقدم تقريرًا وتصورًا مقنعًا لتحليل البيانات لاتخاذ قرارات العمل الأكثر قابلية للتطبيق.
Languages:
R و Python و HTML و JS و C و C + + و SQL
الإحصائي:
الدور :
يقوم الإحصائي بجمع وتحليل وفهم البيانات النوعية والكمية باستخدام النظريات والأساليب الإحصائية.
اللغات :
SQL, R, Matlab, Tableau, Python, Perl, Spark, and Hive
مسؤول البيانات:
الدور :
يجب أن يتأكد مسؤول البيانات من أن قاعدة البيانات متاحة لجميع المستخدمين ذوي الصلة. كما أنه يتأكد من أنه يعمل بشكل صحيح ويتم حمايته من القرصنة.
اللغات :
Ruby on Rails, SQL, Java, C#, and Python
محلل الأعمال:
الدور :
هذا المحترف بحاجة إلى تحسين العمليات التجارية. هو / هي كوسيط بين الفريق التنفيذي للأعمال وقسم تكنولوجيا المعلومات..
اللغات :
SQL و Tableau و Power BI و Python
أدوات لعلم البيانات
Applications of Data Science تطبيقات علم البيانات
البحث على الانترنت:
يستخدم بحث Google تقنية علوم البيانات للبحث عن نتيجة معينة في غضون جزء من الثانية
أنظمة التوصية:
لإنشاء نظام توصية. على سبيل المثال ، "أصدقاء مقترحون" على Facebook أو مقاطع فيديو مقترحة "على YouTube ، كل شيء يتم بمساعدة Data Science.
التعرف على الصور والكلام:
يتعرف الكلام على نظام مثل Siri ، مساعد Google ، يعمل Alexa على تقنية علم البيانات. علاوة على ذلك ، يتعرف Facebook على صديقك عند تحميل صورة معهم ، بمساعدة Data Science.
عالم الألعاب:
تستخدم EA Sports و Sony و Nintendo تقنية علوم البيانات. هذا يعزز تجربة اللعب الخاصة بك. تم تطوير الألعاب الآن باستخدام تقنية التعلم الآلي. يمكنه تحديث نفسه عند الانتقال إلى مستويات أعلى.
مقارنة الأسعار عبر الإنترنت:
يعمل PriceRunner و Junglee و Shopzilla على آلية علم البيانات. هنا ، يتم جلب البيانات من مواقع الويب ذات الصلة باستخدام واجهات برمجة التطبيقات.
تحديات تكنولوجيا علوم البيانات
- مجموعة كبيرة من المعلومات والبيانات مطلوبة لتحليل دقيق
- عدم توفر مجموعة مواهب علمية كافية للبيانات
- لا تقدم الإدارة دعمًا ماليًا لفريق علوم البيانات
- عدم توفر / صعوبة الوصول إلى البيانات
- لا يتم استخدام نتائج علوم البيانات بشكل فعال من قبل صناع القرار في مجال الأعمال
- من الصعب شرح علم البيانات للآخرين
- مشاكل خصوصية
- عدم وجود خبراء المجال المهم
- إذا كانت المنظمة صغيرة جدًا ، فلا يمكن أن يكون لديها فريق علوم البيانات
ملخص
- علم البيانات هو مجال الدراسة الذي يتضمن استخلاص الرؤى من كميات هائلة من البيانات عن طريق استخدام الأساليب والخوارزميات والعمليات العلمية المختلفة.
- الإحصاء ، والتصور ، والتعلم العميق ، والتعلم الآلي ، هي مفاهيم مهمة في علوم البيانات.
- تمر عملية علم البيانات من خلال الاكتشاف ، وإعداد البيانات ، وتخطيط النموذج ، وبناء النماذج ، والتشغيل ، وإبلاغ النتائج.
- الأدوار المهمة لعالم البيانات هي: 1) عالم البيانات 2) مهندس البيانات 3) محلل البيانات 4) الإحصائي 5) مهندس البيانات 6) مسؤول البيانات 7) محلل الأعمال 8) مدير البيانات / التحليلات
- R, SQL, Python, SaS, بيانات أساسية ادوات tools
- تتطلع تنبؤات ذكاء الأعمال إلى الوراء بينما تتطلع إلى الأمام لعلوم البيانات.
- التطبيقات المهمة لعلوم البيانات هي 1) البحث على الإنترنت 2) أنظمة التوصيات 3) التعرف على الصور والكلام 4) عالم الألعاب 5) مقارنة الأسعار عبر الإنترنت.
- يعد التنوع الكبير في المعلومات والبيانات التحدي الأكبر لتكنولوجيا علوم البيانات.