علم البيانات الرشيقة - إثراء البيانات Agile Data Science - Data Enrichment

 علم البيانات الرشيقة - إثراء البيانات Agile Data Science - Data Enrichment


علم البيانات الرشيقة - إثراء البيانات


Data Enrichment: What It is and Why You Need It إثراء البيانات: ما هي ولماذا تحتاجها? 
لم يكن جمع بيانات العملاء أسهل من أي وقت مضى ، خاصة على الإنترنت. من جمع البريد الإلكتروني الآلي وملء النموذج التلقائي إلى تتبع IP ، من السهل جمع بيانات العملاء الأولية.

لكن هناك مشكلة: البيانات أولية. استخدام البيانات الخام أمر صعب. وغالبًا لا توجد بيانات كافية في مجموعة البيانات الأولية للحصول على قيمة حقيقية منها. لذلك ، أنت بحاجة إلى شيء ما لملء الثغرات في بياناتك الأولية وإضافة المعلومات الهامة التي تحتاجها لاستخدام بياناتك إلى أقصى إمكاناتها

هذا ما هو إثراء البيانات. تساعدك البيانات الغنية في اتخاذ قرارات أفضل والحصول على عائد أكبر من جهود جمع البيانات. بدون إثراء البيانات ، أنت تعيق عملك بشدة.

إليك كل ما تحتاج لمعرفته حول الحصول على بيانات أفضل.

ما هو إثراء البيانات؟

أولاً ، الأساسيات.


يجمع إثراء البيانات بين مجموعة بيانات الطرف الأول - البيانات التي لديك - مع مجموعة بيانات طرف ثالث - البيانات التي تحتاجها - لتشكيل مجموعة بيانات محسّنة. تعد مجموعة البيانات المحسنة هذه أكثر فائدة من البيانات الأولية.

بيانات العملاء هي الهدف الأكثر شيوعًا لإثراء البيانات. يؤدي تحسين بيانات العملاء إلى جعلها أكثر فائدة ويمنحك رؤية كاملة لعملائك. تمكّنك بيانات العملاء الغنية من إنشاء تسويق أكثر تخصيصًا ، والوصول إلى العملاء من خلال المزيد من قنوات الاتصال ، وتقسيم قائمتك بشكل أفضل.

لاستخدام إثراء البيانات ، تحتاج ببساطة إلى جزء من البيانات يمكن الرجوع إليه بواسطة قاعدة بيانات الطرف الثالث. على سبيل المثال ، تعتبر الأسماء الأولى والأخيرة أجزاء رائعة من البيانات لاستخدامها. ترتبط الأسماء بمعلومات الاتصال الأخرى في قاعدة بيانات الطرف الثالث مثل أرقام الهواتف وعناوين البريد الإلكتروني والعناوين الفعلية.

يأخذ موفر إثراء البيانات قائمة الأسماء ويطابقها مع الأسماء الموجودة في قاعدة البيانات الخاصة به. بعد ذلك ، يضيفون المعلومات المرتبطة إلى مجموعة البيانات الخاصة بك. وهذا ما يسمى أيضًا " بإلحاق البيانات " أو "تحسين البيانات" لأنه يتم إضافة المعلومات إلى البيانات الموجودة.

بشكل عام ، هناك نوعان من إثراء البيانات: ديموغرافي وجغرافي.


إثراء البيانات الديموغرافية

يكتشف إثراء البيانات الديموغرافية المعلومات الديموغرافية ويضيفها إلى مجموعة البيانات الخاصة بك. عادة ما تكون هذه أشياء مثل متوسط ​​الدخل والحالة الاجتماعية والجنس.

يُعد إثراء البيانات الديموغرافية مفيدًا للغاية للشركات التي تحتاج إلى فحص العملاء المحتملين للمخاطر المالية أو الخلفيات الإجرامية للعملاء الجدد. هذا النوع من إلحاق البيانات مفيد أيضًا في تقسيم القوائم بناءً على أشياء مثل الدخل وعدد الأطفال.

يتيح لك استخدام هذه الطريقة لتحسين بياناتك إنتاج رسائل شديدة الاستهداف وتحديد قيم العملاء المحتملين. بينما ينتج عن إثراء البيانات الديموغرافية مجموعات بيانات مفيدة للغاية ، قد يكون من الصعب القيام بذلك بكميات كبيرة.

إثراء البيانات الجغرافية

يساعدك إثراء البيانات الجغرافية على تحديد مكان وجود الأشخاص. معلومات الموقع مفيدة لأي عمل يستخدم البريد المباشر للتسويق والتواصل مع العملاء.

ومع ذلك ، يمكنك أيضًا استخدامه لاستهداف المناطق الجغرافية ذات أعلى متوسط ​​قيمة للعميل ، أو زيادة كفاءة رسائل البريد المجمعة ، أو تحديد أفضل موقع لمتجر بيع بالتجزئة جديد.

تتيح بيانات العملاء الجغرافية أيضًا للشركات استخدام المعلومات الرقمية مثل عناوين البريد الإلكتروني وأرقام الهواتف للحصول على معلومات مادية مثل عناوين البريد. لذلك ، فهو إلزامي للتسويق متعدد القنوات.

إثراء البيانات مقابل تنظيف البيانات

يعمل كل من تنظيف البيانات وإثرائها على تحسين قيمة بياناتك. لكنهما عمليتان متعارضتان تقريبًا.

يضيف إثراء البيانات البيانات ذات الصلة إلى مجموعة البيانات الخاصة بك بناءً على ما لديك بالفعل.

يحدد تنظيف البيانات البيانات الفاسدة أو غير الصحيحة ويزيلها.

كلاهما ضروري للحفاظ على قواعد بيانات صحية وقابلة للاستخدام. من الناحية المثالية ، ستقوم بتنظيف بياناتك قبل إثرائها. خلاف ذلك ، يمكنك تضخيم الأخطاء في قاعدة البيانات الخاصة بك عن طريق إضافة المزيد من البيانات غير الصحيحة.

كيف تثري بياناتك

أهم شيء يجب معرفته حول إثراء البيانات هو أنها عملية مستمرة. تتحلل البيانات الشخصية بسرعة كبيرة. ينتقل الأشخاص ويغيرون أرقام هواتفهم ويحصلون على عناوين بريد إلكتروني جديدة طوال الوقت. لذلك ، تحتاج إلى إثراء وتحديث بياناتك باستمرار.

للقيام بذلك ، ستحتاج أولاً إلى مزود إثراء البيانات . موفر البيانات الخاص بك هو قاعدة بيانات الطرف الثالث المعتمدة والتي توفر المعلومات الإضافية. يجمع أفضل موفري إثراء البيانات البيانات من ملايين قواعد البيانات الأخرى ، حتى يتمكنوا من إلحاق المعلومات بقوائمك بشكل موثوق.

هناك طريقتان لتخصيب البيانات. تعتمد الطريقة التي تستخدمها على كيفية اتصالك بقاعدة بيانات موفر البيانات.

تكامل البيانات

مع تكامل البيانات ، يمكنك إنشاء عملية إثراء البيانات في أنظمة معالجة البيانات الخاصة بك. عادةً ، ستستخدم واجهة برمجة تطبيقات لتوصيل نظام CRM أو برنامج إدارة البيانات بقاعدة بيانات موفر البيانات. بهذه الطريقة ، يقوم برنامجك بأتمتة عملية البحث عن البيانات وإضافتها.

يقوم نظامك بإجراء استدعاء API لمزود البيانات الخاص بك. بعد ذلك ، يتم إثراء بياناتك قبل نشرها. تتطلب عملية الإثراء المتكاملة القليل من الجهد منك ، وعادة ما تكون شفافة لفريقك وعملائك.

معالجة البيانات المجمعة

إثراء البيانات بالجملة هو عملية يدوية. لكنه يحسن البيانات على دفعات من أجل كفاءة أفضل.

باستخدام معالجة البيانات المجمّعة ، يمكنك ببساطة سحب بياناتك في قوائم - عادةً ملفات .csv أو .txt أو Excel - وتحميلها إلى موفر البيانات. هذه العملية بسيطة ولكنها ليست آلية. سيعيد معظم موفري البيانات نتائجك في غضون دقائق ، ما لم تكن قائمتك كبيرة جدًا.

بمجرد تحسين بياناتك ، ستعيد تحميل البيانات الغنية في قاعدة البيانات الخاصة بك لاستخدامها. عادةً ما تكون معالجة البيانات المجمعة هي الخيار الوحيد للشركات التي ليس لديها فرص تكامل بيانات جيدة.

لماذا تحتاج إلى إثراء البيانات

يساعدك إثراء البيانات في الأشياء التي تفعلها طوال الوقت. وتمكنك إضافة بيانات أفضل إلى عملك من القيام بأشياء غير ممكنة باستخدام بيانات العملاء الأولية.

إليك ما يفعله إثراء البيانات بالنسبة لك.


يبني تجربة عملاء أفضل

يمنحك إثراء البيانات صورة أكثر اكتمالاً لعملائك. لذلك ، فهو يمكّنك من تقديم رسائل أكثر تخصيصًا وتقديم أفضل قيمة لكل عميل.

بالإضافة إلى ذلك ، فإنه يزيل عامل التهيج للعملاء. مع البيانات الكاملة ، نادرًا ما تحتاج إلى إزعاج عملائك بأشياء مثل طلبات الحصول على معلومات محدثة. وستتجنب إرسال المعلومات أو المنتجات إلى عنوان بريد إلكتروني أو بريد خاطئ.

يقصر أشكال التقاط الرصاص

تحصل نماذج التقاط الرصاص الأقصر على المزيد من العملاء المحتملين. نهاية القصة.

يمكّنك إثراء البيانات من طلب بضع أجزاء فقط من المعلومات الأساسية حول نماذج التقاط العميل المحتمل. ثم تكمل البيانات خلف الكواليس. هذا يقلل من عمل العميل ، ويحصل على المزيد من العملاء المحتملين لك.

يحسن تجزئة القائمة

دعونا نواجه الأمر ، من المستحيل تقسيم قائمة الأسماء وعناوين البريد الإلكتروني. لا توجد معلومات كافية للتمييز بين مجموعات العملاء.

يكمل إثراء البيانات جهات الاتصال هذه بأرقام الهواتف والعناوين البريدية ، ويحول الحد الأدنى من مجموعات بيانات العملاء إلى مجموعات بيانات مفيدة يمكنك استخدامها لتسويق أكثر استهدافًا. قد يكون من المستحيل تقريبًا تقسيم القوائم دون إثراء البيانات.

تمكن من تسجيل نقاط  الآلي

عادةً ما يسجل برنامج تسجيل النقاط الرئيسي خيوط غير مكتملة منخفضة للغاية. إذا كان لديك اسم ورقم هاتف فقط ، فقد يوقف برنامج نقاط العميل المتوقع إرسال عميل متوقع إلى فرق المبيعات لديك.

ولكن ، إذا قمت بإثراء البيانات أولاً ، يمكن لنظام تسجيل النقاط الرئيسي الخاص بك تقييم العميل المتوقع بناءً على ملف تعريف كامل. الآن ، يتم إعادة توجيه العميل المتوقع الذي كان سيذهب إلى سلة المهملات إلى مندوب مبيعات. لذلك ، يساعدك إثراء البيانات في الحصول على عملاء متوقعين أكثر نشاطًا من قاعدة البيانات الحالية.

يضيف المزيد من التخصيص

تساعدك ملفات تعريف البيانات الكاملة على فهم عملائك بشكل أفضل ، وبالتالي تقديم رسائل أكثر تخصيصًا. يحقق التسويق المخصص نتائج أفضل. لذلك ، يساعدك إثراء البيانات في الحصول على عائد استثمار أكبر من بيانات العملاء.

يزيد من تعلم الآلة

إذا كنت قد استخدمت روبوتات المحادثة وأدوات اتصال العملاء الأخرى ، فأنت تعلم أنها تساعدك في الحصول على مزيد من المعلومات. لكنك تعلم أيضًا أن لها حدودًا.

قد يكون الأشخاص على استعداد لإعطاء عنوان بريدهم الإلكتروني إلى برنامج chatbot. ومع ذلك ، فهم يترددون عادة في تقديم أكثر من ذلك للروبوت.

يساعد إثراء البيانات في الحفاظ على برامج الدردشة الخاصة بك غير متداخلة ، دون المساس بجمع بياناتك. باستخدام الأسماء وعناوين البريد الإلكتروني التي تحصل عليها من روبوتات الدردشة الخاصة بك ، يمكنك بناء عملاء متوقعين كاملين للمتابعة والتسويق عبر قنوات التسويق الشاملة.

كما ترى ، يعزز إثراء البيانات عملك وعمليات المبيعات في كل مرحلة تقريبًا. من الصعب ببساطة العمل بدون بيانات العميل الكاملة .

إذا كنت بحاجة إلى إثراء البيانات ، فإن الخطوة الأولى هي العثور على مزود بيانات يقدم خدمات تنظيف البيانات. لا معنى لإثراء البيانات السيئة.

يشير إثراء البيانات إلى مجموعة من العمليات المستخدمة لتحسين وصقل وتحسين البيانات الأولية. يشير إلى تحويل البيانات المفيدة (البيانات الخام إلى المعلومات المفيدة). تركز عملية إثراء البيانات على جعل البيانات أصول بيانات قيّمة للأعمال أو المؤسسات الحديثة.

تتضمن عملية إثراء البيانات الأكثر شيوعًا تصحيح الأخطاء الإملائية أو الأخطاء المطبعية في قاعدة البيانات من خلال استخدام خوارزميات قرار محددة. تضيف أدوات إثراء البيانات معلومات مفيدة إلى جداول البيانات البسيطة.

ضع في اعتبارك الكود التالي للتصحيح الإملائي للكلمات -

import re
from collections import Counter
def words(text): return re.findall(r'\w+', text.lower())
WORDS = Counter(words(open('big.txt').read()))

def P(word, N=sum(WORDS.values())):
   "Probabilities of words"
   return WORDS[word] / N
	
def correction(word):
   "Spelling correction of word"
   return max(candidates(word), key=P)
	
def candidates(word):
   "Generate possible spelling corrections for word."
   return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])
	
def known(words):
   "The subset of `words` that appear in the dictionary of WORDS."
   return set(w for w in words if w in WORDS)
	
def edits1(word):
   "All edits that are one edit away from `word`."
   letters = 'abcdefghijklmnopqrstuvwxyz'
   splits = [(word[:i], word[i:]) for i in range(len(word) + 1)]
   deletes = [L + R[1:] for L, R in splits if R]
   transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
   replaces = [L + c + R[1:] for L, R in splits if R for c in letters]
   inserts = [L + c + R for L, R in splits for c in letters]
   return set(deletes + transposes + replaces + inserts)
	
def edits2(word):
   "All edits that are two edits away from `word`."
   return (e2 for e1 in edits1(word) for e2 in edits1(e1))
   print(correction('speling'))
   print(correction('korrectud'))

في هذا البرنامج ، سنطابق ملف "big.txt" الذي يتضمن الكلمات المصححة. تتطابق الكلمات مع الكلمات المضمنة في ملف نصي وطباعة النتائج المناسبة وفقًا لذلك.

مخرجات كود إثراء البيانات 

سيولد الكود أعلاه الناتج التالي -

سيتم إنشاء الرمز