استخراج الميزات باستخدام PySpark Agile Data Science - Extracting Features With PySpark

 استخراج الميزات باستخدام PySpark Agile Data Science - Extracting Features With PySpark

استخراج الميزات باستخدام PySpark Agile Data Science - Extracting Features With PySpark

استخراج الميزات باستخدام PySpark


استخراج الميزات باستخدام PySpark Agile Data Science - Extracting Features With PySpark


في هذا الفصل ، سوف نتعرف على تطبيق ميزات الاستخراج باستخدام PySpark في Agile Data Science.

نظرة عامة على Spark

يمكن تعريف Apache Spark على أنه إطار عمل معالجة سريع في الوقت الفعلي. يقوم بعمليات حسابية لتحليل البيانات في الوقت الحقيقي. يتم تقديم Apache Spark كنظام معالجة تدفق في الوقت الفعلي ويمكنه أيضًا الاهتمام بمعالجة الدُفعات. يدعم Apache Spark الاستعلامات التفاعلية والخوارزميات التكرارية.

تمت كتابة Spark في "لغة برمجة Scala".

يمكن اعتبار PySpark مزيجًا من Python و Spark. تقدم PySpark قشرة PySpark ، التي تربط Python API بنواة Spark وتهيئة سياق Spark. يستخدم معظم علماء البيانات PySpark لتتبع الميزات كما تمت مناقشته في الفصل السابق.

في هذا المثال ، سنركز على عمليات التحويل لبناء مجموعة بيانات تسمى التعدادات وحفظها في ملف معين.

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

باستخدام PySpark ، يمكن للمستخدم العمل مع RDDs بلغة برمجة Python. تساعد المكتبة المدمجة ، والتي تغطي أساسيات المستندات والمكونات المستندة إلى البيانات ، في ذلك.