অ্যাপাচি স্পার্ক সংযুক্ত করে বাইকি ব্যাখ্যা করেছেন



এই স্পার্ক হ্যাডোপ ব্লগটি আপনাকে অ্যাপাচি স্পার্ক কম্বাইনবাইয়ের বিষয়ে যা জানা দরকার তা আপনাকে জানায়। কম্বাইনবাই পদ্ধতি ব্যবহার করে প্রতি শিক্ষার্থীর গড় স্কোর সন্ধান করুন।

পৃথ্বীরাজ বোস অবদান রেখেছেন

স্পার্ক একটি বিদ্যুত্-দ্রুত ক্লাস্টার কম্পিউটিং ফ্রেমওয়ার্ক যা দ্রুত গণনা এবং পেশাদারদের দাবির জন্য ডিজাইন করা হয়েছে আজ বাজারে যথেষ্ট।এখানে স্পার্কের একটি শক্তিশালী এপিআই রয়েছে combineByKey





এপিআই স্কেল: org.apache.spark.PairRDDFunitions.combineByKey

অজগর __init__ ক্লাস

পাইথন এপিআই: pyspark.RDD.combineByKey



এপিআই তিনটি ফাংশন নেয় (যেমন) লাম্বদা এক্সপ্রেশন ভিতরে পাইথন বা বেনামী ফাংশন ভিতরে মই ), যথা

  1. কম্বিনার ফাংশন তৈরি করুন: এক্স
  2. মান ফাংশনটি মার্জ করুন: y
  3. সমন্বিত ফাংশন মার্জ: z

এবং এপিআই ফর্ম্যাটটি কম্বিনবাইকি (x, y, z)

আসুন একটি উদাহরণ (স্কালায়) দেখুন। পুরো স্কালার উত্সটি পাওয়া যাবে এখানে



আমাদের উদ্দেশ্য হল প্রতি শিক্ষার্থী গড় স্কোর খুঁজে পাওয়া।

এখানে একটি স্থানধারক শ্রেণি স্কোরডেটেল কোনও বিষয়ের স্কোর সহ শিক্ষার্থীদের নাম সংরক্ষণ করা।

Scoredetail-spark-combinebykey

কিছু পরীক্ষার ডেটা উত্পন্ন হয় এবং কী-জুটির মানগুলিতে রূপান্তরিত হয় কী = শিক্ষার্থীদের নাম এবং মান = স্কোরডেটাইল দৃষ্টান্ত.

তারপরে আমরা নীচের কোড টুকরাটিতে দেখানো হিসাবে একটি জোড় আরডিডি তৈরি করব। কেবল পরীক্ষার জন্য, আমি আকার 3 এর একটি হ্যাশ বিভাজন তৈরি করেছি, সুতরাং তিনটি পার্টিশনে যথাক্রমে 2, 2 এবং 4 কী মান জোড়া থাকবে। এটি বিভাগে হাইলাইট করা হয় যেখানে আমরা প্রতিটি বিভাজন ঘুরে দেখি।

এখন আমরা প্রতিটি পার্টিশন অন্বেষণ করতে পারি। প্রথম লাইন প্রতিটি পার্টিশনের দৈর্ঘ্য (পার্টিশন অনুসারে মূল মানের জোড় সংখ্যা) এবং দ্বিতীয় লাইন প্রতিটি পার্টিশনের বিষয়বস্তু মুদ্রণ করে pr

এক্সএমএল এবং এইচটিএমএল এর মধ্যে পার্থক্য কী

এবং এখানে ফাইনাল মুভমেন্টটি রয়েছে যেখানে আমরা পার্টিশন জুড়ে স্কোরগুলি একত্রিত করার পরে প্রতি শিক্ষার্থীর গড় স্কোর গণনা করি।

উপরের কোড প্রবাহটি নিম্নরূপ…
প্রথমে আমাদের একটি কম্বিনার ফাংশন তৈরি করতে হবে যা প্রতিটি পার্টিশনে উপস্থিত প্রতিটি কীগুলির জন্য মূলত একটি টিউপল = (মান, 1)) এই পর্বের পরে একটি পার্টিশনের প্রতিটি (কী, মান) আউটপুট হয় (কী, (মান, 1))।

তারপরে পরবর্তী পুনরাবৃত্তিতে পার্টিশন প্রতি কম্বিনার ফাংশন প্রতিটি কী এর জন্য মার্জ মান ফাংশন ব্যবহার করে মার্জ করা হয়। এই পর্যায়ে প্রতিটি পার্টিশনের প্রতিটি (কী, (মান, 1)) এর আউটপুট (কী, (মোট, গণনা)) হয়।

অবশেষে মার্জ কম্বিনার ফাংশন এক্সিকিউটরগুলির পার্টিশন জুড়ে সমস্ত মানকে একীভূত করে এবং ডেটাটি ড্রাইভারকে ফেরত পাঠায়। এই পর্বের পরে প্রতিটি পার্টিশন (কী, (মোট, গণনা)) এর আউটপুট হয়
(কী, (মোটঅক্রস অল পার্টিশনস, কাউন্টঅক্রস অল পার্টিশনস))।

মানচিত্র রূপান্তর করে
(কী, টিপল) = (কী, (মোটঅক্রস অল পার্টিশনস, কাউন্ট অক্রস অল পার্টিশনস))
গড় প্রতি কী হিসাবে গণনা করতে (কী, tuple._1 / tuple._2)।

শেষ লাইনটি ড্রাইভারের শেষে সমস্ত শিক্ষার্থীর জন্য গড় স্কোর ছাপায়।

আমাদের জন্য একটি প্রশ্ন আছে? তাদের মন্তব্য বিভাগে উল্লেখ করুন এবং আমরা আপনার কাছে ফিরে আসব।

সম্পর্কিত পোস্ট:

জাভা ক্লাসপাথ উইন্ডোজ 7 সেট করুন

স্পার্কে পার্টিশন নির্মূল করা