পৃথ্বীরাজ বোস অবদান রেখেছেন
স্পার্ক একটি বিদ্যুত্-দ্রুত ক্লাস্টার কম্পিউটিং ফ্রেমওয়ার্ক যা দ্রুত গণনা এবং পেশাদারদের দাবির জন্য ডিজাইন করা হয়েছে আজ বাজারে যথেষ্ট।এখানে স্পার্কের একটি শক্তিশালী এপিআই রয়েছে combineByKey ।
এপিআই স্কেল: org.apache.spark.PairRDDFunitions.combineByKey ।
অজগর __init__ ক্লাস
পাইথন এপিআই: pyspark.RDD.combineByKey ।
এপিআই তিনটি ফাংশন নেয় (যেমন) লাম্বদা এক্সপ্রেশন ভিতরে পাইথন বা বেনামী ফাংশন ভিতরে মই ), যথা
- কম্বিনার ফাংশন তৈরি করুন: এক্স
- মান ফাংশনটি মার্জ করুন: y
- সমন্বিত ফাংশন মার্জ: z
এবং এপিআই ফর্ম্যাটটি কম্বিনবাইকি (x, y, z) ।
আসুন একটি উদাহরণ (স্কালায়) দেখুন। পুরো স্কালার উত্সটি পাওয়া যাবে এখানে ।
আমাদের উদ্দেশ্য হল প্রতি শিক্ষার্থী গড় স্কোর খুঁজে পাওয়া।
এখানে একটি স্থানধারক শ্রেণি স্কোরডেটেল কোনও বিষয়ের স্কোর সহ শিক্ষার্থীদের নাম সংরক্ষণ করা।
কিছু পরীক্ষার ডেটা উত্পন্ন হয় এবং কী-জুটির মানগুলিতে রূপান্তরিত হয় কী = শিক্ষার্থীদের নাম এবং মান = স্কোরডেটাইল দৃষ্টান্ত.
তারপরে আমরা নীচের কোড টুকরাটিতে দেখানো হিসাবে একটি জোড় আরডিডি তৈরি করব। কেবল পরীক্ষার জন্য, আমি আকার 3 এর একটি হ্যাশ বিভাজন তৈরি করেছি, সুতরাং তিনটি পার্টিশনে যথাক্রমে 2, 2 এবং 4 কী মান জোড়া থাকবে। এটি বিভাগে হাইলাইট করা হয় যেখানে আমরা প্রতিটি বিভাজন ঘুরে দেখি।
এখন আমরা প্রতিটি পার্টিশন অন্বেষণ করতে পারি। প্রথম লাইন প্রতিটি পার্টিশনের দৈর্ঘ্য (পার্টিশন অনুসারে মূল মানের জোড় সংখ্যা) এবং দ্বিতীয় লাইন প্রতিটি পার্টিশনের বিষয়বস্তু মুদ্রণ করে pr
এক্সএমএল এবং এইচটিএমএল এর মধ্যে পার্থক্য কী
এবং এখানে ফাইনাল মুভমেন্টটি রয়েছে যেখানে আমরা পার্টিশন জুড়ে স্কোরগুলি একত্রিত করার পরে প্রতি শিক্ষার্থীর গড় স্কোর গণনা করি।
উপরের কোড প্রবাহটি নিম্নরূপ…
প্রথমে আমাদের একটি কম্বিনার ফাংশন তৈরি করতে হবে যা প্রতিটি পার্টিশনে উপস্থিত প্রতিটি কীগুলির জন্য মূলত একটি টিউপল = (মান, 1)) এই পর্বের পরে একটি পার্টিশনের প্রতিটি (কী, মান) আউটপুট হয় (কী, (মান, 1))।
তারপরে পরবর্তী পুনরাবৃত্তিতে পার্টিশন প্রতি কম্বিনার ফাংশন প্রতিটি কী এর জন্য মার্জ মান ফাংশন ব্যবহার করে মার্জ করা হয়। এই পর্যায়ে প্রতিটি পার্টিশনের প্রতিটি (কী, (মান, 1)) এর আউটপুট (কী, (মোট, গণনা)) হয়।
অবশেষে মার্জ কম্বিনার ফাংশন এক্সিকিউটরগুলির পার্টিশন জুড়ে সমস্ত মানকে একীভূত করে এবং ডেটাটি ড্রাইভারকে ফেরত পাঠায়। এই পর্বের পরে প্রতিটি পার্টিশন (কী, (মোট, গণনা)) এর আউটপুট হয়
(কী, (মোটঅক্রস অল পার্টিশনস, কাউন্টঅক্রস অল পার্টিশনস))।
মানচিত্র রূপান্তর করে
(কী, টিপল) = (কী, (মোটঅক্রস অল পার্টিশনস, কাউন্ট অক্রস অল পার্টিশনস))
গড় প্রতি কী হিসাবে গণনা করতে (কী, tuple._1 / tuple._2)।
শেষ লাইনটি ড্রাইভারের শেষে সমস্ত শিক্ষার্থীর জন্য গড় স্কোর ছাপায়।
আমাদের জন্য একটি প্রশ্ন আছে? তাদের মন্তব্য বিভাগে উল্লেখ করুন এবং আমরা আপনার কাছে ফিরে আসব।
সম্পর্কিত পোস্ট:
জাভা ক্লাসপাথ উইন্ডোজ 7 সেট করুন