পাইথনের সাথে স্পার্কের পরিচিতি - প্রাথমিকভাবে পাইসস্পার্ক



অ্যাপাচি স্পার্ক বিগ ডেটা অ্যান্ড অ্যানালিটিক্স বিশ্বকে দখল করেছে এবং আজ পাইথন ইন্ডাস্ট্রিতে ব্যবহৃত একটি সর্বাধিক অ্যাক্সেসযোগ্য প্রোগ্রামিং ভাষা। সুতরাং এখানে এই ব্লগে, আমরা উভয় জগতের থেকে সর্বোত্তম লাভ করার জন্য পাইপার্ক (পাইথন দিয়ে স্পার্ক) সম্পর্কে শিখব।

বিগ ডেটা এবং এর সাথে পরিচালনা ও কাজ করার ক্ষেত্রে এটি সবচেয়ে বেশি ব্যবহৃত একটি কাঠামো পাইথন ডেটা অ্যানালাইসিস, মেশিন লার্নিং এবং আরও অনেক কিছুর জন্য সর্বাধিক ব্যবহৃত একটি প্রোগ্রামিং ভাষা। সুতরাং, কেন তাদের একসাথে ব্যবহার করবেন না? এটাই যেখানে পাইথনের সাথে স্পার্ক করুন এই নামেও পরিচিত পাইস্পার্ক মধ্যে আসেদ্যছবি

অ্যাপাচি স্পার্ক বিকাশকারীর জন্য গড়ে 110,000 পাউন্ড বেতন সহ, স্পার্ক শিল্পে প্রচুর ব্যবহৃত হয় তাতে কোনও সন্দেহ নেই। কারণেএটিসমৃদ্ধ গ্রন্থাগার সেট, পাইথন দ্বারা ব্যবহৃত হয়দ্যআজ ডেটা সায়েন্টিস্ট এবং অ্যানালিটিক্স বিশেষজ্ঞদের সংখ্যাগরিষ্ঠ। পাইথনকে স্পার্কের সাথে সংহত করা সম্প্রদায়ের জন্য একটি বড় উপহার ছিল was স্পার্ক স্কালার ভাষায় বিকাশ করা হয়েছিল, যা জাভার সাথে অনেকটা মিল। এটি স্পার্ক বিগ ডেটা প্রসেসিংয়ের জন্য JVM- র জন্য বাইকোডে প্রোগ্রাম কোডটি সংকলন করে। অজগর দিয়ে স্পার্ককে সমর্থন করার জন্য, অ্যাপাচি স্পার্ক সম্প্রদায় পাইসপার্ক প্রকাশ করেছে।সেইথেকে, এই উভয় দুনিয়ার সেরা সংমিশ্রনের পরে যে বিস্তৃত সুবিধাগুলি এসেছে তার কারণে পুরো শিল্প জুড়ে একটি অন্যতম দক্ষ দক্ষতা হিসাবে পরিচিত।পাইথন ব্লগের সাথে এই স্পার্কে আমি নিম্নলিখিত বিষয়গুলি নিয়ে আলোচনা করব।





অ্যাপাচি স্পার্কের পরিচিতি

অ্যাপাচি স্পার্ক এর জন্য একটি ওপেন সোর্স ক্লাস্টার-কম্পিউটিং ফ্রেমওয়ার্ক রিয়েল-টাইম প্রসেসিং অ্যাপাচি সফটওয়্যার ফাউন্ডেশন দ্বারা বিকাশ। স্পার্ক পুরো ক্লাস্টারগুলিকে অন্তর্ভুক্ত সহ প্রোগ্রামিংয়ের জন্য একটি ইন্টারফেস সরবরাহ করে তথ্য সমান্তরালতা এবং ফল্ট-সহনশীলতা।



নীচে অ্যাপাচি স্পার্কের কয়েকটি বৈশিষ্ট্য রয়েছে যা এটি অন্যান্য ফ্রেমওয়ার্কের চেয়ে একটি প্রান্ত দেয়:

স্পার্ক বৈশিষ্ট্য - পাইথন দিয়ে স্পার্ক - এডুরেকা

  • দ্রুততা: এটি traditionalতিহ্যবাহী বড়-আকারের ডেটা প্রসেসিং ফ্রেমওয়ার্কগুলির চেয়ে 100x দ্রুত।
  • শক্তিশালী ক্যাচিং: সাধারণ প্রোগ্রামিং স্তরটি শক্তিশালী ক্যাচিং এবং ডিস্ক অধ্যবসায়ের ক্ষমতা সরবরাহ করে।
  • স্থাপনা: মেসোস, হ্যাডোপ ইয়ার্নের মাধ্যমে, বা স্পার্কের নিজস্ব ক্লাস্টার ম্যানেজারের মাধ্যমে স্থাপন করা যেতে পারে।
  • প্রকৃত সময়: প্রকৃত সময়মেমরির গণনার কারণে গণনা এবং কম বিলম্ব cy
  • বহুগ্লোট: এটি সবচেয়ে গুরুত্বপূর্ণ একবৈশিষ্ট্যএই ফ্রেমওয়ার্কটি স্ক্যাল, জাভা, পাইথন এবং আর তে প্রোগ্রাম করা যেতে পারে

পাইথনের জন্য কেন?

যদিও স্পার্কের স্কেল ডিজাইন করা হয়েছিল, এটি পাইথনের চেয়ে প্রায় 10 গুণ বেশি দ্রুততর করে তোলে তবে স্ক্যালাল কেবল তখনই দ্রুত হয় ব্যবহৃত কোরগুলির সংখ্যা কম । যেহেতু আজকাল বেশিরভাগ বিশ্লেষণ এবং প্রক্রিয়াটির জন্য প্রচুর পরিমাণে কোর প্রয়োজন, স্কালার পারফরম্যান্স সুবিধাটি তেমন কিছু নয়।



প্রোগ্রামারদের জন্য পাইথন হ'ল তুলনামূলকভাবে সহজ শিখতে এর সিনট্যাক্স এবং স্ট্যান্ডার্ড লাইব্রেরির কারণে। তদুপরি, এটি একটি গতিময়ভাবে টাইপ করা ভাষা, যার অর্থ আরডিডিগুলি একাধিক ধরণের অবজেক্ট ধরে রাখতে পারে।

যদিও স্কেলা আছে স্পার্কএমএলিব এটা নেই মেশিন লার্নিং এবং এনএলপি-র জন্য যথেষ্ট লাইব্রেরি এবং সরঞ্জাম উদ্দেশ্য। তদুপরি, স্কালায় ডেটা ভিজ্যুয়ালাইজেশনের অভাব রয়েছে।

পাইস্পার্ক প্রশিক্ষণ | পাইথনের সাথে অ্যাপাচি স্পার্ক | এডুরেকা

নতুন আপডেট পেতে আমাদের ইউটিউব চ্যানেলে সাবস্ক্রাইব করুন ..!

পাইথন (পাইসপার্ক) দিয়ে স্পার্ক স্থাপন করা

আমি আশা করি আপনারা জানেন যে কিভাবে এটি করতে ।সুতরাং, একবার আপনি আনজিপড স্পার্ক ফাইল, ইনস্টল করা এটি এবং এটির পথে যুক্ত হয়েছে .বাশক্র ফাইল, আপনি টাইপ করতে হবেউত্স .bashrc

এক্সপোর্ট স্পার্কহোম = / মার্কিন / লিবি / শাদুপ / স্পার্ক ২.২.০-bin-hadoop2.7 রফতানি PATH = $ PATH: /usr/lib/hadoop/spark-2.1.0-bin-hadoop2.7/bin

পাইপার্ক শেল খুলতে আপনাকে কমান্ডটি টাইপ করতে হবে./bin/pyspark

শিল্পে স্পার্ক

অ্যাপাচি স্পার্ক কারণ এটির মতো দুর্দান্ত বৈশিষ্ট্য রয়েছে মেমরি প্রক্রিয়াকরণ , বহুভুজ এবং দ্রুত প্রক্রিয়াকরণ বিশ্বজুড়ে বহু সংস্থার দ্বারা বিভিন্ন শিল্পে বিভিন্ন উদ্দেশ্যে ব্যবহৃত হচ্ছে:

ইয়াহু অ্যাপাচি স্পার্ক তার সংবাদ, ওয়েব পৃষ্ঠাগুলি এবং লক্ষ্যযুক্ত বিজ্ঞাপনের জন্য ব্যক্তিগতকরণের জন্য মেশিন লার্নিং ক্ষমতাগুলির জন্য ব্যবহার করে। তারা কী ধরণের সংবাদ খুঁজে পেতে অজগর দিয়ে স্পার্ক ব্যবহার করে - ব্যবহারকারীরা প্রতিটি শ্রেণির সংবাদ পড়তে কী ধরণের ব্যবহারকারী আগ্রহী তা জানতে নিউজ স্টোরিগুলি পড়তে এবং শ্রেণীবদ্ধ করতে আগ্রহী।

ট্রিপএডভাইজার অ্যাপাচি স্পার্ক ব্যবহার করে কয়েক লক্ষ ওয়েবসাইটকে তার গ্রাহকদের জন্য সেরা হোটেলের দাম সন্ধানের জন্য শত শত ওয়েবসাইটের তুলনা করে পরামর্শ প্রদান করার জন্য। অ্যাপাচি স্পার্কের সাহায্যে একটি পঠনযোগ্য ফর্ম্যাটে হোটেলগুলির পর্যালোচনাগুলি পড়তে এবং প্রক্রিয়া করার সময় নেওয়া হয়।

বিশ্বের বৃহত্তম ই-বাণিজ্য প্ল্যাটফর্মগুলির মধ্যে একটি আলিবাবা ই-কমার্স প্ল্যাটফর্মে শত শত পেটাবাইট ডেটা বিশ্লেষণ করতে বিশ্বের বৃহত্তম বৃহত্তম অ্যাপাচি স্পার্ক কাজ চালায়।

পাইস্পার্ক স্পার্ককন্টেক্সট এবং ডেটা ফ্লো

পাইথনের সাথে স্পার্ক নিয়ে কথা বলা, আরডিডি নিয়ে কাজ করা লাইব্রেরি পাই 4 জজ দ্বারা সম্ভব হয়েছে। পাইস্পার্ক শেল পাইথন এপিআইয়ের সাথে স্পার্ক কোর যুক্ত করে এবং স্পার্ক প্রসঙ্গটি আরম্ভ করে। প্রসঙ্গটি স্পার্ক করুন যে কোনও স্পার্ক অ্যাপ্লিকেশনের হৃদয়।

  1. স্পার্ক প্রসঙ্গটি অভ্যন্তরীণ পরিষেবাগুলি সেট আপ করে এবং একটি স্পার্ক বাস্তবায়ন পরিবেশের সাথে সংযোগ স্থাপন করে।
  2. ড্রাইভার প্রোগ্রামে স্পারককনেক্সটেক্সট অবজেক্ট সমস্ত বিতরণ প্রক্রিয়া সমন্বয় করে এবং সংস্থান সংস্থান বরাদ্দ করতে দেয়।
  3. ক্লাস্টার ম্যানেজাররা এক্সিকিউটারদের সরবরাহ করে, যা যুক্তি দিয়ে জেভিএম প্রক্রিয়া।
  4. স্পার্ককন্টেক্সট অবজেক্ট এক্সিকিউটরদের কাছে অ্যাপ্লিকেশনটি প্রেরণ করে।
  5. স্পার্ককন্টেক্সট প্রতিটি নির্বাহকের কার্য সম্পাদন করে।

পাইস্পার্ক কেডিডি ব্যবহারের কেস

এখন আসুন এর ব্যবহারের কেসটি দেখুন KDD’99 কাপ (আন্তর্জাতিক জ্ঞান আবিষ্কার এবং ডেটা মাইনিং সরঞ্জাম প্রতিযোগিতা))।মূল ডেটাসেটটি অনেক বড় হওয়ায় এখানে আমরা ডেটাসেটের একটি ভগ্নাংশ গ্রহণ করব

urllib f = urllib.urlretrieve ('http://kdd.ics.uci.edu/datedias/kddcup99/kddcup.data_10_percent.gz', 'kddcup.data_10_percent.gz') আমদানি করুন

আরডিডি তৈরি করা:
এখন আমরা এই ফাইলটি ব্যবহার করতে পারি আমাদের আরডিডি তৈরি করুন

ডেটা_ফাইল = './kddcup.data_10_percent.gz' কাঁচা_ডাটা = sc.textFile (ডেটা_ফাইলে)

ফিল্টারিং:

মনে করুন আমরা গণনা করতে চাই কত সাধারণ। আমাদের ডেটাসেটে ইন্টারঅ্যাকশন রয়েছে। আমরা পারি ছাঁকনি আমাদের কাঁচা_ডাটা আরডিডি নীচে।

সাধারন_আর_ডাটা = কাঁচা_ডাটা.ফিল্টার (ল্যাম্বদা এক্স: 'নরমাল।' এক্স এ)

COUNT:

এখন আমরা পারি গণনা নতুন আরডিডিতে আমাদের কতগুলি উপাদান রয়েছে।

সময় আমদানির সময় থেকে t0 = সময় () সাধারন_কাউন্ট = নরমাল_রাউ_ডাটা কোড () টিটি = সময় () - টি0 প্রিন্ট '{normal' নরমাল 'ইন্টারঅ্যাকশনস রয়েছে forma' ফরম্যাট (নরমাল_কাউন্ট) মুদ্রণ 'গণনাটি {} সেকেন্ডে সমাপ্ত' হয়েছে forma (গোল (টিটি, 3))

আউটপুট:

95.78২১ সেকেন্ডে 97278 'স্বাভাবিক' মিথস্ক্রিয়া গণনা সম্পন্ন হয়েছে

ম্যাপিং:

এইকেসআমরা আমাদের ডেটা ফাইলটি সিএসভি ফর্ম্যাট হিসাবে পড়তে চাই। নিম্নলিখিত হিসাবে আরডিডির প্রতিটি উপাদানগুলিতে ল্যাম্বডা ফাংশন প্রয়োগ করে আমরা এটি করতে পারি। এখানে আমরা ব্যবহার করব মানচিত্র () এবং () রূপান্তর গ্রহণ করুন।

প্রিন্ট আমদানি থেকে প্রিন্ট সিএসভি_ডেটা = কাঁচা_ডাটা.ম্যাপ (ল্যাম্বদা এক্স: এক্স.স্প্লিট (',')) t0 = সময় () হেড_রোজ = সিএসভি_ডেটা.টেক (5) টিটি = সময় () - টি0 মুদ্রণ 'পার্স সম্পূর্ণ {} সেকেন্ডে '। ফর্ম্যাট (বৃত্তাকার (টিটি, 3)) প্রিন্ট (হেড_রোজ [0])

আউটপুট:

পার্স 1.715 সেকেন্ডে শেষ হয়েছে [u'0 ', u'tcp', u'http ', u'SF', u'181 ', u'5450', u'0 ', u'0',। । u'normal। ']

বিভাজন:

এখন আমরা আরডিডিতে প্রতিটি উপাদানকে একটি মূল-মান জুটি হিসাবে রাখতে চাই যেখানে চাবিটি ট্যাগ (উদাঃ) সাধারণ ) এবং মান হ'ল সিএসভি ফর্ম্যাট করা ফাইলের সারিটি উপস্থাপন করে এমন উপাদানগুলির পুরো তালিকা। আমরা নিম্নলিখিত হিসাবে এগিয়ে যেতে পারে। এখানে আমরা ব্যবহার লাইন.স্প্লিট () এবং মানচিত্র ()।

ডিএফ পার্সি_এন্ট্রাকশন (লাইন): এলেমস = লাইন.স্প্লিট (',') ট্যাগ = এলেমস [41] রিটার্ন (ট্যাগ, এলেমস) কী_সিএসভি_ডাটা = কাঁচা_ডাটা.ম্যাপ (পার্স_ইন্টারকেশন) হেড_রোজ = কী_সিএসভি_ডাটা.টেক (৫) প্রিন্ট (হেড_রোজ [0] )
 আউটপুট: (u'normal। ', [u'0', u'tcp ', u'http', u'SF ', u'181', u'5450 ', u'0', u'0 ', u' 0.00 ', u'1.00', .... unormal। '])

সংগ্রহ কর্ম:

এখানে আমরা সংগ্রহ () ক্রিয়াটি ব্যবহার করতে যাচ্ছি। এটি আরডিডির সমস্ত উপাদান মেমোরিতে পাবেন। এই কারণে, বড় আরডিডিগুলির সাথে কাজ করার সময় এটি যত্ন সহ ব্যবহার করতে হবে।

t0 = সময় () all_raw_data = কাঁচা_ডাটা কলিকেল () tt = সময় () - টি0 মুদ্রণ 'collected} সেকেন্ড'. ফর্ম্যাট (গোল (টিটি, 3)) মধ্যে সংগৃহীত ডেটা

আউটপুট:

17.927 সেকেন্ডে ডেটা সংগ্রহ করা হয়েছে

অবশ্যই এটি আগে ব্যবহৃত অন্য যে কোনও পদক্ষেপ হিসাবে বেশি সময় নিয়েছে। আরডিডি খণ্ডিত প্রতিটি স্পার্ক কর্মী নোডকে তার অংশটি পুনরুদ্ধার করার জন্য সমন্বয় করতে হবে এবং তারপরে সমস্ত কিছু একসাথে হ্রাস করতে হবে।

পূর্ববর্তী সমস্তগুলিকে একত্রিত করার একটি সর্বশেষ উদাহরণ হিসাবে আমরা সমস্ত সংগ্রহ করতে চাইসাধারণকী-মূল্য জোড়া হিসাবে ইন্টারঅ্যাকশন।

মেশিন লার্নিং অ্যালগরিদম আর
# ফাইল ডেটা_ফাইলে = 'থেকে তথ্য পান / ল্যাম্বদা এক্স: x [0] == 'সাধারণ।') # সমস্ত টি0 = সময় সংগ্রহ করুন () সমস্ত_ সাধারণ = সাধারণ_কী_ইনটেকশনস কল করুন () টিটি = সময় () - টি 0 সাধারণ_কাউন্ট = লেন (সমস্ত_ সাধারণ) মুদ্রণ 'collected} সেকেন্ডে ডেটা সংগ্রহ করা '। ফর্ম্যাট (বৃত্তাকার (টিটি, 3)) মুদ্রণ' normal normal 'স্বাভাবিক' ইন্টারঅ্যাকশন রয়েছে 'forma ফর্ম্যাট (সাধারণ_কাউন্ট)

আউটপুট:

12.485 সেকেন্ডে সংগৃহীত ডেটা 97278 স্বাভাবিক ইন্টারঅ্যাকশন রয়েছে

তাই এটি, বন্ধুরা!

আমি আশা করি আপনি পাইথন ব্লগ সহ এই স্পার্কটি উপভোগ করেছেন। আপনি যদি এটি পড়ছেন, অভিনন্দন! আপনি পাইসপার্কে আর নবাগত নন। আপনার সিস্টেমে এখন এই সাধারণ উদাহরণটি ব্যবহার করে দেখুন

আপনি যখন পাইসপার্কের বেসিকগুলি বুঝতে পেরেছেন তবে এটি পরীক্ষা করে দেখুন বিশ্বজুড়ে ছড়িয়ে থাকা 250,000 এরও বেশি সন্তুষ্ট শিক্ষার্থীর নেটওয়ার্ক সহ একটি বিশ্বস্ত অনলাইন লার্নিং সংস্থা এডুরেকা দ্বারা। এডুরিকার পাইথ স্পার্ক ব্যবহার করে পাইথন স্পার্ক শংসাপত্রের প্রশিক্ষণ পাইথন ব্যবহার করে আপনাকে একটি সফল স্পার্ক বিকাশকারী হতে এবং ক্লৌডেরা হাদুপ এবং স্পার্ক বিকাশকারী শংসাপত্র পরীক্ষার (সিসিএ 175) জন্য আপনাকে প্রস্তুত করার জন্য প্রয়োজনীয় জ্ঞান এবং দক্ষতা সরবরাহ করার জন্য ডিজাইন করা হয়েছে।

আমাদের জন্য একটি প্রশ্ন আছে? দয়া করে মন্তব্য বিভাগে এটি উল্লেখ করুন এবং আমরা আপনার কাছে ফিরে আসব।