এডাব্লুএস-এ বড় ডেটা - বড় ডেটার জন্য স্মার্ট সমাধান



এই নিবন্ধটি আপনাকে বুঝতে সাহায্য করে যে কীভাবে AWS বিগ ডেটার সাথে স্মার্টলি মোকাবেলা করে। এটি এও দেখায় যে কীভাবে এডাব্লুএস বিগ ডেটা চ্যালেঞ্জগুলি সহজেই সমাধান করতে পারে।

বিগ ডেটা ধারণাটি কেবল নতুন নয়, এটি সর্বত্র। ব্যবসায় থেকে শুরু করে বিজ্ঞান, সরকার থেকে শুরু করে চারুকলা ইত্যাদির সর্বত্রই বিগ ডেটার প্রভাব। এর চেয়ে ভাল আর কোন সঙ্গী নেই বিগ ডেটা প্রক্রিয়া এবং বিশ্লেষণ করতে। এই নিবন্ধে, আমি দেখাবো যে কীভাবে AWS বিগ ডেটার চ্যালেঞ্জগুলি মোকাবেলা করে এবং আমি যে পয়েন্টারগুলি আবরণ করতে যাচ্ছি তা নিম্নরূপ:

বিগ ডেটা কী?

বড় তথ্য বৈশিষ্ট্য





আপনি বড় ডেটাটিকে উচ্চ-ভলিউম, উচ্চ-গতি এবং / বা উচ্চ-বৈচিত্র্যযুক্ত তথ্য সম্পদ হিসাবে বিবেচনা করতে পারেন যা ব্যয়বহুল, তথ্য প্রক্রিয়াকরণের উদ্ভাবনী রূপ যা বর্ধিত অন্তর্দৃষ্টি, সিদ্ধান্ত গ্রহণ এবং প্রক্রিয়া অটোমেশন সক্ষম করে।

বিগ ডেটা 5 টি গুরুত্বপূর্ণ ভি এর সমন্বয়ে গঠিত যা বিগ ডেটার বৈশিষ্ট্যগুলি সংজ্ঞায়িত করে। আসুন এডাব্লুএসে যাওয়ার আগে এগুলি নিয়ে আলোচনা করা যাক।



জাভা বস্তুর অ্যারে তৈরি করে

এডাব্লুএস কী?

অনেকগুলি বিভিন্ন ক্লাউড কম্পিউটিং পণ্য এবং পরিষেবাদি সমন্বিত। অত্যন্ত লাভজনক অ্যামাজন বিভাগ সুরক্ষা সহ সার্ভার, স্টোরেজ, নেটওয়ার্কিং, রিমোট কম্পিউটিং, ইমেল, মোবাইল বিকাশ সরবরাহ করে। আরও। এডাব্লুএস দুটি প্রধান পণ্য নিয়ে গঠিত: ইসি 2, অ্যামাজনের ভার্চুয়াল মেশিন পরিষেবা, এবং এস 3, অ্যামাজনের একটি স্টোরেজ সিস্টেম। এটি কম্পিউটিং বিশ্বে এত বড় এবং বর্তমান যে এটি এখন তার নিকটতম প্রতিযোগীর আকারের কমপক্ষে 10 গুণ এবং নেটফ্লিক্স এবং ইনস্টাগ্রামের মতো জনপ্রিয় ওয়েবসাইটগুলি হোস্ট করে।

এডাব্লুএস বিশ্বব্যাপী ১২ টি গ্লোবাল অঞ্চলে বিভক্ত, যার প্রত্যেকটির একাধিক প্রাপ্যতা অঞ্চল রয়েছে যেখানে এর সার্ভারগুলি অবস্থিত।এই পরিষেবাযুক্ত অঞ্চলগুলি তাদের পরিষেবাগুলিতে ভৌগলিক সীমা নির্ধারণের অনুমতি দেওয়ার জন্য, তবে ডেটা রাখা শারীরিক অবস্থানগুলিকে বৈচিত্র্য দিয়ে সুরক্ষা সরবরাহ করার জন্য এই বিভাগগুলি বিভক্ত হয়েছে।



এডব্লিউএসে বিগ ডেটা কেন?

বিজ্ঞানী, বিকাশকারী এবং অন্যান্য বিভিন্ন ডোমেনের অন্যান্য প্রযুক্তি উত্সাহীরা বড় তথ্য বিশ্লেষণগুলি সম্পাদন করতে এবং ডিজিটাল তথ্যের ক্রমবর্ধমান বনামগুলির সমালোচনামূলক চ্যালেঞ্জগুলি মোকাবেলা করতে ডাব্লুএস এর সুবিধা নিচ্ছেন। এডাব্লুএস আপনাকে ব্যয়কে উল্লেখযোগ্যভাবে হ্রাস করে, চাহিদা মেটাতে স্কেলিং করে এবং নতুনত্বের গতি বাড়িয়ে বড় ডেটা পরিচালনা করতে সহায়তার জন্য ক্লাউড কম্পিউটিং পরিষেবাদির একটি পোর্টফোলিও সরবরাহ করে।

অ্যামাজন ওয়েব পরিষেবাদি সরবরাহ করে a সম্পূর্ণ সংহত পোর্টফোলিও ক্লাউড কম্পিউটিং সেবা। তদতিরিক্ত, এটি আপনাকে আপনার বড় ডেটা অ্যাপ্লিকেশনগুলি তৈরি করতে, সুরক্ষিত করতে এবং স্থাপন করতে সহায়তা করে। এছাড়াও, এডাব্লুএসের সাহায্যে, বজায় রাখতে এবং স্কেল করার জন্য আপনার সংগ্রহ ও সংগ্রহের কাঠামোর দরকার নেই। এর কারণে, আপনি নতুন সংক্ষিপ্তকরণ উন্মোচন করতে আপনার সংস্থানগুলিকে ফোকাস করতে পারেন।যেহেতু নতুন বৈশিষ্ট্যগুলি অবিচ্ছিন্নভাবে যুক্ত করা হয়, তাই আপনি দীর্ঘমেয়াদী বিনিয়োগের প্রতিশ্রুতি না রেখে সর্বদা সর্বশেষতম প্রযুক্তিগুলি অর্জন করতে সক্ষম হবেন।

কীভাবে AWS বিগ ডেটা চ্যালেঞ্জগুলি সমাধান করতে পারে?

বিগ ডেটার জন্য AWS সমাধান

সকল বিকাশ এবং মোতায়েনের উদ্দেশ্যে AWS এর অসংখ্য সমাধান রয়েছে। এছাড়াও, ডেটা সায়েন্স এবং বিগ ডেটা ক্ষেত্রে, ডাব্লুএস বিগ ডেটা হ্যান্ডলিংয়ের বিভিন্ন ক্ষেত্রে সাম্প্রতিক ঘটনাবলী নিয়ে এসেছে। সরঞ্জামগুলিতে ঝাঁপ দেওয়ার আগে আসুন আমরা বিগ ডেটার বিভিন্ন দিক বুঝতে পারি যার জন্য AWS সমাধান সরবরাহ করতে পারে।

  1. ডেটা ইনজেশন
    কাঁচা তথ্য সংগ্রহ - লেনদেন, লগ, মোবাইল ডিভাইস এবং আরও অনেক কিছু - বড় ডেটা নিয়ে কাজ করার সময় অনেক সংস্থার মুখোমুখি হওয়া প্রথম চ্যালেঞ্জ। একটি ভাল বড় ডেটা প্ল্যাটফর্মটি এই পদক্ষেপটিকে আরও সহজ করে তোলে, বিকাশকারীদের রিয়েল-টাইম থেকে ব্যাচ - কাঠামোগত থেকে কাঠামোগত - কোনও গতিতে - বিভিন্ন গতিতে ডেটা বিস্তৃত করে।

  2. তথ্য সঞ্চয়
    যে কোনও বড় ডেটা প্ল্যাটফর্মের কাজগুলি প্রক্রিয়া করার আগে বা তার পরেও ডেটা সঞ্চয় করার জন্য একটি সুরক্ষিত, স্কেলেবল এবং টেকসই সংগ্রহস্থল প্রয়োজন। আপনার নির্দিষ্ট প্রয়োজনীয়তার উপর নির্ভর করে ডেটা-ইন-ট্রানজিটের জন্য আপনার অস্থায়ী স্টোরগুলিরও প্রয়োজন হতে পারে।

  3. তথ্য প্রক্রিয়াজাতকরণ
    এটি এমন পদক্ষেপ যেখানে ডেটা ট্রান্সফারেশনটি এর কাঁচা রাজ্য থেকে উপভোগযোগ্য বিন্যাসে ঘটে - সাধারণত বাছাই, সমষ্টি, যোগদান এবং এমনকি আরও উন্নত ফাংশন এবং অ্যালগরিদম সম্পাদন করে। ফলস্বরূপ তথ্যগুলি আরও প্রক্রিয়াকরণের জন্য স্টোরেজ বহন করে বা ব্যবসায়িক বুদ্ধি এবং ডেটা ভিজ্যুয়ালাইজেশন সরঞ্জামগুলির মাধ্যমে গ্রাহকের জন্য উপলব্ধ করে।

  4. ভিজ্যুয়ালাইজেশন

    বড় ডেটা হ'ল আপনার ডেটা সম্পদগুলি থেকে উচ্চতর মূল্যায়ন, কার্যক্ষম অন্তর্দৃষ্টি সম্পর্কে। আদর্শভাবে, ডেটা স্টেটহোল্ডারদের স্ব-পরিষেবা ব্যবসায়ের বুদ্ধিমত্তা এবং চৌর্য ডেটা ভিজ্যুয়ালাইজেশন সরঞ্জামগুলির মাধ্যমে উপলব্ধ যা ডেটাসেটগুলির দ্রুত এবং সহজে অনুসন্ধানের জন্য অনুমতি দেয়।

বড় ডেটার জন্য এডাব্লুএস সরঞ্জামসমূহ

পূর্ববর্তী বিভাগগুলিতে, আমরা বিগ ডেটার ক্ষেত্রগুলিতে নজর রেখেছি যেখানে এডাব্লুএস সমাধান সরবরাহ করতে পারে। অতিরিক্তভাবে, AWS এর বিগ ডেটার ক্ষমতা সহ গ্রাহকদের সক্ষম করতে তার অস্ত্রাগারে একাধিক সরঞ্জাম এবং পরিষেবা রয়েছে।

আসুন আমরা বিগ ডেটা পরিচালনার সাথে জড়িত বিভিন্ন ধাপ পরিচালনা করার জন্য এডাব্লুএস দ্বারা সরবরাহ করা বিভিন্ন সমাধানগুলি দেখি

আহার

  1. কিনেসিস

    অ্যামাজন কিনেসিস ফায়ারহোজ সরাসরি অ্যামাজন এস 3 এ রিয়েল-টাইম স্ট্রিমিং ডেটা সরবরাহ করার জন্য একটি সম্পূর্ণ পরিচালিত পরিষেবা। কাইনিস ফায়ারহোজ স্ট্রিমিং ডেটার পরিমাণ এবং থ্রুপুট মেলানোর জন্য স্বয়ংক্রিয়ভাবে স্কেল করে এবং কোনও চলমান প্রশাসনের প্রয়োজন হয় না। আপনি অ্যামাজন এস 3 এ সঞ্চয় করার আগে স্ট্রিমিং ডেটা রূপান্তর করতে আপনি কিনেসিস ফায়ারহোজকে কনফিগার করতে পারেন।

  2. স্নোবল
    তুমি ব্যবহার করতে পার এডাব্লুএস স্নোবল নিরাপদে এবং দক্ষতার সাথে প্রসেস স্টোরেজ প্ল্যাটফর্মগুলি এবং হ্যাডোপ ক্লাস্টারগুলি থেকে এস 3 বালকে বাল্ক ডেটা স্থানান্তরিত করতে। আপনি এডাব্লুএস ম্যানেজমেন্ট কনসোলে একটি কাজ তৈরি করার পরে, আপনি স্বয়ংক্রিয়ভাবে একটি স্নোবুল অ্যাপ্লায়েন্স পাবেন। কোনও স্নোবল আসার পরে, এটি আপনার স্থানীয় নেটওয়ার্কের সাথে সংযুক্ত করুন, আপনার অন-প্রাঙ্গনে ডেটা উত্সে স্নোবল ক্লায়েন্ট ইনস্টল করুন এবং তারপরে স্নোবল ডিভাইসে ফাইল ডিরেক্টরিগুলি নির্বাচন এবং স্থানান্তর করতে স্নোবল ক্লায়েন্ট ব্যবহার করুন।

স্টোরেজ

  1. অ্যামাজন এস 3

অ্যামাজন এস 3 ডেটা অ্যাক্সেসের জন্য মিলিসেকেন্ড লেটেন্সি সহ একটি সুরক্ষিত, অত্যন্ত স্কেলেবল, টেকসই অবজেক্ট স্টোরেজ। এস 3 যে কোনও জায়গা থেকে যে কোনও ধরণের ডেটা সঞ্চয় করতে পারে - ওয়েবসাইট এবং মোবাইল অ্যাপ্লিকেশন, কর্পোরেট অ্যাপ্লিকেশন এবং আইওটি সেন্সর বা ডিভাইসগুলির ডেটা। এটি তুলনাহীন প্রাপ্যতা সহ যেকোন পরিমাণের ডেটা সঞ্চয় এবং পুনরুদ্ধার করতে পারে এবং স্থায়িত্বের 99.999999999% (11 নাইন) সরবরাহের জন্য স্থল থেকে তৈরি।

2. এডাব্লুএস আঠালো

আঠালো একটি সম্পূর্ণরূপে পরিচালিত পরিষেবা যা ডেটা লেকে ডেটা আবিষ্কারযোগ্য rable অতিরিক্তভাবে, বিশ্লেষণের জন্য ডেটা প্রস্তুত করতে এর এক্সট্রাক্ট, ট্রান্সফর্ম এবং লোড (ইটিএল) করার ক্ষমতা রয়েছে। এছাড়াও, ইনবিল্ট ডেটা ক্যাটালগ হ'ল সমস্ত ডেটা সম্পদের জন্য অবিচ্ছিন্ন মেটাডেটা স্টোরের মতো, সমস্ত ডেটা অনুসন্ধানযোগ্য এবং একক দৃষ্টিতে অনুসন্ধানযোগ্য।

প্রক্রিয়াজাতকরণ

  1. ইএমআর
    স্পার্ক এবং হাদুপ ব্যবহার করে বড় ডেটা প্রক্রিয়াকরণের জন্য, আমাজন ইএমআর একটি পরিচালিত পরিষেবা সরবরাহ করে যা প্রচুর পরিমাণে ডেটা প্রক্রিয়া করা সহজ, দ্রুত এবং ব্যয়বহুল করে তোলে। তদ্ব্যতীত, ইএমআর সহ 19 টি বিভিন্ন ওপেন-সোর্স প্রকল্প সমর্থন করে হাদুপ , স্পার্ক , এবং এছাড়াও এটি ডেটা ইঞ্জিনিয়ারিং, ডেটা সায়েন্স ডেভলপমেন্ট এবং সহযোগিতার জন্য পরিচালিত ইএমআর নোটবুক নিয়ে আসে।

  2. রেডশিফ্ট
    ডেটা গুদামজাত করার জন্য, আমাজন রেডশিফ্ট কাঠামোগত ডেটার পেটাবাইটের বিরুদ্ধে জটিল, বিশ্লেষণমূলক ক্যোয়ারি চালানোর ক্ষমতা সরবরাহ করে। এছাড়াও, এটি অন্তর্ভুক্ত রেডশিফ্ট স্পেকট্রাম এটি এসকিউএল ক্যোয়ারীগুলিকে অপ্রয়োজনীয় ডেটা মুভমেন্টের প্রয়োজন ছাড়াই এস 3-তে স্ট্রাকচার্ড বা স্ট্রাকচার্ড ডেটা এক্সপায়টসের বিরুদ্ধে সরাসরি চালায়।

ভিজ্যুয়ালাইজেশন

  1. অ্যামাজন কুইকসাইট

    ড্যাশবোর্ড এবং ভিজ্যুয়ালাইজেশনের জন্য, অ্যামাজন কুইকসাইট আপনাকে দ্রুত, ক্লাউড চালিত ব্যবসা বিশ্লেষণ পরিষেবা সরবরাহ করে। অত্যাশ্চর্য দৃশ্য এবং সমৃদ্ধ ড্যাশবোর্ডগুলি এটি তৈরি করা সহজ করে। অতিরিক্তভাবে, আপনি যে কোনও ব্রাউজার বা মোবাইল ডিভাইস থেকে এগুলি অ্যাক্সেস করতে পারেন।

ডেমো - অস্ট্রেলিয়ায় উদ্ভিদ এবং প্রাণীর বিপন্ন প্রজাতির ডেটা বিশ্লেষণ।

এই ডেমোতে, আমরা অস্ট্রেলিয়ার রাজ্য এবং অঞ্চলগুলি থেকে বিপন্ন গাছ এবং প্রাণী প্রজাতির নমুনা ডেটা ব্যবহার করব। এখানে আমরা একটি ইএমআর ক্লাস্টার তৈরি করব এবং মাল্টি-স্টেপ অ্যাপাচি হাইভ কাজগুলি পরিচালনা করতে এটি কনফিগার করব। ইএমআর ক্লাস্টারে এটিতে অ্যাপাচি হাইভ ইনস্টল করা থাকবে। এই ক্লাস্টারটি EMRFS ফাইল ফাইল হিসাবে ব্যবহার করবে, যাতে এর ডেটা ইনপুট এবং আউটপুট অবস্থানগুলিকে একটি এস 3 বালতিতে ম্যাপ করা হয়। ক্লাস্টার লগ ফাইলগুলি সংরক্ষণ করার জন্য একই এস 3 বালতিও ব্যবহার করবে।

আমরা এখন ক্লাস্টারে ডেটার একটি নমুনা সেট প্রক্রিয়া করার জন্য বেশ কয়েকটি ইএমআর পদক্ষেপ তৈরি করব। এখানে এই পদক্ষেপগুলির প্রত্যেকটি একটি হাইভ স্ক্রিপ্ট চালাবে, এবং চূড়ান্ত আউটপুট এস 3 বালতিতে সংরক্ষণ করা হবে। এই পদক্ষেপগুলি ম্যাপ্রেডস লগগুলি তৈরি করবে এবং এর কারণ হাইভ কমান্ডগুলি রান সময়ে মানচিত্রের কাজগুলিতে অনুবাদ করা হয়। প্রতিটি পদক্ষেপের জন্য লগ ফাইলগুলি যে পাতাগুলির দ্বারা প্রসারিত হয়েছিল তা সংগ্রহ করে।

নমুনা তথ্য

এই ব্যবহারের ক্ষেত্রে সেট করা নমুনা ডেটা সর্বজনীন থেকে পাওয়া যায় অস্ট্রেলিয়ান সরকারের ওপেন ডেটা ওয়েবসাইট । এই ডেটা সেটটি হ'ল অস্ট্রেলিয়ার বিভিন্ন রাজ্য এবং অঞ্চল থেকে হুমকির সম্মুখীন প্রাণী এবং উদ্ভিদ প্রজাতির সম্পর্কে। এই ডেটা সেটের ক্ষেত্রগুলির বিবরণ এবং সিএসভি ফাইল দেখা এবং ডাউনলোড করা যায় এখানে

প্রসেসিং পদক্ষেপ

এখানে প্রথম ইএমআর কাজের পদক্ষেপে এস 3 এর অন্তর্নিহিত উত্স ফাইলের জন্য স্কিমা হিসাবে একটি মাতাল টেবিল তৈরি করা জড়িত। দ্বিতীয় কাজের পদক্ষেপে, আমরা এখন ডেটাগুলির বিরুদ্ধে সফল জিজ্ঞাসা চালাব। একইভাবে, আমরা তৃতীয় এবং চতুর্থ কোয়েরি চালাব।

আমরা এই চারটি পদক্ষেপটি এক ঘন্টার মধ্যে কয়েকবার পুনরাবৃত্তি করব, মাল্টি-স্টেপ ব্যাচের কাজের ক্রমাগত রানগুলি অনুকরণ করে। তবে, বাস্তব জীবনের দৃশ্যে, প্রতিটি ব্যাচের মধ্যে সাধারণত চালানো সময়ের পার্থক্য অনেক বেশি হতে পারে। ধারাবাহিক রানের মধ্যে স্বল্প সময়ের ব্যবধানটি আমাদের পরীক্ষার গতি বাড়ানোর উদ্দেশ্যে।

এস 3 বালতি এবং ফোল্ডারগুলি

আমাদের ইএমআর ক্লাস্টার তৈরি করার আগে, এখানে এর ফাইলগুলি হোস্ট করার জন্য আমাদের একটি এস 3 বালতি তৈরি করতে হয়েছিল। আমাদের উদাহরণস্বরূপ, আমরা এই বালতিটির নাম দিয়েছি “আরভিন্ড 1-বালতি” এই বালতিটির নীচে ফোল্ডারগুলি এস 3 এর জন্য এডাব্লুএস কনসোলে নীচে দেখানো হয়েছে:

  • ইনপুট ফোল্ডারে নমুনা ডেটা ধারণ করে

  • স্ক্রিপ্টস ফোল্ডারে ইএমআর কাজের পদক্ষেপের জন্য হাইভ স্ক্রিপ্ট ফাইল রয়েছে

  • আউটপুট ফোল্ডারটি অবশ্যই স্পষ্টভাবে Hive প্রোগ্রাম আউটপুট ধরে রাখবে

  • ইএমআর ক্লাস্টার লগ ফাইলগুলি সেটির লগ ফাইলগুলি সংরক্ষণ করতে ব্যবহার করে।

ইএমআর কাজের পদক্ষেপের জন্য হাইভ স্ক্রিপ্টস

1. এই কাজের পদক্ষেপটি একটি হাইভ স্ক্রিপ্ট চালায়একটি বাহ্যিক হাইভ টেবিল তৈরি করতে। এই টেবিলটি অন্তর্নিহিত সিএসভি ডেটা ফাইলের ট্যাবুলার স্কিমা বর্ণনা করে। এর স্ক্রিপ্টটি নিম্নরূপ:

বহির্মুখী টেবিল তৈরি করুন `হুমকি_ স্পেসি` (` বৈজ্ঞানিক নাম-স্ট্রিং, `সাধারণ নাম-স্ট্রিং,` বর্তমান বৈজ্ঞানিক নাম-স্ট্রিং, `হুমকিযুক্ত স্ট্যাটাস-স্ট্রিং,` অ্যাক্ট স্ট্রিং, s nsw` স্ট্রিং, `nt` স্ট্রিং,` Qld` স্ট্রিং, `সা` স্ট্রিং,` টাস স্ট্রিং, `ভিস স্ট্রিং,` ওয়া স্ট্রিং, `এসি স্ট্রিং,` সিকি স্ট্রিং, `সিআইআর স্ট্রিং,` সিএসই স্ট্রিং, `জেবিটি স্ট্রিং,` nfi` স্ট্রিং, `hmi` স্ট্রিং,` আটা স্ট্রিং, `cma` স্ট্রিং,` তালিকাভুক্ত স্প্রেট ট্যাক্সনিড বিগিন্ট, `বর্তমান স্প্রেট ট্যাক্সনিড বিগিন্ট, কিংডম স্ট্রিং,` শ্রেণিক স্ট্রিং, `প্রোফাইল স্ট্রিং, তারিখ আহরণ` স্ট্রিং, s nsl নেম স্ট্রিং, `ফ্যামিলি স্ট্রিং,` জেনাস স্ট্রিং, `প্রজাতির স্ট্রিং,` ইনফ্রাস্পেসিফিক র‌্যাঙ্ক স্ট্রিং, `ইনফ্রাস্পেসি স্ট্রিং,` প্রজাতির লেখক স্ট্রিং, `ইনফ্রাস্পেসি লেখক স্ট্রিং) সারি ফর্ম্যাট ডিলিটেড ফিল্ডস সংক্ষিপ্ত আকারে ',' ইনপুটফর্ম্যাট হিসাবে স্টোরড 'org.apache.hadoop.mapred.TextInput Format' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutput Format' LOCATION 's1 /vucket

২. এই কাজের পদক্ষেপটি নিউ সাউথ ওয়েলস (এনএসডাব্লু) রাজ্যের শীর্ষ পাঁচটি বিপন্ন প্রজাতি গণনা করার জন্য একটি ক্যোয়ারী চালায়। হাইভ ক্যোয়ারী ফাইলের নাম বিপদগ্রাহী স্পেসিএনএসডাব্লু.কিউ এবং এটি নীচে দেখানো হয়েছে:

প্রজাতিগুলি নির্বাচন করুন, COUNT (এনএসডাব্লু) হিসাবে হুমকি_স্পেসিজ থেকে সংখ্যা_সংখ্যক_সংক্রান্ত_স্পেসি যেখানে (এনএসডাব্লু '' হ্যাঁ 'বা এনএসডাব্লু' 'বিপন্ন') এবং 'হুমকীপূর্ণ স্থিতি' = 'বিপন্ন' গ্রুপের প্রজাতি হ'ল COUNT (এনএসডাব্লু)> 1 সংখ্যার_সংখ্যক_সংশ্লিষ্ট

ঘ।এই কাজের পদক্ষেপটি অস্ট্রেলিয়ায় প্রতিটি উদ্ভিদ পরিবারের জন্য বিপদগ্রস্ত উদ্ভিদ প্রজাতির মোট সংখ্যা গণনা করার জন্য একটি ক্যোয়ারী চালায়। হাইভ ক্যোয়ারী ফাইলের নামবিপন্ন প্ল্যান্টস্পেসি.কিএবং নীচে প্রদর্শিত হয়

পরিবার, COUNT (প্রজাতি) নির্বাচন করুন AS___Andangered_species থেকে হুমকি_ স্পেসি 2 2 রাজ্য = 'প্লান্টি' এবং 'হুমকী পরিস্থিতি' = 'পরিবারের দ্বারা বিপন্ন' গ্রুপ

৪. এই পদক্ষেপটি অস্ট্রেলিয়ার কুইন্সল্যান্ড রাজ্যে বিলুপ্তপ্রায় প্রাণী প্রজাতির বৈজ্ঞানিক নাম তালিকাভুক্ত করে। স্ক্রিপ্ট ফাইল বলা হয় extinctAnimalsQLD.q এবং নীচে দেখানো হয়েছে:

'সাধারণ নাম', 'বৈজ্ঞানিক নাম' থেকে হুমকি_ স্পেসিগুলি নির্বাচন করুন যেখানে কিংডম = 'এনিমেলিয়া' এবং (কোল্ড = 'হ্যাঁ' বা কুইল্ড = 'বিলুপ্ত') এবং 'হুমকীপূর্ণ অবস্থা' = 'বিলুপ্ত'

লগ একত্রি

এখানে আমরা এস 3 বালতির স্ক্রিপ্ট ফোল্ডারে লগঅ্যাগগ্রেশন.জসন নামে একটি জেএসএন ফাইলও আপলোড করেছি। ইয়ার্ন লগ ফাইলগুলিকে একত্রিত করার জন্য আমরা এই ফাইলটি ব্যবহার করি। ক্লাস্টার শুরু হওয়ার সাথে সাথে লগের সমষ্টিটি সুতা-সাইট.xML কনফিগারেশন ফাইলে কনফিগার করা হয়। লগঅগ্রগ্রেশন.জসন ফাইলের সামগ্রীগুলি নীচে রয়েছে:

[{'শ্রেণিবদ্ধকরণ': 'সুতা-সাইট', 'বৈশিষ্ট্য': {'yarn.log-aggregation-सक्षम': 'সত্য', 'yarn.log-aggregation.retain- সেকেন্ড': '-1', 'সুতা .nodemanager.remote-app-log-dir ':' s3: // arvind1-bucket / logs '}}]

আপনি এস 3 বালতি তৈরি করার পরে ডেটা এবং স্ক্রিপ্ট ফাইলগুলি তাদের নিজ নিজ ফোল্ডারে অনুলিপি করার পরে এখন ইএমআর ক্লাস্টার সেট আপ করার সময় এসেছে। নিম্নলিখিত স্ন্যাপশটগুলি প্রক্রিয়াটির বর্ণনা দেয় কারণ আমরা বেশিরভাগ ডিফল্ট সেটিংস সহ ক্লাস্টার তৈরি করি।

ইএমআর ক্লাস্টার সেটআপ

প্রথম চিত্রটিতে, এডাব্লুএস কনসোলে ক্লাস্টারটি কনফিগার করতে, আমরা হিভ সহ ইএমআর দ্বারা প্রস্তাবিত সমস্ত অ্যাপ্লিকেশন রেখেছি। হাইভ মেটাডেটা সংরক্ষণ করার জন্য আমাদের এডাব্লুএস গ্লু ব্যবহার করার দরকার নেই, আমরা এই মুহুর্তে কোনও কাজের পদক্ষেপ যোগ করছি না। তবে, হিভের জন্য আমাদের একটি সফ্টওয়্যার সেটিং যুক্ত করতে হবে। এখানে আপনাকে অবশ্যই সাবধানে পর্যবেক্ষণ করতে হবে যে আমরা কীভাবে এই ক্ষেত্রে লগের সমষ্টি JSON ফাইলের পাথ নির্দিষ্ট করছি।

পরবর্তী পদক্ষেপে, আমরা সমস্ত ডিফল্ট সেটিংস রেখেছি। আমাদের পরীক্ষার খাতিরে, ক্লাস্টারে একটি মাস্টার নোড এবং দুটি কোর নোড থাকবে। এখানে প্রতিটি নোড একটি এম 3 এক্সপ্লোরের উদাহরণ এবং এতে 10 জিবি রুট ভলিউম রয়েছে। আমরা পরবর্তী ধাপে ক্লাস্টার আরভিন্ড 1-ক্লাস্টারের নামকরণ করছি এবং এর লগ ফাইলগুলির জন্য কাস্টম এস 3 অবস্থান নির্দিষ্ট করছি।

অবশেষে, আমরা ক্লাস্টারের মাস্টার নোড অ্যাক্সেস করার উদ্দেশ্যে একটি ইসি 2 কী জুটি নির্দিষ্ট করেছি। ইএমআর, ইসি 2 ইনস্ট্যান্স প্রোফাইল এবং অটো-স্কেল বিকল্পগুলির জন্য ডিফল্ট আইএএম রোলগুলির কোনও পরিবর্তন নেই। এছাড়াও, মাস্টার এবং কোর নোডগুলি ডিফল্টভাবে উপলব্ধ সুরক্ষা গোষ্ঠীগুলি ব্যবহার করছে। সাধারণত, এটি একটি ইএমআর ক্লাস্টারের জন্য একটি ডিফল্ট সেটআপ। সবকিছু প্রস্তুত হয়ে গেলে, ক্লাস্টারটি নীচে প্রদর্শিত হিসাবে 'অপেক্ষার' স্থিতিতে থাকবে:

হাইভ জব পদক্ষেপ জমা দিন

এর পরে, আমাদের এসএসএইচ অ্যাক্সেসের অনুমতি দেওয়া দরকার।

  1. অ্যামাজন ইএমআর কনসোলটি এ খুলুন https://console.aws.amazon.com/elasticmapreduce/
  2. পছন্দ করা গুচ্ছ
  3. পছন্দ করা নাম গুচ্ছের।
  4. অধীনে সুরক্ষা এবং অ্যাক্সেস পছন্দ করা মাস্টার জন্য সুরক্ষা গ্রুপ লিঙ্ক
  5. পছন্দ করা ইলাস্টিকম্যাপ্রেডস-মাস্টার তালিকা থেকে।
  6. পছন্দ করা অন্তর্মুখী , সম্পাদনা করুন
  7. নিম্নলিখিত সেটিংস সহ নিয়মটি সন্ধান করুন এবং এটিকে চয়ন করুন এক্স এটি মুছতে আইকন:
    • প্রকার এসএসএইচ
    • বন্দর 22
    • উৎস কাস্টম 0.0.0.0/0
  8. নিয়মের তালিকার নীচে স্ক্রোল করুন এবং চয়ন করুন বিধি যুক্ত করুন
  9. জন্য প্রকার , নির্বাচন করুন এসএসএইচ এটি স্বয়ংক্রিয়ভাবে প্রবেশ করে টিসিপি জন্য প্রোটোকল এবং 22 জন্য পোর্ট ব্যাপ্তি
  10. উত্সের জন্য, নির্বাচন করুন আমার আইপি । এটি স্বয়ংক্রিয়ভাবে উত্স ঠিকানা হিসাবে আপনার ক্লায়েন্ট কম্পিউটারের আইপি ঠিকানা যুক্ত করে। বিকল্পভাবে, আপনি এর ব্যাপ্তি যুক্ত করতে পারেন কাস্টম বিশ্বস্ত ক্লায়েন্টের আইপি ঠিকানা এবং চয়ন করুন বিধি যুক্ত করুন অন্যান্য ক্লায়েন্টদের জন্য অতিরিক্ত নিয়ম তৈরি করতে। অনেকগুলি নেটওয়ার্ক এনভায়রনমেন্টে আপনি আইপি অ্যাড্রেসগুলি ডায়নামিকভাবে বরাদ্দ করেন, তাই আপনাকে বিশ্বস্ত ক্লায়েন্টের আইপি অ্যাড্রেস আপডেট করার জন্য পর্যায়ক্রমে সুরক্ষা গোষ্ঠী বিধিগুলি সম্পাদনা করতে হতে পারে।
  11. পছন্দ করা সংরক্ষণ
  12. .চ্ছিকভাবে, চয়ন করুন ইলাস্টিকম্যাপ্রেডুস-স্লেভ তালিকা থেকে এবং এসএসএইচ ক্লায়েন্টকে বিশ্বস্ত ক্লায়েন্টদের কোর এবং টাস্ক নোডগুলিতে অ্যাক্সেসের অনুমতি দেওয়ার জন্য উপরের পদক্ষেপগুলি পুনরাবৃত্তি করুন।

যেহেতু ইএমআর ক্লাস্টারটি চালু এবং চলছে তাই আমরা চারটি কাজের পদক্ষেপ যুক্ত করেছি। এটি একের পর এক ইএমআর চালিত পদক্ষেপগুলি। নিম্নলিখিত চিত্রটি এডাব্লুএস ইএমআর কনসোল থেকে প্রাপ্ত পদক্ষেপগুলি দেখায়:

একবার আমরা চারটি ধাপ যুক্ত করার পরে, আমরা এই পদক্ষেপগুলির স্থিতিটি সম্পূর্ণ হওয়ার সাথে সাথে পরীক্ষা করতে পারি। এমনকি যদি এই পদক্ষেপগুলি কার্যকর করতে কোনও সমস্যা হয়, তবে এই ক্ষেত্রে এই পদক্ষেপগুলির লগ ফাইলগুলি ব্যবহার করে সমাধান করা যেতে পারে।

সুতরাং এটি আমার পক্ষ থেকে এডাব্লুএস-এর বিগ ডেটা সম্পর্কিত এই নিবন্ধে। আমি আশা করি যে আমি এখানে যা বলেছি সেগুলি আপনি বুঝতে পেরেছেন।

আপনি যদি এডাব্লুএস সম্পর্কিত এই বড় ডেটাটি খুঁজে পেয়েছেন তবে আপনি এডুরেকার সরাসরি এবং প্রশিক্ষকের নেতৃত্বাধীন কোর্সটি পরীক্ষা করে দেখতে পারেন , শিল্প অনুশীলনকারীদের দ্বারা সহ-নির্মিত।

আমাদের জন্য একটি প্রশ্ন আছে? দয়া করে এডাব্লুএসে জাভা ওয়েব অ্যাপ্লিকেশন কীভাবে স্থাপন করবেন তার মন্তব্যে বিভাগে এটি উল্লেখ করুন এবং আমরা আপনার কাছে ফিরে আসব।