ওয়েব স্ক্র্যাপিং ওয়েবপৃষ্ঠাগুলি থেকে ডেটা সংগ্রহের একটি কার্যকর উপায়, এটি একটি কার্যকর সরঞ্জাম হয়ে উঠেছে । বিভিন্ন সহ গ্রন্থাগারগুলি ওয়েব স্ক্র্যাপিংয়ের মতো উপস্থিত , একটি তথ্য বিজ্ঞানীর কাজ অনুকূল হয়ে ওঠে। স্কেরাপি একটি শক্তিশালী ওয়েব কাঠামো যা ডেটা উত্তোলন, প্রক্রিয়াকরণ এবং সংরক্ষণের জন্য ব্যবহৃত হয়। আমরা কীভাবে এই স্কেরাপি টিউটোরিয়ালে একটি ওয়েব ক্রলার তৈরি করতে পারি তা এই ব্লগে আলোচিত বিষয়গুলি নীচে:
- থেরাপি কী?
- ওয়েব ক্রলার কী?
- কীভাবে স্কেরাপি ইনস্টল করবেন?
- আপনার প্রথম থেরাপি প্রকল্প শুরু হচ্ছে
- আপনার প্রথম মাকড়সা বানানো
- তথ্য আহরণ করা হচ্ছে
- এক্সট্রাক্ট করা ডেটা সংরক্ষণ করা
থেরাপি কী?
স্কেরাপি অজগর লিখিত একটি নিখরচায় এবং ওপেন সোর্স ওয়েব ক্রলিং ফ্রেমওয়ার্ক। এটি মূলত সম্পাদন করার জন্য ডিজাইন করা হয়েছিল , তবে এপিআই ব্যবহার করে ডেটা উত্তোলনের জন্যও ব্যবহার করা যেতে পারে। এটি স্ক্র্যাপিংহাব লিমিটেড দ্বারা রক্ষণাবেক্ষণ করা হয়।
ওয়েবপৃষ্ঠাগুলি ডাউনলোড, প্রসেসিং এবং এর উপর ডেটা সংরক্ষণ করার ক্ষেত্রে স্কেরাপি একটি সম্পূর্ণ প্যাকেজ ।
একটি নেমস্পেস কি?
ওয়েবসাইটটি স্ক্র্যাপ করার একাধিক উপায়ে ওয়েব স্ক্র্যাপিংয়ের বিষয়টি যখন আসে তখন এটি পাওয়ার হাউসের মতো। স্কেরাপি এক মিনিটেরও কম সময়ে একাধিক পৃষ্ঠাগুলি বা একটি গ্রুপের URL গুলি স্ক্র্যাপ করে স্বাচ্ছন্দ্যে বড় কাজগুলি পরিচালনা করে। এটি এমন একটি টুইস্টার ব্যবহার করে যা সম্মিলিততা অর্জনের জন্য অবিচ্ছিন্নভাবে কাজ করে।
এটি মাকড়সার চুক্তি সরবরাহ করে যা আমাদের জেনেরিক পাশাপাশি গভীর ক্রলার তৈরি করতে দেয়। থেরাপি মাকড়সার ফাংশন তৈরি করতে আইটেম পাইপলাইন সরবরাহ করে যা বিভিন্ন ক্রিয়াকলাপ যেমন ডেটাতে মান প্রতিস্থাপন ইত্যাদি করতে পারে etc.
ওয়েব-ক্রলার কী?
একটি ওয়েব-ক্রোলার এমন একটি প্রোগ্রাম যা ওয়েবে স্বয়ংক্রিয়ভাবে ডকুমেন্টগুলির জন্য অনুসন্ধান করে। এগুলি স্বয়ংক্রিয়ভাবে ব্রাউজিংয়ের জন্য পুনরাবৃত্তিমূলক ক্রিয়া করার জন্য প্রাথমিকভাবে প্রোগ্রাম করা হয় med
কিভাবে এটা কাজ করে?
একটি ওয়েব-ক্রলার একটি লাইব্রেরিয়ানের সাথে বেশ অনুরূপ। এটি ওয়েবে থাকা তথ্যের সন্ধান করে, তথ্যের শ্রেণিবদ্ধ করে এবং তারপরে ক্রল করা তথ্যের জন্য সূচিপত্র এবং ক্যাটালগগুলি তথ্য অনুসারে পুনরুদ্ধার করা এবং সেই অনুযায়ী সংরক্ষণ করা যায়।
ক্রোলার দ্বারা সম্পাদিত অপারেশনগুলি আগেই তৈরি করা হয়, তারপরে ক্রলার স্বয়ংক্রিয়ভাবে সেই সমস্ত অপারেশন সম্পাদন করে যা একটি সূচক তৈরি করবে। এই সূচকগুলি একটি আউটপুট সফ্টওয়্যার দ্বারা অ্যাক্সেস করা যেতে পারে।
আসুন একনজরে দেখে নেওয়া যাক ওয়েব-ক্রলারটি এর জন্য ব্যবহার করা যেতে পারে:
দামের তুলনা পোর্টালগুলি একটি ওয়েব-ক্রলার ব্যবহার করে বিভিন্ন প্ল্যাটফর্মে দামের তুলনা করতে নির্দিষ্ট পণ্যের বিবরণ সন্ধান করে।
তথ্য পুনরুদ্ধারের জন্য ডেটা মাইনিংয়ের ক্ষেত্রে একটি ওয়েব-ক্রলার খুব গুরুত্বপূর্ণ ভূমিকা পালন করে।
ডেটা বিশ্লেষণ সরঞ্জামগুলি পৃষ্ঠা ভিউ, ইনবাউন্ড এবং আউটবাউন্ড লিঙ্কগুলির জন্য ডেটা গণনা করতে ওয়েব ক্রলারগুলি ব্যবহার করে।
ক্রোলাররা নিউজ পোর্টালগুলির মতো ডেটা সংগ্রহ করার জন্য তথ্য কেন্দ্রগুলিতেও কাজ করে।
কীভাবে স্কেরাপি ইনস্টল করবেন?
আপনার সিস্টেমে স্কেরাপি ইনস্টল করতে, এটি একটি উত্সর্গীকৃত ভার্চুয়ালেনভে ইনস্টল করার পরামর্শ দেওয়া হয়। আপনি যদি ব্যবহার করছেন তবে পাইথন-এর অন্য যে কোনও প্যাকেজের মতো ইনস্টলেশনও একইভাবে কাজ করে কনডা পরিবেশ, স্কেরাপি ইনস্টল করতে নিম্নলিখিত কমান্ডটি ব্যবহার করুন:
কনডা ইনস্টল-সি কনডা-ফোরজ স্কেরাপি
আপনি পাইপ পরিবেশটি স্কেরাপি ইনস্টল করতে ব্যবহার করতে পারেন,
পাইপ ইনস্টল থেরাপি
আপনার অপারেটিং সিস্টেমের উপর নির্ভর করে কয়েকটি সংকলন নির্ভরতা থাকতে পারে। স্কেরাপিটি খাঁটি অজগরে লেখা এবং কয়েকটি অজগর প্যাকেজের উপর নির্ভর করে:
lxML - এটি একটি দক্ষ এক্সএমএল এবং এইচটিএমএল পার্সার।
পার্সেল - lxML এর উপরে লিখিত একটি এইচটিএমএল / এক্সএমএল এক্সট্রাকশন লাইব্রেরি
ডাব্লু 3লিব - এটি ইউআরএল এবং ওয়েবপৃষ্ঠা এনকোডিংগুলির সাথে কাজ করার জন্য একটি বহুমুখী সহায়ক
মোচড় - একটি অ্যাসিনক্রোনাস নেটওয়ার্কিং ফ্রেমওয়ার্ক
জাভা সংযোজনকারী (এটি)
ক্রিপ্টোগ্রাফি - এটি বিভিন্ন নেটওয়ার্ক-স্তরের সুরক্ষা প্রয়োজনে সহায়তা করে
আপনার প্রথম থেরাপি প্রকল্প শুরু হচ্ছে
আপনার প্রথম স্কেরাপি প্রকল্প শুরু করতে, ডিরেক্টরি বা অবস্থানটিতে যান যেখানে আপনি নিজের ফাইলগুলি সংরক্ষণ করতে চান এবং নীচের আদেশটি কার্যকর করতে পারেন
স্কেরাপি স্টার্টপ্রজেক্ট প্রকল্পের নাম
আপনি এই আদেশটি কার্যকর করার পরে, আপনি সেই অবস্থানটিতে নিম্নলিখিত ডিরেক্টরিগুলি তৈরি করবেন get
প্রকল্পের নাম/
scrap.cfg: এটি কনফিগারেশন ফাইল মোতায়েন করে
প্রকল্পের নাম/
__init__.py: প্রকল্পগুলির অজগর মডিউল
আইটেম.পি: প্রকল্প আইটেম সংজ্ঞা ফাইল
মিডলওয়্যারস.পি: প্রকল্প মিডলওয়্যারস ফাইল
পাইপলাইন.পি: প্রকল্পের পাইপলাইন ফাইল
settings.py: প্রকল্প সেটিংস ফাইল
মাকড়সা /
__init__.py: একটি ডিরেক্টরি যেখানে পরে আপনি আপনার মাকড়সা রাখবেন
আপনার প্রথম মাকড়সা বানানো
মাকড়সা এমন ক্লাস যা আমরা ওয়েব থেকে তথ্য সংগ্রহের জন্য সংজ্ঞায়িত করি এবং স্কেরাপি ব্যবহার করি। আপনার অবশ্যই স্ক্র্যাপি সাবস্ক্লাস করতে হবে p স্পিডার এবং করা প্রাথমিক অনুরোধগুলি সংজ্ঞায়িত করতে হবে।
আপনি আপনার মাকড়সার জন্য পৃথক পাইথন ফাইলে কোড লিখুন এবং এটি আপনার প্রকল্পের প্রকল্পের নাম / মাকড়সার ডিরেক্টরিতে সংরক্ষণ করুন।
quotes_spider.py
স্ক্রেরি ক্লাসটি কোয়েটসস্পাইডার (scrap.Spider) আমদানি করুন: নাম = 'কোটস' ডিফ স্টার্ট_রেকুয়েস্ট (স্ব): urls = ['http://quotes.toscrape.com/page/1/', http://quotes.toscrape.com / পৃষ্ঠা / 2 /,] ইউআরএল-তে ইউআরএল জন্য: ফলন স্কেরিপি eআপনি (ইউআরএল = ইউআরএল, কলব্যাক = স্ব.পার্স) ডিফ পার্স (স্ব, প্রতিক্রিয়া): পৃষ্ঠা = প্রতিক্রিয়া.url.split ('/') [- 2 ] ফাইলের নাম = 'কোটস-% s.html'% পৃষ্ঠা খোলা (ফাইলের নাম, 'ডাব্লুবি') হিসাবে এফ: এফ।
আপনি দেখতে পাচ্ছেন, আমরা আমাদের মাকড়সাতে বিভিন্ন ফাংশন সংজ্ঞায়িত করেছি,
নাম: এটি মাকড়সা চিহ্নিত করে, এটি পুরো প্রকল্প জুড়ে অনন্য হতে হবে।
start_requests (): মাকড়সাটি ক্রল করা শুরু করবে এমন অনুরোধগুলির অবশ্যই একটি পুনরাবৃত্তি ফেরত পাঠাতে হবে।
পার্স (): এটি এমন একটি পদ্ধতি যা প্রতিটি অনুরোধের সাথে ডাউনলোড করা প্রতিক্রিয়াটি পরিচালনা করতে বলা হবে called
তথ্য আহরণ করা হচ্ছে
এখন অবধি মাকড়সা কোনও ডেটা বের করে না, এটি কেবল পুরো এইচটিএমএল ফাইলটি সংরক্ষণ করে। একটি স্কেরাপি স্পাইডার সাধারণত পৃষ্ঠা থেকে নিষ্কাশিত ডেটাযুক্ত অনেকগুলি অভিধান তৈরি করে। আমরা ডেটা উত্তোলনের জন্য কলব্যাকে পাইথনে ফলন কীওয়ার্ডটি ব্যবহার করি।
স্ক্রপি ক্লাসটি কোয়েটসস্পাইডার (scrap.Spider) আমদানি করুন: নাম = 'কোটস' শুরু_আরলস = [http://quotes.toscrape.com/page/1/ ', http://quotes.toscrape.com/page/2/,] ডিফ পার্স (স্ব, প্রতিক্রিয়া): রেফারেন্স.এসএস ('div.quote') এর উদ্ধৃতি হিসাবে: ফলন করুন text 'পাঠ্য': quote.css (span.text :: পাঠ্য ') get পান (),' লেখক ': উদ্ধৃতি .css (small.author::text ') get (),' ট্যাগ ': quote.css (div.tags a.tag :: Text')। getall ()}
আপনি এই মাকড়সা চালানোর সময়, এটি লগ সঙ্গে নিষ্কাশন তথ্য আউটপুট হবে।
ডেটা সংরক্ষণ করা হচ্ছে
নিষ্কাশিত ডেটা সঞ্চয় করার সহজ উপায় হ'ল ফিড রফতানি ব্যবহার করে, আপনার ডেটা সংরক্ষণ করার জন্য নিম্নলিখিত কমান্ডটি ব্যবহার করুন।
স্কেরাপি ক্রল কোটস-কোটস.জসন
এই কমান্ডটি স্ক্র্যাপযুক্ত আইটেমগুলিকে সিরিয়ালযুক্ত করে একটি quotes.json ফাইল উত্পন্ন করবে জেএসওএন ।
এটি আমাদের এই নিবন্ধের শেষে নিয়ে এসেছিল যেখানে আমরা শিখেছি কীভাবে আমরা ওয়েবসাইটকে স্ক্র্যাপ করতে এবং একটি জেএসওন ফাইলে ডেটা উত্তোলনের জন্য পাইথনে স্ক্র্যাপি ব্যবহার করে একটি ওয়েব-ক্রলার তৈরি করতে পারি। আমি আশা করি এই টিউটোরিয়ালে আপনার সাথে যা ভাগ করা হয়েছে তার সাথে আপনি পরিষ্কার হয়ে গেছেন।
জাভা প্যাকেজ ব্যবহার
আপনি যদি 'স্কেরাপি টিউটোরিয়াল' সম্পর্কিত এই নিবন্ধটি প্রাসঙ্গিকভাবে খুঁজে পান তবে এটির জন্য দেখুন বিশ্বজুড়ে ছড়িয়ে থাকা 250,000 এরও বেশি সন্তুষ্ট শিক্ষার্থীর নেটওয়ার্ক সহ একটি বিশ্বস্ত অনলাইন লার্নিং সংস্থা।
আমরা এখানে আপনার যাত্রার প্রতিটি পদক্ষেপে আপনাকে সহায়তা করতে এবং এমন একটি পাঠ্যক্রম নিয়ে হাজির হলাম যা শিক্ষার্থী এবং পেশাদারদের জন্য ডিজাইন করা হয়েছে । কোথাকারটি আপনাকে পাইথন প্রোগ্রামিংয়ে একটি প্রধান সূচনা দেওয়ার জন্য এবং বিভিন্ন এবং মূল এবং উন্নত পাইথন উভয় ধারণার পাশাপাশি প্রশিক্ষণের জন্য ডিজাইন করা হয়েছে পছন্দ
যদি আপনার কোনও প্রশ্ন আসে তবে 'স্কেরাপি টিউটোরিয়াল' এর মন্তব্য বিভাগে আপনার সমস্ত প্রশ্ন জিজ্ঞাসা করতে দ্বিধা বোধ করুন এবং আমাদের দলটি উত্তর দিতে পেরে খুশি হবে।