এই ব্লগে, আমরা পাইথনে পান্ডাস ব্যবহার করে ডেটা বিশ্লেষণ নিয়ে আলোচনা করব।আজ, শিল্পের একটি হট স্কিল যা সামগ্রিক জনপ্রিয়তা এবং ব্যবহারের ক্ষেত্রে 2017 সালে পিএইচপি এবং 2018 সালে সি # ছাড়িয়ে গেছে।পান্ডাদের কথা বলার আগে অবশ্যই নম্পি অ্যারের ধারণাটি বুঝতে হবে। কেন? কারণ পান্ডস একটি ওপেন সোর্স সফ্টওয়্যার লাইব্রেরি যা উপরে নির্মিত । পাইথন পান্ডাস টিউটোরিয়ালে, আমি আপনাকে নিম্নলিখিত বিষয়গুলির মধ্যে নিয়ে যাব যা আগত ব্লগগুলির জন্য মৌলিক হিসাবে কাজ করবে:
চল শুরু করি. :-)
পাইথন পান্ডাস কি?
পান্ডস ডেটা ম্যানিপুলেশন, বিশ্লেষণ এবং পরিষ্কার করার জন্য ব্যবহৃত হয়। পাইথন পান্ডাস বিভিন্ন ধরণের ডেটার জন্য বেশ উপযুক্ত, যেমন:
- ভিন্ন-টাইপযুক্ত কলামগুলির সাথে সারণী ডেটা data
- অর্ডারড এবং অর্ডারড টাইম সিরিজের ডেটা
- সারি এবং কলাম লেবেল সহ নির্বিচারে ম্যাট্রিক্স ডেটা
- লেবেলযুক্ত ডেটা
- পর্যবেক্ষণমূলক বা পরিসংখ্যান সংক্রান্ত ডেটা সেটগুলির অন্য কোনও রূপ
পান্ডা ইনস্টল করবেন কীভাবে?
পাইথন পান্ডা ইনস্টল করতে আপনার কমান্ড লাইন / টার্মিনালে যান এবং 'পিপ ইনস্টল পান্ডাস' টাইপ করুন বা অন্যথায়, আপনার সিস্টেমে যদি অ্যানাকোন্ডা ইনস্টল করা থাকে তবে কেবল “কনডা ইনস্টল প্যান্ডাস” টাইপ করুন। ইনস্টলেশন শেষ হয়ে গেলে, আপনার আইডিইতে (জুপিটার, পাইচার্ম ইত্যাদি) যান এবং কেবল এটি টাইপ করে আমদানি করুন: 'প্যানডাকে পিডি হিসাবে আমদানি করুন'
পাইথন পান্ডাস টিউটোরিয়ালে এগিয়ে যাওয়া, এর কয়েকটি ক্রিয়াকলাপ দেখে নেওয়া যাক:
পাইথন পান্ডাস অপারেশনস
পাইথন পান্ডাস ব্যবহার করে, আপনি সিরিজ, ডেটা ফ্রেম, হারিয়ে যাওয়া তথ্য, গোষ্ঠী অনুসারে প্রচুর ক্রিয়াকলাপ সম্পাদন করতে পারেন ডেটা ম্যানিপুলেশনের জন্য কয়েকটি সাধারণ ক্রিয়াকলাপ নীচে তালিকাভুক্ত করা হয়েছে:
জাভা টোকেন কি?
এখন, আসুন আমরা একে একে এই সমস্ত অপারেশনগুলি বুঝতে পারি।
ডেটা ফ্রেমের টুকরো টুকরো করা
ডেটা টুকরো টুকরো করার জন্য আপনার একটি ডেটা ফ্রেম দরকার। চিন্তা করবেন না, ডেটা ফ্রেম একটি 2-মাত্রিক ডেটা কাঠামো এবং সর্বাধিক সাধারণ পান্ডাস অবজেক্ট। সুতরাং প্রথমে একটি ডেটা ফ্রেম তৈরি করা যাক।
পাইচার্মে এটি প্রয়োগের জন্য নীচের কোডটি দেখুন:
পিডি XYZ_web = Day 'দিন' হিসাবে পান্ডা আমদানি করুন: [1,2,3,4,5,6], 'দর্শনার্থী': [1000, 700,6000,1000,400,350], 'বাউন্স_রেট': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) মুদ্রণ (ডিএফ)
আউটপুট :
বাউন্স_ রেট দিন দর্শণার্থী 0 20 1 1000 1 20 2 700 2 23 3 6000 3 15 4 1000 4 10 5 400 5 34 6 350
উপরের কোডটি একটি অভিধানকে বামে সূচক সহ একটি পান্ডাস ডেটা ফ্রেমে রূপান্তর করবে। এখন, এই ডাটা ফ্রেম থেকে একটি নির্দিষ্ট কলাম স্লাইস করা যাক। নীচের চিত্রটি দেখুন:
মুদ্রণ (df.head (2))
আউটপুট:
বাউন্স_ রেট দিবস দর্শনার্থী 0 20 1 1000 1 20 2 700
একইভাবে, আপনি যদি ডেটাটির শেষ দুটি সারি চান, তবে নীচের কমান্ডটি টাইপ করুন:
মুদ্রণ (df.tail (2))
আউটপুট:
বাউন্স_সেট ডে দর্শণার্থীরা 4 10 5 400 5 34 6 350
পাইথন পান্ডাস টিউটোরিয়ালের পরবর্তী, আসুন আমরা মার্জ করে এবং যোগদান করি।
মার্জ করা এবং যোগদান করা হচ্ছে
মার্জ করার সময়, আপনি একটি একক ডেটা ফ্রেম গঠনে দুটি ডেটা ফ্রেম একত্রিত করতে পারেন। আপনি কোন কলামগুলি সাধারণ করতে চান তাও সিদ্ধান্ত নিতে পারেন। আমাকে এটি ব্যবহারিকভাবে বাস্তবায়িত করা যাক, প্রথমে আমি তিনটি ডেটা ফ্রেম তৈরি করব, যার কয়েকটি কী-মানযুক্ত জোড় রয়েছে এবং তারপরে ডেটা ফ্রেমগুলি একসাথে মার্জ করে। নীচের কোডটি দেখুন:
এইচপিআই IND_GDP Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3
আউটপুট:
pd df1 = pd.DataFrame (H 'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, হিসাবে প্যান্ডাস আমদানি করুন 67]}, সূচক = [2001, 2002,2003,2004]) ডিএফ 2 = পিডি.ডাটা ফ্রেম ({'এইচপিআই': [80,90,70,60], 'অন্তর্নিহিত': [২,১,২,৩] , 'IND_GDP': [50,45,45,67] index, সূচী = [2005, 2006,2007,2008]) মার্জড = পিডি.সমার (ডিএফ 1, ডিএফ 2) মুদ্রণ (মার্জ)
আপনি উপরে দেখতে পারেন যে দুটি ডেটা ফ্রেম একক ডেটা ফ্রেমে একত্রিত হয়েছে। এখন, আপনি যে কলামটি সাধারণ করতে চান তাও নির্দিষ্ট করতে পারেন। উদাহরণস্বরূপ, আমি চাই 'এইচপিআই' কলামটি সাধারণ হোক এবং অন্য যে কোনও কিছুর জন্য আমি পৃথক কলাম চাই। সুতরাং, আমাকে এটি ব্যবহারিকভাবে প্রয়োগ করা যাক:
ডিএফ 1 = পিডি.ডাটা ফ্রেম (H 'এইচপিআই': [80,90,70,60], 'অন্তর্নিহিত রেট': [2,1,2,3], 'আইND_GDP': [50,45,45,67]}, সূচক = [2001, 2002,2003,2004]) df2 = পিডি.ডাটা ফ্রেম ({'এইচপিআই': [80,90,70,60], 'অন্তর্নির্মিত রেট': [2,1,2,3], 'আইND_GDP' : [50,45,45,67]}, সূচক = [2005, 2006,2007,2008]) মার্জড = পিডি.স্রোম (ডিএফ 1, ডিএফ 2, অন = 'এইচপিআই') মুদ্রণ (মার্জ)
আউটপুট:
IND_GDP আন্তঃ-রেট লো_টায়_আর পি পি বেকারত্ব 2001 2001 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0
পরবর্তী, আমাদের বুঝতে দিন যোগদান পাইথন পান্ডাস টিউটোরিয়ালে একক ফলাফল ডেটা ফ্রেমের সাথে দুটি পৃথকভাবে সূচিকৃত ডাটাফ্রেমগুলি একত্রিত করা এটি আরও একটি সুবিধাজনক পদ্ধতি। এটি 'মার্জ' অপারেশনের সাথে একেবারেই মিল, যোগদানের ক্রিয়াকলাপটি 'কলামগুলির' পরিবর্তে 'সূচক' এ থাকবে। আসুন আমরা এটি ব্যবহারিকভাবে বাস্তবায়ন করি।
df1 = pd.DataFrame (Int 'আন্ত_রেট': [২,১,২,৩], 'IND_GDP': [50,45,45,67] index, সূচক = [2001, 2002,2003,2004]) df2 = পিডি.ডাটাফ্রেমে ({'লো_টায়ারএইচপিআই': [50,45,67,34], 'বেকারত্ব': [1,3,5,6] index, সূচক = [2001, 2003,2004,2004]) = df1 এ যোগদান করেছে। join (df2) মুদ্রণ (যোগদান)
আউটপুট:
IND_GDP আন্তঃ-রেট লো_টায়_আর পি পি বেকারত্ব 2001 2001 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0
আপনি উপরের আউটপুটটিতে লক্ষ্য করতে পারেন, ২০০২ সালে (সূচী), কলামগুলির সাথে 'কম_টিএইচপিআই' এবং 'বেকারত্বের' কোনও মূল্য নেই, সুতরাং এটি এনএএন (একটি সংখ্যা নয়) মুদ্রিত হয়েছে। পরবর্তীতে 2004, উভয় মান উপলব্ধ, তাই এটি সম্পর্কিত মান মুদ্রিত হয়েছে।
আপনি পাইথন পান্ডাস টিউটোরিয়ালটির এই রেকর্ডিংয়ের মধ্য দিয়ে যেতে পারেন যেখানে আমাদের প্রশিক্ষক উদাহরণগুলির সাথে বিশদভাবে বিষয়গুলি ব্যাখ্যা করেছেন যা আপনাকে এই ধারণাটি আরও ভালভাবে বুঝতে সহায়তা করবে।
ডেটা বিশ্লেষণের জন্য পাইথন | পাইথন পান্ডাস টিউটোরিয়াল | পাইথন প্রশিক্ষণ | এডুরেকা
পাইথন পান্ডাস টিউটোরিয়ালে এগিয়ে যাওয়া, আসুন আমরা কীভাবে দুটি ডেটা ডেটা ফ্রেমকে সংযুক্ত করতে পারি তা বুঝতে দিন।
সংবিধান
সংঘবদ্ধকরণ মূলত ডেটাফ্রেমগুলি একসাথে আঠালো করে। আপনি যে মাত্রাটির সাথে সম্মিলন করতে চান সেটি নির্বাচন করতে পারেন। তার জন্য, কেবল 'pd.concat' ব্যবহার করুন এবং একসাথে একত্রিত করতে ডেটা ফ্রেমগুলির তালিকায় পাস করুন। নীচের উদাহরণ বিবেচনা করুন।
ডিএফ 1 = পিডি.ডাটা ফ্রেম (H 'এইচপিআই': [80,90,70,60], 'অন্তর্নিহিত রেট': [2,1,2,3], 'আইND_GDP': [50,45,45,67]}, সূচক = [2001, 2002,2003,2004]) df2 = পিডি.ডাটা ফ্রেম ({'এইচপিআই': [80,90,70,60], 'অন্তর্নির্মিত রেট': [2,1,2,3], 'আইND_GDP' : [50,45,45,67]}, সূচক = [2005, 2006,2007,2008]) কনক্যাট = পিডি কোডট ([ডিএফ 1, ডিএফ 2]) মুদ্রণ (কনক্যাট)
আউটপুট:
এইচপিআই IND_GDP ইন্ট_ রেট 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3
আপনি উপরে দেখতে পারেন যে দুটি ডাটাফ্রেম একসাথে ডেটাফ্রেমে একসাথে আটকানো হয়েছে, যেখানে ২০০৮ সাল থেকে ২০০ index সাল পর্যন্ত সূচকটি শুরু হয় Next পরবর্তী, আপনি কলামগুলির সাথে যোগ, মার্জ বা ক্যানক্যাটনেট করতে অক্ষ = 1 নির্দিষ্ট করতে পারেন। নীচের কোডটি দেখুন:
ডিএফ 1 = পিডি.ডাটা ফ্রেম (H 'এইচপিআই': [80,90,70,60], 'অন্তর্নিহিত রেট': [2,1,2,3], 'আইND_GDP': [50,45,45,67]}, সূচক = [2001, 2002,2003,2004]) df2 = পিডি.ডাটা ফ্রেম ({'এইচপিআই': [80,90,70,60], 'অন্তর্নির্মিত রেট': [2,1,2,3], 'আইND_GDP' : [50,45,45,67]}, সূচক = [2005, 2006,2007,2008]) কনক্যাট = পিডি কোডট ([ডিএফ 1, ডিএফ 2], অক্ষ = 1) মুদ্রণ (কনক্যাট)
আউটপুট:
এইচপিআই IND_GDP অন্তর্নিহিত এইচপিআই IND_GDP আন্তঃ-রেট 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005.0NNNN.0 80.0 50.0 2.0 2006NN NaN NaN 90.0 45.0 1.0 2007 2007NN NaN NaN 70.0 45.0 2.0 2008 NaN NaN NaN 60.0 67.0 3.0
আপনি যেমন উপরে করতে পারেন, অনুপস্থিত মানগুলির গুচ্ছ রয়েছে। এটি ঘটায় কারণ ডেটাফ্রেমগুলির যে সমস্ত সূচকে আপনি সম্মতি জানাতে চান তার মান নেই। অতএব, আপনি যখন অক্ষটিতে যোগ দিচ্ছেন বা একত্রিত হন তখন আপনার অবশ্যই নিশ্চিত হওয়া উচিত যে আপনার সমস্ত তথ্য সঠিকভাবে রেখাযুক্ত করেছেন।
সূচী পরিবর্তন করুন
পাইথন পান্ডাস টিউটোরিয়ালের পরবর্তী, আমরা কীভাবে ডেটাফ্রেমে সূচকের মানগুলি পরিবর্তন করব তা বুঝব। উদাহরণস্বরূপ, আসুন আমরা একটি অভিধানে কিছু মূল মান জোড়া দিয়ে একটি ডেটাফ্রেম তৈরি করি এবং সূচীর মানগুলি পরিবর্তন করি। নীচের উদাহরণ বিবেচনা করুন:
আসুন দেখুন কীভাবে এটি ঘটে:
জাভা মধ্যে দুলছে কি
pd df = pd.DataFrame ({'দিন': [1,2,3,4], 'দর্শনার্থী': [200, 100,230,300], 'বাউন্স_রেট': [20,45,60,10] as) হিসাবে পান্ডাস আমদানি করুন df.set_index ('দিন', অন্তর্ভুক্ত = সত্য) মুদ্রণ (ডিএফ)
আউটপুট:
বাউন্স_ রেট দর্শনার্থীদের দিন 1 20 200 2 45 100 3 60 230 4 10 300
আপনি উপরের আউটপুটে লক্ষ্য করতে পারেন যে, 'দিন' কলামের সাথে সূচকের মান পরিবর্তন করা হয়েছে been
কলাম শিরোনাম পরিবর্তন করুন
আসুন এখন এই পাইথন পান্ডাস টিউটোরিয়ালে কলামের শিরোনামগুলি পরিবর্তন করব। আসুন আমরা একই উদাহরণটি গ্রহণ করি, যেখানে আমি কলামের শিরোনামটি 'দর্শকদের' থেকে 'ব্যবহারকারী' এ পরিবর্তন করব। সুতরাং, আমি এটি ব্যবহারিকভাবে বাস্তবায়ন করা যাক।
pd df = pd.DataFrame ({'দিন': [1,2,3,4], 'দর্শনার্থী': [200, 100,230,300], 'বাউন্স_রেট': [20,45,60,10] as) হিসাবে পান্ডাস আমদানি করুন df = df.rename (কলামগুলি = {'দর্শনার্থী': 'ব্যবহারকারী'}) মুদ্রণ (ডিএফ)
আউটপুট:
বাউন্স_ রেট দিন ব্যবহারকারী 0 20 1 200 1 45 2 100 2 60 3 230 3 10 4 300
আপনি উপরে দেখতে হিসাবে, কলাম শিরোনাম 'দর্শক' পরিবর্তন করা হয়েছে 'ব্যবহারকারী'। পাইথন পান্ডাস টিউটোরিয়ালের পরবর্তী, আসুন ডেটা মংটি করা যাক।
ডেটা মংগিং
ডেটা মংগুলিতে, আপনি একটি নির্দিষ্ট ডেটাটিকে আলাদা ফর্ম্যাটে রূপান্তর করতে পারেন। উদাহরণস্বরূপ, আপনার যদি একটি .csv ফাইল থাকে তবে আপনি এটিকে .html বা অন্য কোনও ডেটা ফর্ম্যাটে রূপান্তর করতে পারেন। সুতরাং, আমাকে এটি ব্যবহারিকভাবে বাস্তবায়ন করা যাক।
পিডি দেশ হিসাবে পিণ্ডগুলি আমদানি করুন = পিডি.ড্রেড_সিএসভি ('ডি: ব্যবহারকারীআউশিডাউনলোডসওয়ার্ল্ড-যুব-যুব-বেকারআইপিআইআইএলও_কাউন্ট্রি_ওয়াই ইউসিএসভি', সূচি_কোল = 0) দেশ.ট_এইচটিএমএল ('এডু এইচটিএমএল')
আপনি এই কোডটি চালানোর পরে, 'এইডু এইচটিএমএল' নামে একটি HTML ফাইল তৈরি করা হবে। আপনি সরাসরি ফাইলটির পাথ অনুলিপি করতে এবং এটি আপনার ব্রাউজারে পেস্ট করতে পারেন যা এইচটিএমএল ফর্ম্যাটে ডেটা প্রদর্শন করে। নীচের স্ক্রিনশটটি দেখুন:
পাইথন পান্ডাস টিউটোরিয়ালের পরবর্তী, আসুন একটি ব্যবহার-কেস দেখুন যা বিশ্বব্যাপী যুব বেকারত্ব সম্পর্কে আলোচনা করে।
পাইথন পান্ডাস টিউটোরিয়াল: যুব বেকারত্বের ডেটা বিশ্লেষণের জন্য কেসটি ব্যবহার করুন
সমস্যা বিবৃতি :আপনাকে একটি ডেটাসেট দেওয়া হয়েছে যা ২০১০ থেকে ২০১৪ সাল পর্যন্ত বিশ্বব্যাপী বেকার যুবকদের শতাংশের সমন্বয়ে You আপনাকে এই ডেটাসেটটি ব্যবহার করতে হবে এবং ২০১০-২০১১ থেকে প্রতিটি দেশের যুবদের শতাংশের পরিবর্তন খুঁজে পেতে হবে।
প্রথমে আসুন, আমাদের ডেটাসেটটি বুঝতে পারি যার মধ্যে কলামগুলি দেশ নাম, দেশ কোড এবং ২০১০ থেকে ২০১৪ সাল পর্যন্ত রয়েছে Now এখন পান্ডাস ব্যবহার করে আমরা .csv ফাইল ফর্ম্যাট ফাইলটি পড়তে 'pd.read_csv' ব্যবহার করব।
নীচের স্ক্রিনশটটি দেখুন:
আসুন আমরা এগিয়ে যাই এবং ডেটা বিশ্লেষণ সম্পাদন করি যার মধ্যে আমরা ২০১০ থেকে ২০১১ সালের মধ্যে বেকার যুবকদের শতকরা পরিবর্তনটি খুঁজে বের করতে যাচ্ছি। তারপরে আমরা এটি ব্যবহার করে এটির দৃশ্যায়ন করব লাইব্রেরি, যা পাইথনের ভিজুয়ালাইজেশনের জন্য একটি শক্তিশালী গ্রন্থাগার। এটি পাইথন স্ক্রিপ্ট, শেল, ওয়েব অ্যাপ্লিকেশন সার্ভার এবং অন্যান্য জিইআইআই সরঞ্জামদণ্ডগুলিতে ব্যবহার করা যেতে পারে। আপনি এখানে আরও পড়তে ব্যবহার করতে পারেন:
এখন, পাইচার্মে কোডটি প্রয়োগ করি:
মেটপ্ল্লোব আমদানি শৈলীর স্টাইল.ইউজ ('পঞ্চাশতম ') দেশ = পিডি.ড্রেড_সিএসভি (' ডি: ইউজারএউশিডাউনলোডস ওয়ার্ল্ড-যুব-যুব-বেকারতআইপিআইআইএলও_কাউন্ট্রি_ওয়াইসিএসসিভি ') সূচক_কোল = 0) ডিএফ দেশ = পিডি হিসাবে আমদানি করুন ম্যান্ডপ্ল্লোটিব.পিপ্লট হিসাবে প্যান্ডস আমদানি করুন। প্রধান (5) df = df.set_index (['দেশের কোড']) sd = sd.reindex (কলাম = ['2010', '2011']) db = sd.diff (অক্ষ = 1) db.plot (ধরনের = 'বার') plt.show ()
আপনি উপরে দেখতে পারেন, আমি দেশের ডাটাফ্রেমের শীর্ষ 5 সারি বিশ্লেষণটি সম্পাদন করেছি। এরপরে, আমি একটি সূচকের মানটিকে 'কান্ট্রি কোড' হিসাবে সংজ্ঞায়িত করেছি এবং তারপরে কলামটি ২০১০ এবং ২০১১ এ আবার সূচি দিয়েছি Then ২০১০ থেকে ২০১১ সাল পর্যন্ত। অবশেষে, আমি পাইথনের ম্যাটপ্ল্লিটিব লাইব্রেরি ব্যবহার করে একটি বারপ্লট প্লট করেছি।
এখন যদি আপনি উপরের প্লটটিতে লক্ষ্য করেন, ২০১০ থেকে ২০১১ সালের মধ্যে আফগানিস্তানে (এএফজি), বেকার যুবকদের সংখ্যা প্রায় বেড়েছে। 0.25%। তারপরে অ্যাঙ্গোলাতে (এজিও) একটি নেতিবাচক প্রবণতা রয়েছে যার অর্থ বেকার যুবকদের শতাংশ হ্রাস পেয়েছে। একইভাবে, আপনি বিভিন্ন সেট ডেটা বিশ্লেষণ করতে পারেন।
আমি আশা করি 'পাইথন পান্ডাস টিউটোরিয়াল' এ আমার ব্লগটি আপনার জন্য প্রাসঙ্গিক ছিল। পাইথনের বিভিন্ন অ্যাপ্লিকেশন সহ গভীরতর জ্ঞান পেতে, আপনি লাইভের জন্য নিবন্ধভুক্ত করতে পারেন 24/7 সমর্থন এবং আজীবন অ্যাক্সেস সহ এডুরেকা দ্বারা।
হ্যাশ মানচিত্র বনাম হ্যাশ টেবিল
আমাদের জন্য একটি প্রশ্ন আছে? দয়া করে এই 'পাইথন পান্ডাস টিউটোরিয়াল' ব্লগের মন্তব্য বিভাগে উল্লেখ করুন এবং আমরা যত তাড়াতাড়ি সম্ভব আপনার কাছে ফিরে আসব।