র ক্ষেত্রে লিনিয়ার বৈষম্যমূলক বিশ্লেষণ কীভাবে কার্যকর করা যায়?



এই নিবন্ধটি আপনাকে লৈখিক বৈষম্যমূলক বিশ্লেষণ কী তা বলবে এবং আর প্রোগ্রামিং ভাষা ব্যবহার করে আপনাকে একটি বিশদ বিক্ষোভ দেবে।

লিনিয়ার বৈষম্যমূলক বিশ্লেষণ একটি খুব জনপ্রিয় মেশিন লার্নিং কৌশল যা শ্রেণিবদ্ধকরণের সমস্যাগুলি সমাধান করার জন্য ব্যবহৃত হয়। এই নিবন্ধে আমরা এই কৌশলটির পিছনে অন্তর্দৃষ্টি এবং গণিতটি বোঝার চেষ্টা করব। এলডিএ বাস্তবায়নের একটি উদাহরণ আর এছাড়াও সরবরাহ করা হয়।

সুতরাং আমাদের তারপর শুরু করা যাক





লিনিয়ার বৈষম্য বিশ্লেষণ অনুমান

লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নিম্নলিখিত অনুমানের উপর ভিত্তি করে:

  • নির্ভরশীল পরিবর্তনশীল ওয়াই বিযুক্ত। এই নিবন্ধে আমরা ধরে নেব যে নির্ভরশীল ভেরিয়েবল বাইনারি এবং শ্রেণীর মান গ্রহণ করে {+1, -1} । শ্রেণীর অন্তর্গত একটি নমুনার সম্ভাবনা +1 , i পি (ওয়াই = + 1) = পি । সুতরাং, শ্রেণীর অন্তর্গত একটি নমুনার সম্ভাবনা -এক হয় 1-পি



  • স্বাধীন পরিবর্তনশীল (গুলি) এক্স গাউসির বিতরণ থেকে এসেছেন। গাউসী বিতরণের গড় শ্রেণীর লেবেলের উপর নির্ভর করে ওয়াই । অর্থাত্ যদি ওয়াই i = +1 তারপরে, এর অর্থ এক্স i হয় & # 120583 +1 অন্যথায় এটি & # 120583 -এক । বৈকল্পিকতা & # 120590 উভয় শ্রেণীর জন্য একই। গাণিতিকভাবে বলছি, এক্স | (Y = +1) ~ এন (& # 120583) +1 , এবং # 120590 ) এবং এক্স | (ওয়াই = -1) ~ এন (& # 120583) -এক , এবং # 120590 ) , কোথায় এন সাধারণ বিতরণ বোঝায়।

এই তথ্য দিয়ে একটি যৌথ বিতরণ নির্মাণ সম্ভব পি (এক্স, ওয়াই) স্বাধীন এবং নির্ভরশীল পরিবর্তনশীল জন্য। সুতরাং, এলডিএ শ্রেণীর অন্তর্গত উত্পাদক শ্রেণিবদ্ধ মডেল । একটি ঘনিষ্ঠভাবে সম্পর্কিত জেনারেটরি ক্লাসিফায়ার হ'ল চতুষ্কোণ বিভেদ বিশ্লেষণ (কিউডিএ)। এটি এলডিএর সমস্ত একই অনুমানের উপর ভিত্তি করে শ্রেণিবিন্যাসের ভিন্নতা বাদে।

আসুন আমরা লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নিবন্ধটি দিয়ে চালিয়ে যাই এবং দেখুন

অন্তর্দৃষ্টি

শ্রেণীর শর্তসাপেক্ষে গাউসীয় বিতরণগুলি বিবেচনা করুন এক্স ক্লাস দেওয়া ওয়াই । নীচের চিত্রটি বিতরণের ঘনত্বের কার্যগুলি দেখায়। এই চিত্রে, যদি Y = +1 তারপরে, এর অর্থ এক্স 10 এবং যদি Y = -1 , গড় 2 হয়। উভয় ক্ষেত্রেই তারতম্য 2।

স্বজ্ঞাত - লিনিয়ার বৈষম্য বিশ্লেষণ - এডুরেকা

এখন ধরুন একটি নতুন মান এক্স আমাদের দেওয়া হয়। এটি কেবল হিসাবে চিহ্নিত করা যাক এক্স i । কাজটি এর জন্য সর্বাধিক সম্ভাব্য শ্রেণীর লেবেল নির্ধারণ করা এক্স i , অর্থাত্ ওয়াই i । সরলতার জন্য অনুমান যে সম্ভাবনা পি শ্রেণীর অন্তর্গত নমুনা +1 শ্রেণীর অন্তর্গত হিসাবে একই -এক , অর্থাত্ পি = 0.5

স্বজ্ঞাতভাবে, এটি বললে বুদ্ধিমান হয় এক্স i কাছাকাছি & # 120583 +1 এটা চেয়ে বেশি & # 120583 -এক , তবে এটি সম্ভবত বেশি ওয়াই i = +1 । আরও আনুষ্ঠানিকভাবে, ওয়াই i = +1 যদি:

| এক্স i - & # 120583 +1 |<|x i - & # 120583 -এক |

স্ট্যান্ডার্ড বিচ্যুতি দ্বারা উভয় পক্ষকে সাধারণকরণ:

| এক্স i - & # 120583 +1 | / & # 120590<|x i - & # 120583 -এক | / & # 120590

উভয় পক্ষের স্কোয়ারিং:

(এক্স i - & # 120583 +1 ) / & # 120590 <(x i - & # 120583 -এক ) / & # 120590

এক্স i / & # 120590 + & # 120583 +1 / & # 120590 - 2 এক্স i & # 120583 +1 / & # 120590 i / & # 120590 + & # 120583 -এক / & # 120590 - 2 এক্স i & # 120583 -এক / & # 120590

2 এক্স i (& # 120583) -এক - & # 120583 +1 ) / & # 120590 - (& # 120583) -এক / & # 120590 - & # 120583 +1 / & # 120590 )<0

-2 এক্স i (& # 120583) -এক - & # 120583 +1 ) / & # 120590 + (& # 120583) -এক / & # 120590 - & # 120583 +1 / & # 120590 )> 0

উপরের অভিব্যক্তিটি ফর্মের বিএক্স i + সি> 0 কোথায় খ = -2 (& # 120583) -এক - & # 120583 +1 ) / & # 120590 এবং সি = (& # 120583) -এক / & # 120590 - & # 120583 +1 / & # 120590 )

সমীকরণের রূপটি এটি প্রতীয়মান রৈখিক , তাই লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নাম।

আসুন আমরা লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নিবন্ধটি দিয়ে চালিয়ে যাই এবং দেখুন,

এলডিএর গাণিতিক বিবরণ

এলডিএর জন্য অভিব্যক্তিটির গাণিতিক উপার্জন মত ধারণার উপর ভিত্তি করে বেয়েস বিধি এবং বেয়েস অনুকূল শ্রেণিবদ্ধ । আগ্রহী পাঠকদের এই ধারণাগুলি সম্পর্কে আরও পড়তে উত্সাহিত করা হয়। ভাব প্রকাশের একটি উপায় খুঁজে পাওয়া যাবে এখানে

আমরা যেখানে আমাদের নির্দিষ্ট ক্ষেত্রে তা সরাসরি প্রকাশ করব ওয়াই দুটি ক্লাস লাগে {+1, -1} । আমরা আগের বিভাগে প্রদর্শিত অন্তর্দৃষ্টিটি সাধারণ ক্ষেত্রেও প্রসারিত করব এক্স বহুমাত্রিক হতে পারে। আসুন বলি যে আছে প্রতি স্বাধীন চলক. এই ক্ষেত্রে, বর্গ মানে & # 120583 -এক এবং & # 120583 +1 মাত্রার ভেক্টর হতে হবে কে * 1 এবং ভেরিয়েন্স-কোভেরিয়েন্স ম্যাট্রিক্স & # 120622 মাত্রা একটি ম্যাট্রিক্স হবে কে কে

শ্রেণিবদ্ধ ফাংশন হিসাবে দেওয়া হয়

Y = h (X) = চিহ্ন (খ টি এক্স + সি)

কোথায়,

খ = -2 & # 120622 -এক (& # 120583) -এক - & # 120583 +1 )

সি = & # 120583 -এক টি & # 120622 -এক & # 120583 -এক - & # 120583 -এক টি & # 120622 -এক & # 120583 -এক {-2 এলএন (1-পি) / পি

সাইন ফাংশন ফিরে আসে +1 যদি প্রকাশ টি x + c> 0 অন্যথায় এটি ফিরে আসে -এক । মধ্যে প্রাকৃতিক লগ শব্দ শ্রেণীর সম্ভাবনা উভয় শ্রেণীর জন্য সমান হওয়া উচিত নয় এই সত্যের জন্য সামঞ্জস্য করতে উপস্থিত পি (0, 1) এর মধ্যে কোনও মান হতে পারে, এবং কেবল 0.5 এর মধ্যে নয়।

মডেল পরামিতি শিখছি

সাথে একটি ডেটাসেট দেওয়া হয়েছে এন তথ্য-পয়েন্ট (এক্স এক , Y এক ), (এক্স , Y ),… (এক্স এন , Y এন ) , আমাদের অনুমান করা দরকার পি, এবং # 120583 -এক , এবং # 120583 +1 এবং & # 120622 । একটি পরিসংখ্যান অনুমানের কৌশল বলা হয় সর্বাধিক সম্ভাবনার অনুমান এই পরামিতিগুলি অনুমান করতে ব্যবহৃত হয়। উপরের প্যারামিটারগুলির জন্য প্রকাশগুলি নীচে দেওয়া হয়েছে।

& # 120583 +1 = (1 / এন) +1 ) * & # 120506 i: yi = + 1 এক্স i

& # 120583 -এক = (1 / এন) -এক ) * & # 120506 i: yi = -1 এক্স i

পি = এন +1 / এন

& # 120622 = (1 / এন) * & # 120506i = 1: এন (এক্স i - & # 120583 i ) (এক্স i - & # 120583 i ) টি

কোথায় এন +1 = যেখানে নমুনার সংখ্যা i = +1 এবং এন -এক = যেখানে নমুনার সংখ্যা i = -1

কীভাবে মাইক্রোসফ্ট ভিজ্যুয়াল স্টুডিও ব্যবহার করবেন

উপরের মত প্রকাশের সাথে, এলডিএ মডেলটি সম্পূর্ণ। উপরের এক্সপ্রেশনগুলি ব্যবহার করে কেউ মডেল প্যারামিটারগুলি অনুমান করতে পারে এবং শ্রেণিবদ্ধ ফাংশনে এটিকে স্বতন্ত্র ভেরিয়েবলের কোনও নতুন ইনপুট মানের ক্লাস লেবেল পেতে ব্যবহার করতে পারে এক্স

আসুন আমরা লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নিবন্ধটি দিয়ে চালিয়ে যাই এবং দেখুন

আর এর উদাহরণ

নিম্নলিখিত কোড দুটি স্বতন্ত্র ভেরিয়েবল সহ ডামি ডেটা সেট তৈরি করে এক্স 1 এবং এক্স 2 এবং একটি নির্ভরশীল পরিবর্তনশীল ওয়াই । জন্য এক্স 1 এবং এক্স 2 , আমরা দুটি মাল্টিভারিয়েট গাউসিয়ান বিতরণ থেকে মাধ্যম তৈরি করব & # 120583 -এক = (২, ২) এবং & # 120583 +1 = (6, 6) । 40% নমুনা শ্রেণীর অন্তর্গত +1 এবং 60% শ্রেণীর অন্তর্গত -এক সুতরাং, পি = 0.4

লাইব্রেরি (ggplot2) লাইব্রেরি (এমএএসএস) লাইব্রেরি (এমভিএসএনআরএম) # র্যান্ডম বাইভারিয়েট গাউসিয়ান নমুনার জন্য ভার্ভিয়েন্স কোভারিয়েন্স ম্যাট্রিক্স ভার_কোভার = ম্যাট্রিক্স (ডেটা = সি (1.5, 0.3, 0.3, 1.5), ন্যার = 2) # শ্রেণি জন্য র্যান্ডম বাইভারিয়েট গাউসী নমুনা 1 এক্সপ্লাস 1<- rmvnorm(400, mean = c(6, 6), sigma = var_covar) # Random bivariate gaussian samples for class -1 Xminus1 <- rmvnorm(600, mean = c(2, 2), sigma = var_covar) #Samples for the dependent variable Y_samples <- c(rep(1, 400), rep(-1, 600)) #Combining the independent and dependent variables into a dataframe dataset <- as.data.frame(cbind(rbind(Xplus1, Xminus1), Y_samples)) colnames(dataset) <- c('X1', 'X2', 'Y') dataset$Y <- as.character(dataset$Y) #Plot the above samples and color by class labels ggplot(data = dataset)+ geom_point(aes(X1, X2, color = Y)) 

উপরের চিত্রটিতে, নীল বিন্দুগুলি শ্রেণীর নমুনা উপস্থাপন করে +1 এবং লালগুলি শ্রেণীর নমুনা উপস্থাপন করে -এক । নমুনাগুলির মধ্যে কিছু ওভারল্যাপ রয়েছে, অর্থাত ক্লাসগুলি একটি সাধারণ লাইনের সাথে সম্পূর্ণ আলাদা করা যায় না। অন্য কথায় তারা নিখুঁত হয় না রৈখিকভাবে পৃথকযোগ্য

আমরা এখন উপরের ডেটা ব্যবহার করে একটি এলডিএ মডেলকে প্রশিক্ষণ দেব।

# উপরের ডেটাসেট lda_model ব্যবহার করে এলডিএ মডেলটি ট্রেন করুন<- lda(Y ~ X1 + X2, data = dataset) #Print the LDA model lda_model 

আউটপুট:

গোষ্ঠীর পূর্ব সম্ভাবনা:

-লেভেন

0.6 0.4

গোষ্ঠীর অর্থ:

এক্স 1 এক্স 2

-1 1.928108 2.010226

1 5.961004 6.015438

লিনিয়ার বৈষম্যমূলক গুণাগুণ:

এলডি 1

এক্স 1 0.5646116

এক্স 2 0.5004175

যেমনটি দেখতে পাচ্ছে, ক্লাসের অর্থটি মডেল দ্বারা শিখে নেওয়া ক্লাসের জন্য (1.928108, 2.010226) -এক এবং (5.961004, 6.015438) ক্লাসের জন্য +1 । এই মাধ্যমগুলি ক্লাসের খুব কাছে রয়েছে মানে আমরা এই এলোমেলো নমুনা তৈরি করতে ব্যবহার করেছি used গ্রুপের জন্য পূর্ব সম্ভাবনা +1 প্যারামিটারের জন্য অনুমান পি । দ্য ভেক্টর হ'ল লিনিয়ার বৈষম্যমূলক সহগ।

আমরা এখন উপরের মডেলটি একই তথ্যের জন্য ক্লাস লেবেলগুলির পূর্বাভাস দিতে ব্যবহার করব।

# এলডিএ মডেল y_pred ব্যবহার করে উপরের ডেটাসেটে প্রতিটি নমুনার জন্য শ্রেণীর ভবিষ্যদ্বাণী করা<- predict(lda_model, newdata = dataset)$class #Adding the predictions as another column in the dataframe dataset$Y_lda_prediction <- as.character(y_pred) #Plot the above samples and color by actual and predicted class labels dataset$Y_actual_pred <- paste(dataset$Y, dataset$Y_lda_prediction, sep=',') ggplot(data = dataset)+ geom_point(aes(X1, X2, color = Y_actual_pred))

উপরের চিত্রটিতে, বেগুনি নমুনাগুলি ক্লাস থেকে এসেছে +1 যেগুলি এলডিএ মডেল দ্বারা সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছিল। একইভাবে, লাল নমুনাগুলি ক্লাস থেকে আসে -এক যেগুলি সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছিল। নীলগুলি ক্লাস থেকে এসেছে +1 কিন্তু হিসাবে ভুলভাবে শ্রেণিবদ্ধ করা হয়েছিল -এক । সবুজগুলি ক্লাস থেকে এসেছে -এক যা হিসাবে দুর্বৃত্ত ছিল +1 । ভুল শৃঙ্খলাগুলি ঘটছে কারণ এই নমুনাগুলি তাদের প্রকৃত শ্রেণির গড়ের চেয়ে অন্যান্য শ্রেণির গড় (কেন্দ্র) এর নিকটে রয়েছে।

এটি আমাদের এই নিবন্ধের শেষে নিয়ে আসে, দেখুন বিশ্বজুড়ে ছড়িয়ে থাকা 250,000 এরও বেশি সন্তুষ্ট শিক্ষার্থীর নেটওয়ার্ক সহ একটি বিশ্বস্ত অনলাইন লার্নিং সংস্থা এডুরেকা দ্বারা। আর প্রশিক্ষণের সাথে এডুরেকার ডেটা অ্যানালিটিকাগুলি আপনাকে আর প্রোগ্রামিং, ডেটা ম্যানিপুলেশন, এক্সপ্লোরারি ডেটা বিশ্লেষণ, ডেটা ভিজ্যুয়ালাইজেশন, ডেটা মাইনিং, রিগ্রেশন, সেন্টিমেন্ট বিশ্লেষণ এবং রিটেল, সোশ্যাল মিডিয়ায় রিয়েল লাইফ কেস স্টাডির জন্য আর স্টুডিও ব্যবহার করার ক্ষেত্রে দক্ষতা অর্জনে সহায়তা করবে।

আমাদের জন্য একটি প্রশ্ন আছে? দয়া করে এই নিবন্ধের মন্তব্য বিভাগে এটি উল্লেখ করুন এবং আমরা যত তাড়াতাড়ি সম্ভব আপনার কাছে ফিরে আসব।