লিনিয়ার বৈষম্যমূলক বিশ্লেষণ একটি খুব জনপ্রিয় মেশিন লার্নিং কৌশল যা শ্রেণিবদ্ধকরণের সমস্যাগুলি সমাধান করার জন্য ব্যবহৃত হয়। এই নিবন্ধে আমরা এই কৌশলটির পিছনে অন্তর্দৃষ্টি এবং গণিতটি বোঝার চেষ্টা করব। এলডিএ বাস্তবায়নের একটি উদাহরণ আর এছাড়াও সরবরাহ করা হয়।
সুতরাং আমাদের তারপর শুরু করা যাক
লিনিয়ার বৈষম্য বিশ্লেষণ অনুমান
লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নিম্নলিখিত অনুমানের উপর ভিত্তি করে:
নির্ভরশীল পরিবর্তনশীল ওয়াই বিযুক্ত। এই নিবন্ধে আমরা ধরে নেব যে নির্ভরশীল ভেরিয়েবল বাইনারি এবং শ্রেণীর মান গ্রহণ করে {+1, -1} । শ্রেণীর অন্তর্গত একটি নমুনার সম্ভাবনা +1 , i পি (ওয়াই = + 1) = পি । সুতরাং, শ্রেণীর অন্তর্গত একটি নমুনার সম্ভাবনা -এক হয় 1-পি ।
স্বাধীন পরিবর্তনশীল (গুলি) এক্স গাউসির বিতরণ থেকে এসেছেন। গাউসী বিতরণের গড় শ্রেণীর লেবেলের উপর নির্ভর করে ওয়াই । অর্থাত্ যদি ওয়াই i = +1 তারপরে, এর অর্থ এক্স i হয় & # 120583 +1 অন্যথায় এটি & # 120583 -এক । বৈকল্পিকতা & # 120590 ঘ উভয় শ্রেণীর জন্য একই। গাণিতিকভাবে বলছি, এক্স | (Y = +1) ~ এন (& # 120583) +1 , এবং # 120590 ঘ ) এবং এক্স | (ওয়াই = -1) ~ এন (& # 120583) -এক , এবং # 120590 ঘ ) , কোথায় এন সাধারণ বিতরণ বোঝায়।
এই তথ্য দিয়ে একটি যৌথ বিতরণ নির্মাণ সম্ভব পি (এক্স, ওয়াই) স্বাধীন এবং নির্ভরশীল পরিবর্তনশীল জন্য। সুতরাং, এলডিএ শ্রেণীর অন্তর্গত উত্পাদক শ্রেণিবদ্ধ মডেল । একটি ঘনিষ্ঠভাবে সম্পর্কিত জেনারেটরি ক্লাসিফায়ার হ'ল চতুষ্কোণ বিভেদ বিশ্লেষণ (কিউডিএ)। এটি এলডিএর সমস্ত একই অনুমানের উপর ভিত্তি করে শ্রেণিবিন্যাসের ভিন্নতা বাদে।
আসুন আমরা লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নিবন্ধটি দিয়ে চালিয়ে যাই এবং দেখুন
অন্তর্দৃষ্টি
শ্রেণীর শর্তসাপেক্ষে গাউসীয় বিতরণগুলি বিবেচনা করুন এক্স ক্লাস দেওয়া ওয়াই । নীচের চিত্রটি বিতরণের ঘনত্বের কার্যগুলি দেখায়। এই চিত্রে, যদি Y = +1 তারপরে, এর অর্থ এক্স 10 এবং যদি Y = -1 , গড় 2 হয়। উভয় ক্ষেত্রেই তারতম্য 2।
এখন ধরুন একটি নতুন মান এক্স আমাদের দেওয়া হয়। এটি কেবল হিসাবে চিহ্নিত করা যাক এক্স i । কাজটি এর জন্য সর্বাধিক সম্ভাব্য শ্রেণীর লেবেল নির্ধারণ করা এক্স i , অর্থাত্ ওয়াই i । সরলতার জন্য অনুমান যে সম্ভাবনা পি শ্রেণীর অন্তর্গত নমুনা +1 শ্রেণীর অন্তর্গত হিসাবে একই -এক , অর্থাত্ পি = 0.5 ।
স্বজ্ঞাতভাবে, এটি বললে বুদ্ধিমান হয় এক্স i কাছাকাছি & # 120583 +1 এটা চেয়ে বেশি & # 120583 -এক , তবে এটি সম্ভবত বেশি ওয়াই i = +1 । আরও আনুষ্ঠানিকভাবে, ওয়াই i = +1 যদি:
| এক্স i - & # 120583 +1 |<|x i - & # 120583 -এক |
স্ট্যান্ডার্ড বিচ্যুতি দ্বারা উভয় পক্ষকে সাধারণকরণ:
| এক্স i - & # 120583 +1 | / & # 120590<|x i - & # 120583 -এক | / & # 120590
উভয় পক্ষের স্কোয়ারিং:
(এক্স i - & # 120583 +1 ) ঘ / & # 120590 ঘ <(x i - & # 120583 -এক ) ঘ / & # 120590 ঘ
এক্স i ঘ / & # 120590 ঘ + & # 120583 +1 ঘ / & # 120590 ঘ - 2 এক্স i & # 120583 +1 / & # 120590 ঘ
2 এক্স i (& # 120583) -এক - & # 120583 +1 ) / & # 120590 ঘ - (& # 120583) -এক ঘ / & # 120590 ঘ - & # 120583 +1 ঘ / & # 120590 ঘ )<0
-2 এক্স i (& # 120583) -এক - & # 120583 +1 ) / & # 120590 ঘ + (& # 120583) -এক ঘ / & # 120590 ঘ - & # 120583 +1 ঘ / & # 120590 ঘ )> 0
উপরের অভিব্যক্তিটি ফর্মের বিএক্স i + সি> 0 কোথায় খ = -2 (& # 120583) -এক - & # 120583 +1 ) / & # 120590 ঘ এবং সি = (& # 120583) -এক ঘ / & # 120590 ঘ - & # 120583 +1 ঘ / & # 120590 ঘ ) ।
সমীকরণের রূপটি এটি প্রতীয়মান রৈখিক , তাই লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নাম।
আসুন আমরা লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নিবন্ধটি দিয়ে চালিয়ে যাই এবং দেখুন,
এলডিএর গাণিতিক বিবরণ
এলডিএর জন্য অভিব্যক্তিটির গাণিতিক উপার্জন মত ধারণার উপর ভিত্তি করে বেয়েস বিধি এবং বেয়েস অনুকূল শ্রেণিবদ্ধ । আগ্রহী পাঠকদের এই ধারণাগুলি সম্পর্কে আরও পড়তে উত্সাহিত করা হয়। ভাব প্রকাশের একটি উপায় খুঁজে পাওয়া যাবে এখানে ।
আমরা যেখানে আমাদের নির্দিষ্ট ক্ষেত্রে তা সরাসরি প্রকাশ করব ওয়াই দুটি ক্লাস লাগে {+1, -1} । আমরা আগের বিভাগে প্রদর্শিত অন্তর্দৃষ্টিটি সাধারণ ক্ষেত্রেও প্রসারিত করব এক্স বহুমাত্রিক হতে পারে। আসুন বলি যে আছে প্রতি স্বাধীন চলক. এই ক্ষেত্রে, বর্গ মানে & # 120583 -এক এবং & # 120583 +1 মাত্রার ভেক্টর হতে হবে কে * 1 এবং ভেরিয়েন্স-কোভেরিয়েন্স ম্যাট্রিক্স & # 120622 মাত্রা একটি ম্যাট্রিক্স হবে কে কে ।
শ্রেণিবদ্ধ ফাংশন হিসাবে দেওয়া হয়
Y = h (X) = চিহ্ন (খ টি এক্স + সি)
কোথায়,
খ = -2 & # 120622 -এক (& # 120583) -এক - & # 120583 +1 )
সি = & # 120583 -এক টি & # 120622 -এক & # 120583 -এক - & # 120583 -এক টি & # 120622 -এক & # 120583 -এক {-2 এলএন (1-পি) / পি
সাইন ফাংশন ফিরে আসে +1 যদি প্রকাশ খ টি x + c> 0 অন্যথায় এটি ফিরে আসে -এক । মধ্যে প্রাকৃতিক লগ শব্দ গ শ্রেণীর সম্ভাবনা উভয় শ্রেণীর জন্য সমান হওয়া উচিত নয় এই সত্যের জন্য সামঞ্জস্য করতে উপস্থিত পি (0, 1) এর মধ্যে কোনও মান হতে পারে, এবং কেবল 0.5 এর মধ্যে নয়।
মডেল পরামিতি শিখছি
সাথে একটি ডেটাসেট দেওয়া হয়েছে এন তথ্য-পয়েন্ট (এক্স এক , Y এক ), (এক্স ঘ , Y ঘ ),… (এক্স এন , Y এন ) , আমাদের অনুমান করা দরকার পি, এবং # 120583 -এক , এবং # 120583 +1 এবং & # 120622 । একটি পরিসংখ্যান অনুমানের কৌশল বলা হয় সর্বাধিক সম্ভাবনার অনুমান এই পরামিতিগুলি অনুমান করতে ব্যবহৃত হয়। উপরের প্যারামিটারগুলির জন্য প্রকাশগুলি নীচে দেওয়া হয়েছে।
& # 120583 +1 = (1 / এন) +1 ) * & # 120506 i: yi = + 1 এক্স i
& # 120583 -এক = (1 / এন) -এক ) * & # 120506 i: yi = -1 এক্স i
পি = এন +1 / এন
& # 120622 = (1 / এন) * & # 120506i = 1: এন (এক্স i - & # 120583 i ) (এক্স i - & # 120583 i ) টি
কোথায় এন +1 = যেখানে নমুনার সংখ্যা i = +1 এবং এন -এক = যেখানে নমুনার সংখ্যা i = -1 ।
কীভাবে মাইক্রোসফ্ট ভিজ্যুয়াল স্টুডিও ব্যবহার করবেন
উপরের মত প্রকাশের সাথে, এলডিএ মডেলটি সম্পূর্ণ। উপরের এক্সপ্রেশনগুলি ব্যবহার করে কেউ মডেল প্যারামিটারগুলি অনুমান করতে পারে এবং শ্রেণিবদ্ধ ফাংশনে এটিকে স্বতন্ত্র ভেরিয়েবলের কোনও নতুন ইনপুট মানের ক্লাস লেবেল পেতে ব্যবহার করতে পারে এক্স ।
আসুন আমরা লিনিয়ার বৈষম্যমূলক বিশ্লেষণ নিবন্ধটি দিয়ে চালিয়ে যাই এবং দেখুন
আর এর উদাহরণ
নিম্নলিখিত কোড দুটি স্বতন্ত্র ভেরিয়েবল সহ ডামি ডেটা সেট তৈরি করে এক্স 1 এবং এক্স 2 এবং একটি নির্ভরশীল পরিবর্তনশীল ওয়াই । জন্য এক্স 1 এবং এক্স 2 , আমরা দুটি মাল্টিভারিয়েট গাউসিয়ান বিতরণ থেকে মাধ্যম তৈরি করব & # 120583 -এক = (২, ২) এবং & # 120583 +1 = (6, 6) । 40% নমুনা শ্রেণীর অন্তর্গত +1 এবং 60% শ্রেণীর অন্তর্গত -এক সুতরাং, পি = 0.4 ।
লাইব্রেরি (ggplot2) লাইব্রেরি (এমএএসএস) লাইব্রেরি (এমভিএসএনআরএম) # র্যান্ডম বাইভারিয়েট গাউসিয়ান নমুনার জন্য ভার্ভিয়েন্স কোভারিয়েন্স ম্যাট্রিক্স ভার_কোভার = ম্যাট্রিক্স (ডেটা = সি (1.5, 0.3, 0.3, 1.5), ন্যার = 2) # শ্রেণি জন্য র্যান্ডম বাইভারিয়েট গাউসী নমুনা 1 এক্সপ্লাস 1<- rmvnorm(400, mean = c(6, 6), sigma = var_covar) # Random bivariate gaussian samples for class -1 Xminus1 <- rmvnorm(600, mean = c(2, 2), sigma = var_covar) #Samples for the dependent variable Y_samples <- c(rep(1, 400), rep(-1, 600)) #Combining the independent and dependent variables into a dataframe dataset <- as.data.frame(cbind(rbind(Xplus1, Xminus1), Y_samples)) colnames(dataset) <- c('X1', 'X2', 'Y') dataset$Y <- as.character(dataset$Y) #Plot the above samples and color by class labels ggplot(data = dataset)+ geom_point(aes(X1, X2, color = Y))
উপরের চিত্রটিতে, নীল বিন্দুগুলি শ্রেণীর নমুনা উপস্থাপন করে +1 এবং লালগুলি শ্রেণীর নমুনা উপস্থাপন করে -এক । নমুনাগুলির মধ্যে কিছু ওভারল্যাপ রয়েছে, অর্থাত ক্লাসগুলি একটি সাধারণ লাইনের সাথে সম্পূর্ণ আলাদা করা যায় না। অন্য কথায় তারা নিখুঁত হয় না রৈখিকভাবে পৃথকযোগ্য ।
আমরা এখন উপরের ডেটা ব্যবহার করে একটি এলডিএ মডেলকে প্রশিক্ষণ দেব।
# উপরের ডেটাসেট lda_model ব্যবহার করে এলডিএ মডেলটি ট্রেন করুন<- lda(Y ~ X1 + X2, data = dataset) #Print the LDA model lda_model
আউটপুট:
গোষ্ঠীর পূর্ব সম্ভাবনা:
-লেভেন
0.6 0.4
গোষ্ঠীর অর্থ:
এক্স 1 এক্স 2
-1 1.928108 2.010226
1 5.961004 6.015438
লিনিয়ার বৈষম্যমূলক গুণাগুণ:
এলডি 1
এক্স 1 0.5646116
এক্স 2 0.5004175
যেমনটি দেখতে পাচ্ছে, ক্লাসের অর্থটি মডেল দ্বারা শিখে নেওয়া ক্লাসের জন্য (1.928108, 2.010226) -এক এবং (5.961004, 6.015438) ক্লাসের জন্য +1 । এই মাধ্যমগুলি ক্লাসের খুব কাছে রয়েছে মানে আমরা এই এলোমেলো নমুনা তৈরি করতে ব্যবহার করেছি used গ্রুপের জন্য পূর্ব সম্ভাবনা +1 প্যারামিটারের জন্য অনুমান পি । দ্য খ ভেক্টর হ'ল লিনিয়ার বৈষম্যমূলক সহগ।
আমরা এখন উপরের মডেলটি একই তথ্যের জন্য ক্লাস লেবেলগুলির পূর্বাভাস দিতে ব্যবহার করব।
# এলডিএ মডেল y_pred ব্যবহার করে উপরের ডেটাসেটে প্রতিটি নমুনার জন্য শ্রেণীর ভবিষ্যদ্বাণী করা<- predict(lda_model, newdata = dataset)$class #Adding the predictions as another column in the dataframe dataset$Y_lda_prediction <- as.character(y_pred) #Plot the above samples and color by actual and predicted class labels dataset$Y_actual_pred <- paste(dataset$Y, dataset$Y_lda_prediction, sep=',') ggplot(data = dataset)+ geom_point(aes(X1, X2, color = Y_actual_pred))
উপরের চিত্রটিতে, বেগুনি নমুনাগুলি ক্লাস থেকে এসেছে +1 যেগুলি এলডিএ মডেল দ্বারা সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছিল। একইভাবে, লাল নমুনাগুলি ক্লাস থেকে আসে -এক যেগুলি সঠিকভাবে শ্রেণিবদ্ধ করা হয়েছিল। নীলগুলি ক্লাস থেকে এসেছে +1 কিন্তু হিসাবে ভুলভাবে শ্রেণিবদ্ধ করা হয়েছিল -এক । সবুজগুলি ক্লাস থেকে এসেছে -এক যা হিসাবে দুর্বৃত্ত ছিল +1 । ভুল শৃঙ্খলাগুলি ঘটছে কারণ এই নমুনাগুলি তাদের প্রকৃত শ্রেণির গড়ের চেয়ে অন্যান্য শ্রেণির গড় (কেন্দ্র) এর নিকটে রয়েছে।
এটি আমাদের এই নিবন্ধের শেষে নিয়ে আসে, দেখুন বিশ্বজুড়ে ছড়িয়ে থাকা 250,000 এরও বেশি সন্তুষ্ট শিক্ষার্থীর নেটওয়ার্ক সহ একটি বিশ্বস্ত অনলাইন লার্নিং সংস্থা এডুরেকা দ্বারা। আর প্রশিক্ষণের সাথে এডুরেকার ডেটা অ্যানালিটিকাগুলি আপনাকে আর প্রোগ্রামিং, ডেটা ম্যানিপুলেশন, এক্সপ্লোরারি ডেটা বিশ্লেষণ, ডেটা ভিজ্যুয়ালাইজেশন, ডেটা মাইনিং, রিগ্রেশন, সেন্টিমেন্ট বিশ্লেষণ এবং রিটেল, সোশ্যাল মিডিয়ায় রিয়েল লাইফ কেস স্টাডির জন্য আর স্টুডিও ব্যবহার করার ক্ষেত্রে দক্ষতা অর্জনে সহায়তা করবে।
আমাদের জন্য একটি প্রশ্ন আছে? দয়া করে এই নিবন্ধের মন্তব্য বিভাগে এটি উল্লেখ করুন এবং আমরা যত তাড়াতাড়ি সম্ভব আপনার কাছে ফিরে আসব।