ক্র-ডেটাसेटে কে-মানে ক্লাস্টারিং কার্যকর করা



ইউএস ক্রাইম ডেটাসেটে ক্লিমারিং কামিয়ানদের বাস্তবায়ন

এই ব্লগে, আপনি বুঝতে পারবেন কে-মানে ক্লাস্টারিং কী এবং এটি কীভাবে মার্কিন যুক্তরাষ্ট্রের বিভিন্ন রাজ্যে সংগৃহীত ফৌজদারী ডেটা প্রয়োগ করা যেতে পারে। তথ্যগুলিতে সংঘটিত অপরাধগুলি রয়েছে: 1973 সালে 50 টি মার্কিন যুক্তরাষ্ট্রের প্রতিটিতে 100,000 বাসিন্দাকে গ্রেপ্তার করা, হত্যা, হত্যা এবং ধর্ষণ: তথ্য বিশ্লেষণের পাশাপাশি আপনি আরও শিখবেন:

    • ক্লাস্টারের অনুকূল সংখ্যা সন্ধান করা।
    • বিকৃতি হ্রাস করা হচ্ছে
    • কনুই বক্ররেখা তৈরি এবং বিশ্লেষণ।
  • কে-মানে অ্যালগরিদমের প্রক্রিয়া বোঝা।

আমাদের বিশ্লেষণ দিয়ে শুরু করা যাক। ডেটা হিসাবে দেখায়:





dataset

এই ডেটাসেটটি ডাউনলোড করতে ছবিতে ক্লিক করুন

এই ডেটাসেট দরকার? এটি ডাউনলোড করতে উপরের ছবিতে ক্লিক করুন।



প্রথমে বিশ্লেষণের জন্য ডেটা প্রস্তুত করি। এটি করার জন্য, আমাদের এমন কোনও এনএ মানগুলিকে মুছে ফেলা উচিত যা ডেটাতে উপস্থিত থাকতে পারে এবং ডেটাটিকে ম্যাট্রিক্সে রূপান্তর করতে পারে।

> ক্রিম0 ক্রাইম আরআর (অপরাধ) নাম [1:50, 1: 4] 13.2 10 8.1 8.8 9 7.9 3.3 5.9 15.4 17.4 ... - অ্যাটর (*, 'ডিমনেম') = 2 এর তালিকা .. $: chr [1 : 50] 'আলাবামা' 'আলাস্কা' 'অ্যারিজোনা' 'আরকানসাস' ... .. $: chr [1: 4] 'খুন' 'আক্রমণ' 'আরবানপপ' 'ধর্ষণ'

আসুন ক্লাস্টারগুলির সংখ্যা 5 হওয়া যাক K কুমিয়ানস () ফাংশনটি ইনপুট ডেটা এবং যে ক্লাস্টারগুলিতে ডেটা ক্লাস্টার করতে হবে তা গ্রহণ করে। সিনট্যাক্সটি হ'ল: kmeans (ডেটা, কে) যেখানে কে ক্লাস্টার কেন্দ্রের সংখ্যা।

অগ্রাধিকার সারি সি ++ প্রয়োগ করুন
> ক্লাস ক্লাস (সিএল) [1] 'কামিয়ান'

ক্লাস্টারিং বিশ্লেষণ:



> টিআরটি (সিএল) 9 $ গুচ্ছের তালিকা: নামযুক্ত অন্তর্ [1:50] 5 3 3 5 3 5 4 5 3 5 ... ..- অ্যাটর (*, 'নাম') = চিআর [1:50] ' আলাবামা '' আলাস্কা '' অ্যারিজোনা '' আরকানসাস '... $ কেন্দ্রগুলি: সংখ্যা [1: 5, 1: 4] 2.95 6.11 12.14 5.59 11.3 ... ..- অ্যাটর (*,' ধনাম ') = 2 এর তালিকা .. .. $: chr [1: 5] '1' '2' '3' '4' ... .. .. $: chr [1: 4] 'খুন' 'আক্রমণ' 'আরবানপপ' 'ধর্ষণ '$ টোটস: নাম 355808 $ অভ্যন্তরীণ: সংখ্যা [1: 5] 4548 2286 16272 1480 3653 $ টোট.বিথিনেস: সংখ্যা 28240 $ মাঝখানে: নম্ব 327568 $ আকার: অন্ত: [1: 5] 10 9 14 10 7 $ ইটার: ইন 3 $ ifault: int 0 - attr (*, 'class') = chr 'kmeans'

Str () ফাংশনটি kmeans এর কাঠামো দেয় যা বিভিন্ন প্যারামিটার যেমন অন্তর্নির্মিত, মাঝখানে, ইত্যাদি বিশ্লেষণ করে যা আপনি kmeans এর কার্যকারিতা জানতে পারবেন find

মাঝখানে: বর্গক্ষেত্রের সমষ্টি অর্থাত্ ইনট্রাক্লাস্টার মিল

আন্ডারস: বর্গাকার যোগফলের মধ্যে অর্থাত্ আন্তঃক্লাস্টার মিল

টোটোইথিনস: সমস্ত ক্লাস্টারের সমস্ত অন্তর্গতের সমষ্টি অর্থাৎ মোট ইনট্রা ক্লাস্টারের মিল

একটি ভাল ক্লাস্টারিংয়ের অভ্যন্তরের কম মান এবং মধ্যবর্তী মানের উচ্চতর মান থাকবে যা প্রাথমিকভাবে নির্বাচিত ক্লাস্টারগুলির ‘কে’ সংখ্যার উপর নির্ভর করে। আসুন আমরা কীভাবে ‘কে’ এর সর্বোত্তম মান খুঁজে পেতে পারি তা দেখতে দিন।

‘কে’ এর সর্বোত্তম মান সন্ধান করা হচ্ছে

‘কে’ এর একটি অনুকূল মান হ'ল মান যা আমাদের ন্যূনতম বিকৃতি সহ ক্লাস্টারগুলির একটি রূপান্তরিত সেট দেয়। আরও বৃহত্তর বিকৃতি, আরও খারাপ গ্রুপগুলি গঠিত হবে।

বিকৃতি:

বিকৃতিটি প্রতিটি ক্লাস্টারের কাছ থেকে ‘অন্তর্নিহিত’ শর্তে গণনা করা যেতে পারে। একটি নির্দিষ্ট ক্লাস্টারের ‘অন্তর্নিহিত’ এর মান যত কম হবে, আরও ঘনবসতিযুক্ত এটি হবে, সুতরাং ন্যূনতম বিকৃতি হবে।

kmeans.wss.k<- function(crime, k){ km = kmeans(crime, k) return (km$tot.withinss) }

এই ফাংশনটি ডেটা এবং কে এর মান গ্রহণ করে এবং এর জন্য ‘কিমি $ টোটওয়াইথিনস’ প্রদান করে। ‘কিমি $ টোটোথিনস’ হল স্কোয়ারের মোট-ক্লাস্টারের সমষ্টি, এইভাবে তৈরি হওয়া 5 টি ক্লাস্টারের অন্তর্ভুক্ত অর্থাত্‍যোগফল। ‘কিলোমিটার $ টোটওয়াইথিনেস’ এর মান যত বেশি হবে, তার বিকৃতি আরও বেশি হবে।

কে = 5 এর জন্য, ইনসারস 24417.02

> kmeans.wss.k (অপরাধ, 5) [1] 24417.02

আসুন কে এর মান 5 থেকে 10 পর্যন্ত বাড়িয়ে তুলি এবং পার্থক্যটি পর্যবেক্ষণ করি।

> kmeans.wss.k (অপরাধ, 10) [1] 11083.04

এটি দেখা যায় যে কে এর মান বাড়ার সাথে সাথে বিকৃতি হ্রাস পায়।

আমরা ‘কিলোমিটার w টোটোইথিনস’ এর বিভিন্ন মানগুলি বের করতে পারি এবং কে এর মানের মধ্যে সম্পর্ক খুঁজে পেতে একটি গ্রাফে প্লট করতে পারি। নিম্নলিখিত ফাংশনটি আমাদের জন্য এটি করে:

> kmeans.dis maxk = 10> ডিস = kmeans.dis (অপরাধ, ম্যাক্ক)> প্লট (1: ম্যাক্স, ডিস, টাইপ = 'বি', এক্স্ল্যাব = 'ক্লাস্টার সংখ্যা', + ইল্যাব = 'বিকৃতি', + কল = 'নীল')

তা দা !!! এইভাবে আমাদের সাথে বিখ্যাত কনুই বক্ররেখা রয়েছে।

কনুই কার্ভ:

এটি কে-এর প্রতিটি মানের জন্য ‘কে’, ক্লাস্টারের সংখ্যা এবং ‘টোটওয়াইথিনস’ (বা বিকৃতি) এর মধ্যে চক্রান্ত। আপনি দেখতে পারবেন যখন ক্লাস্টারের সংখ্যা কম হয়, ক্রমহ্রাসমান বিকৃতিতে ক্রমশ হ্রাস পাওয়া যায় তবে আমরা যেমন কে এর মান বাড়িয়ে চলেছি, বিকৃতি মান হ্রাসের হার স্থির হয়ে ওঠে।

কে এর এই মানটি ছাড়িয়ে যা বিকৃতির হারটি ধ্রুব হয়ে যায়। সর্বোত্তম মান। এখানে কে = 4

আমাদের কীভাবে ক্লাস্টার্ড ফলাফল দিয়েছে তা বুঝতে আমাদের কিছু অ্যানিমেশন প্রয়োগ করা যাক।

> গ্রন্থাগার (অ্যানিমেশন)> ক্লিপ<- kmeans.ani(crime, 4)

কুমিয়ানরা ক্লাস্টারিং অ্যালগোরিদম:

আসুন আমরা আলগোরিদিম বুঝতে পারি যার উপর কে-মানে ক্লাস্টারিং কাজ করে:

ধাপ 1. যদি কে = 4, আমরা 4 টি এলোমেলো পয়েন্ট নির্বাচন করি এবং তাদেরকে ক্লাস্টারগুলি তৈরি করার জন্য ক্লাস্টার কেন্দ্র হিসাবে ধরে নিই।

ধাপ ২. আমরা স্থান থেকে একটি এলোমেলো তথ্য পয়েন্ট গ্রহণ করি এবং সমস্ত 4 টি গুচ্ছ কেন্দ্র থেকে এর দূরত্ব খুঁজে পাই। যদি ডেটা পয়েন্ট সবুজ ক্লাস্টার সেন্টারের নিকটে থাকে তবে এটি সবুজ রঙিন এবং একইভাবে সমস্ত পয়েন্ট 4 টি ক্লাস্টারের মধ্যে শ্রেণীবদ্ধ করা হয়।

গোটো কমান্ড সি ++

ধাপ 3. এখন আমরা সমস্ত সবুজ পয়েন্টের সেন্ট্রয়েড গণনা করি এবং সেই ক্লাস্টারের ক্লাস্টার কেন্দ্র হিসাবে সেই বিন্দুটি নির্ধারণ করি।

একইভাবে, আমরা 4 টি রঙিন (ক্লাস্টারড) পয়েন্টের জন্য সেন্ট্রয়েডগুলি গণনা করি এবং ক্লাস্টার কেন্দ্র হিসাবে নতুন সেন্ট্রয়েডগুলি নির্ধারণ করি।

পদক্ষেপ # 4। ক্লাস্টার কেন্দ্রগুলি যখন একটি বিন্দুতে একত্রিত হয় এবং আর সরে না যায় তবে ধাপ -2 এবং ধাপ -3 পুনরাবৃত্তভাবে চালিত হয়।

দশমিককে বাইনারি পাইথন কোডে রূপান্তর করুন


সুতরাং, আমরা রূপান্তরিত ক্লাস্টার কেন্দ্রগুলিতে পৌঁছে যাই।

দেখা যায় যে ডেটাগুলি 4 টি ক্লাস্টারে বিভক্ত। গুচ্ছ কেন্দ্রগুলি হ'ল:

> সিএল $ কেন্দ্রগুলি হত্যা হামলা আরবানপপ ধর্ষণ টেক্সাস 4.740741 104.8519 62.96296 16.10 লুইসিয়ানা 10.907143 219.9286 71.71429 25.95 দক্ষিণ ক্যারোলিনা 13.375000 284.5000 46.25000 25.05 নিউ মেক্সিকো 11.040000 298.0000 77.60000 32.68

ক্লাস্টার -৪ ক্লাস্টার সেন্টার হিসাবে ‘নিউ মেক্সিকো’ যুক্ত ক্লাস্টার-এর সর্বোচ্চ জনসংখ্যার পাশাপাশি একটি বিশাল অপরাধের হার রয়েছে।

ক্লাস্টার -3 এবং ক্লাস্টার -2 অনুসরণ করে।

প্রতিটি রাজ্যকে একটি ক্লাস্টার অর্পণ করা হয়, তার উপর নির্ভর করে আমরা এখন এর অপরাধের স্থান নির্ধারণ করতে পারি। ফলাফলটি দেখায়:

আমাদের জন্য একটি প্রশ্ন আছে? দয়া করে মন্তব্য বিভাগে এটি উল্লেখ করুন এবং আমরা আপনার কাছে ফিরে আসব।

সম্পর্কিত পোস্ট: