ক্যাপসুল নিউরাল নেটওয়ার্কস - নেস্টেড নিউরাল লেয়ারস সেট করুন



ক্যাপসুল নেটওয়ার্ক - এই ব্লগটি কনভলিউশনাল নিউরাল নেটওয়ার্কের সীমাবদ্ধতা এবং কীভাবে ক্যাপসুল নিউরাল নেটওয়ার্কগুলি সীমাবদ্ধতাগুলি সমাধান করে সে সম্পর্কে আলোচনা করে।

ক্যাপসুল নেটওয়ার্কগুলি:

ক্যাপসুল নেটওয়ার্ক কি? এটি মূলত, নেস্টেড নিউরাল স্তরগুলির সেটগুলির একটি নেটওয়ার্ক।

আমি আপনাকে নীচের ব্লগগুলিতেও যেতে পরামর্শ দিচ্ছি:





আমি ধরে নিচ্ছি যে, আপনি ছেলেরা কনভলিউশনাল নিউরাল নেটওয়ার্কগুলি (সিএনএন) জানেন। এখানে, আমি এটির জন্য আপনাকে একটি ছোট্ট পরিচয় দিচ্ছি, যাতে আমি সিএনএনগুলির সীমাবদ্ধতাগুলি নিয়ে আলোচনা করতে পারি।

কনভলিউশনাল নিউরাল নেটওয়ার্কে আপনি নীচের ভিডিওটিও উল্লেখ করতে পারেন।



কনভোলিউশনাল নিউরাল নেটওয়ার্কস (সিএনএন)

কনভলিউশনাল নিউরাল নেটওয়ার্কগুলি মূলত কৃত্রিম নিউরনের বিভিন্ন স্তরগুলির স্ট্যাক, যা কম্পিউটার দর্শনের জন্য ব্যবহৃত হয়। নীচে, আমি সেই স্তরগুলি উল্লেখ করেছি:

কনভলিউশনাল নিউরাল নেটওয়ার্ক - ক্যাপসুল নিউরাল নেটওয়ার্ক - এডুরেকা

সংক্ষিপ্ত স্তর: আমরা যখন চিত্রের শ্রেণিবিন্যাসের জন্য ফিডফর্ডার নিউরাল নেটওয়ার্কগুলি (মাল্টি লেয়ার পারসেপ্ট্রন) ব্যবহার করি তখন এর সাথে অনেকগুলি চ্যালেঞ্জ থাকে। সবচেয়ে হতাশাব্যঞ্জক চ্যালেঞ্জ হ'ল, এটি প্রচুর পরামিতি প্রবর্তন করে, সিএনএন-তে ভিডিও টিউটোরিয়ালটি বিবেচনা করুন।



এই চ্যালেঞ্জ কাটিয়ে উঠতে কনভলিউশন স্তর চালু করা হয়. এটি ধারণা করা হয় যে, পিক্সেলগুলি যেগুলি স্থানগতভাবে একত্রে কাছাকাছি রয়েছে সেগুলি চিত্রের বিপরীত কোণগুলির চেয়ে অনেক বেশি আগ্রহের একটি নির্দিষ্ট বৈশিষ্ট্য গঠনে 'সহযোগিতা করবে'। এছাড়াও, কোনও চিত্রের লেবেল সংজ্ঞায়িত করার সময় যদি কোনও নির্দিষ্ট (ছোট) বৈশিষ্ট্যটি খুব বেশি গুরুত্বপূর্ণ হিসাবে পাওয়া যায়, তবে এটি সমানভাবে গুরুত্বপূর্ণ হবে, অবস্থান নির্বিশেষে চিত্রের অভ্যন্তরে এই বৈশিষ্ট্যটি যদি পাওয়া যায়।

রিলু স্তর: রেক্টিফাইড লিনিয়ার ইউনিট (রিলিজ) রূপান্তর ফাংশন কেবলমাত্র একটি নোডকে সক্রিয় করে যদি ইনপুটটি নির্দিষ্ট পরিমাণের উপরে থাকে তবে ইনপুট শূন্যের নীচে থাকে তবে আউটপুট শূন্য হয় তবে ইনপুট যখন একটি নির্দিষ্ট প্রান্তিকের উপরে উঠে যায় তখন এর সাথে লিনিয়ার সম্পর্ক থাকে নির্ভরশীল পরিবর্তনশীল।

  • এই স্তরটিতে আমরা ফিল্টারযুক্ত চিত্রগুলি থেকে প্রতিটি নেতিবাচক মান মুছে ফেলি এবং এটিকে শূন্যের সাথে প্রতিস্থাপন করি
  • এটি শূন্যের যোগফল থেকে মানগুলি এড়ানোর জন্য করা হয়

পুলিং স্তর: এটি ডাউনস্যাম্পলিংয়ের জন্য ব্যবহৃত হয়, যা ক্ষুদ্র এবং (সাধারণত) ইমেজের খণ্ডগুলি ছত্রভঙ্গ করে এবং তাদের একক মানে সংযুক্ত করে। সংহতকরণের জন্য বেশ কয়েকটি সম্ভাব্য স্কিম রয়েছে - সর্বাধিক জনপ্রিয় সর্বোচ্চ-পুলিং যেখানে প্রতিটি খণ্ডের মধ্যে সর্বাধিক পিক্সেল মান নেওয়া হয়। এটি ইনপুট চিত্রের ছোট ট্রান্সফর্মেশন, বিকৃতি এবং অনুবাদগুলিতে নেটওয়ার্ককে অবিচ্ছিন্ন করে তোলে (ইনপুটটিতে একটি ছোট বিকৃতি পুলিংয়ের আউটপুট পরিবর্তন করবে না - যেহেতু আমরা স্থানীয় প্রতিবেশে সর্বাধিক / গড় মান নিই)।

সম্পূর্ণ সংযুক্ত স্তর: এই স্তরটি ক্লাস স্কোরগুলি গণনা করবে, যেখানে প্রতিটি সংখ্যার শ্রেণি স্কোরের সাথে মিল রয়েছে। সাধারণ নিউরাল নেটওয়ার্কগুলির মতো এবং নামটিও বোঝা যায়, এই স্তরের প্রতিটি নিউরন পূর্ববর্তী ভলিউমের সমস্ত নিউরনের সাথে সংযুক্ত থাকবে। সংক্ষেপে, এটি চূড়ান্ত শ্রেণিবিন্যাস সম্পাদন করে।

এইভাবে, কনভনেটগুলি মূল চিত্রের স্তরটিকে মূল পিক্সেল মান থেকে চূড়ান্ত শ্রেণীর স্কোরগুলিতে রূপান্তর করে।

কনভলিউশনাল নিউরাল নেটওয়ার্কগুলির এটি একটি খুব সংক্ষিপ্ত ভূমিকা ছিল, আমি এখনও আপনাকে এই পোস্টটিতে এম্বেড করা সিএনএন ভিডিও দেখার জন্য আপনাকে সুপারিশ করব।

এই ক্যাপসুল নেটওয়ার্ক ব্লগে আমি এখন কনভোলিউশনাল নিউরাল নেটওয়ার্কের কয়েকটি সীমাবদ্ধতা নিয়ে আলোচনা করব

কনভলিউশনাল নিউরাল নেটওয়ার্কের সীমাবদ্ধতা:

ঠিক আছে, আমি এটি একটি উপমা দিয়ে ব্যাখ্যা করি।

মনে করুন এমন কোনও মানুষ আছেন যার চোখ বিভিন্ন ইমেজের বৈশিষ্ট্যগুলি সনাক্ত করতে পারে। আসুন একটি উদাহরণ হিসাবে একটি মানুষের চেহারা বিবেচনা করি। সুতরাং, এই দুর্ভাগ্য লোকটি বিভিন্ন বৈশিষ্ট্য যেমন, চোখ, নাক ইত্যাদি সনাক্ত করতে পারে তবে বৈশিষ্ট্যগুলির মধ্যে স্থানিক সম্পর্কগুলি (দৃষ্টিকোণ, আকার, ওরিয়েন্টেশন) সনাক্ত করতে অক্ষম। উদাহরণস্বরূপ, নীচের ছবিটি কোনও ব্যক্তিকে মুখের একটি ভাল স্কেচ হিসাবে শ্রেণিবদ্ধ করার ক্ষেত্রে সেই লোকটিকে বোকা বানাতে পারে।

কিভাবে জাভাস্ক্রিপ্ট সতর্কতা

কনভলিউশনাল নিউরাল নেটওয়ার্কগুলির পাশাপাশি এটিও সমস্যা। সিএনএন বৈশিষ্ট্যগুলি সনাক্তকরণে ভাল তবে ভুলভাবে মুখ সনাক্তকরণের জন্য নিউরনটিকে সক্রিয় করবে। এটি কারণ বৈশিষ্ট্যগুলির মধ্যে স্থানিক সম্পর্কগুলি অন্বেষণে এটি কম কার্যকর।

একটি সাধারণ সিএনএন মডেল নাক, চোখ এবং মুখের বৈশিষ্ট্যগুলি সঠিকভাবে বের করতে পারে তবে মুখের সনাক্তকরণের জন্য ভুলভাবে নিউরনটিকে সক্রিয় করবে। স্থানিক দৃষ্টিভঙ্গি এবং আকারের ভুল-মিল বুঝতে না পেরে, মুখ সনাক্তকরণের জন্য সক্রিয়করণটি খুব বেশি হবে।

ঠিক আছে, এই সীমাবদ্ধতাটি ম্যাক্স পুলিং স্তরের কারণে।

সিএনএন-এ সর্বাধিক পুলিং অনুবাদমূলক বৈকল্পিকতা পরিচালনা করে। এমনকি কোনও বৈশিষ্ট্যটি সামান্য সরানো হয়েছে, এটি এখনও পুলিং উইন্ডোর মধ্যে থাকলে এটি এখনও সনাক্ত করা যায়। তবুও, এই পদ্ধতির শুধুমাত্র সর্বাধিক বৈশিষ্ট্য রাখে (সর্বাধিক প্রভাবশালী) এবং অন্যদের দূরে সরিয়ে দেয়।

সুতরাং, উপরে প্রদর্শিত মুখের চিত্রটিকে সাধারণ মুখ হিসাবে শ্রেণিবদ্ধ করা হবে। পুলিং স্তরটিও এই ধরণের আক্রমণাত্মকতা যুক্ত করে।

এটি পুলিং স্তরটির উদ্দেশ্য ছিল না। পুলিংয়ের যা করার কথা ছিল তা হ'ল অবস্থানিক, প্রাচ্য, আনুপাতিক আগ্রাসনগুলি প্রবর্তন করা।

বাস্তবে, এই পুলিং স্তরটি সমস্ত ধরণের অবস্থানগত আগ্রাসন যুক্ত করে। আপনি উপরের চিত্রটিতেও দেখতে পাচ্ছেন, এটি মুখটি সঠিকভাবে সনাক্ত করার দ্বিধায় জন্মাবে।

আসুন দেখে নেওয়া যাক প্রস্তাবিত সমাধান কী জেফ্রি হিন্টন

এই সমস্যার সমাধান কিভাবে?

এখন, আমরা কল্পনা করি যে প্রতিটি নিউরনে বৈশিষ্ট্যের বৈশিষ্ট্যগুলির পাশাপাশি সম্ভাবনা রয়েছে। উদাহরণস্বরূপ, এটি [সম্ভাবনা, অভিমুখীকরণ, আকার] সমেত একটি ভেক্টরকে আউটপুট করে। এই স্থানিক তথ্যের সাহায্যে আমরা নাক, চোখ এবং কানের বৈশিষ্ট্যগুলির মধ্যে ওরিয়েন্টেশন এবং আকারের অবিচ্ছিন্নতা সনাক্ত করতে পারি এবং তাই মুখ সনাক্তকরণের জন্য অনেক কম অ্যাক্টিভেশন আউটপুট করি।

প্রকাশিত কাগজে জেফ্রি হিন্টন এই ধরণের নিউরনকে ক্যাপসুল বলা হয়। এই ক্যাপসুলগুলি একটি একক স্কেলারের মানের পরিবর্তে ভেক্টর আউটপুট দেয়।

ক্যাপসুল নেটওয়ার্কগুলি কী তা সম্পর্কে কিছু আলোকপাত করি।

ক্যাপসুল নেটওয়ার্কগুলি কী কী?

ক্যাপসুল মূলত, নেস্টেড নিউরাল স্তরগুলির একটি সেট। ক্যাপসুলের অভ্যন্তরে নিউরনের অবস্থা বিভিন্ন চিত্র যেমন পোজ (অবস্থান, আকার, ওরিয়েন্টেশন), অঙ্গবিকৃতি, বেগ, জমিন ইত্যাদি একটি চিত্রের অভ্যন্তরে এক সত্তার ক্যাপচার করে।

একটি নির্দিষ্ট বৈকল্পিকের সাথে কোনও বৈশিষ্ট্য ক্যাপচার করার পরিবর্তে কোনও ক্যাপসুলটি বৈশিষ্ট্যটির বৈশিষ্ট্য এবং এর বৈকল্পিকের ক্যাপচার জন্য প্রশিক্ষিত হয়। সুতরাং, ক্যাপসুলের উদ্দেশ্যটি কেবল একটি বৈশিষ্ট্য সনাক্ত করা নয়, বৈকল্পিকটি শিখতে মডেলকে প্রশিক্ষণ দেওয়া।

যেমন একই ক্যাপসুলটি বিভিন্ন অরিয়েন্টেশন সহ একই বস্তু শ্রেণি সনাক্ত করতে পারে (উদাহরণস্বরূপ, ঘড়ির কাঁটার দিকে ঘোরান):

আমরা বলতে পারি এটি ইক্যুয়ারিয়েন্সের সাথে কাজ করে না ইনভেরিয়েন্স।

চালান: রূপগুলি নির্বিশেষে বৈশিষ্ট্যগুলি সনাক্তকরণ is উদাহরণস্বরূপ, নাক সনাক্তকরণের নিউরন অভিমুখী নির্বিশেষে একটি নাক সনাক্ত করে।

সমতা: একে অপরের রূপান্তর করতে পারে এমন বস্তুর সনাক্তকরণ (উদাহরণস্বরূপ, বিভিন্ন অভিমুখের সাথে মুখগুলি সনাক্ত করা)। স্বজ্ঞাতভাবে, ক্যাপসুল নেটওয়ার্ক সনাক্ত করে যে মুখটি 31 ° ঘোরানো একটি বৈকল্পিকের সাথে মুখের সাথে মেলে তার পরিবর্তে ডান 31 ° (সমতা) ঘোরানো হয় ° কোনও ক্যাপসুলের বৈশিষ্ট্যটির বৈকল্পিকটি জানতে মডেলকে জোর করে, আমরা কম প্রশিক্ষণের ডেটা দিয়ে আরও কার্যকরভাবে সম্ভাব্য রূপগুলি এক্সট্রোপোলেটেড করতে পারি। এছাড়াও, আমরা বিরোধীদের আরও কার্যকরভাবে প্রত্যাখ্যান করতে পারি।

একটি ক্যাপসুল সত্তার অস্তিত্ব উপস্থাপন করার জন্য একটি ভেক্টরকে আউটপুট দেয়। ভেক্টরের ওরিয়েন্টেশন সত্তার বৈশিষ্ট্যগুলি উপস্থাপন করে।

নিউরাল নেটওয়ার্কের সমস্ত সম্ভাব্য পিতামাতার কাছে ভেক্টর পাঠানো হয়। প্রতিটি সম্ভাব্য পিতামাতার জন্য, একটি ক্যাপসুল একটি পূর্বাভাস ভেক্টর খুঁজে পেতে পারে। ভবিষ্যদ্বাণী ভেক্টর এর নিজস্ব ওজন এবং একটি ওজন ম্যাট্রিক্স গুণনের উপর ভিত্তি করে গণনা করা হয়। যার পিতামাতার বৃহত্তম স্কেলারের পূর্বাভাস ভেক্টর পণ্য রয়েছে, ক্যাপসুল বন্ড বাড়িয়ে তোলে। বাকি বাবা-মা তাদের বন্ধন হ্রাস করে। এটিকে বলা হয় চুক্তি অনুসারে রুট করা

এটি অবশ্যই সর্বাধিক পুলিং এর চেয়ে ভাল পদ্ধতির, যার মধ্যে নীচের স্তরটিতে সনাক্ত করা সবচেয়ে শক্তিশালী বৈশিষ্ট্যের ভিত্তিতে রাউটিং।

এর পরে স্কোয়াশিং ফাংশন রয়েছে যা যুক্ত করা হয়। এটি অ-রৈখিকতা প্রবর্তনের জন্য করা হয়। এই স্কোয়াশিং ফাংশনটি প্রতিটি ক্যাপসুলের ভেক্টর আউটপুটে প্রয়োগ করা হয়।

আমাকে এখনই বলি, কীভাবে ক্যাপসুল নেটওয়ার্কগুলি কাজ করে।

কীভাবে ক্যাপসুল নেটওয়ার্কগুলি কাজ করে?

আসুন আমরা এক ধাপ পিছনে নিই। একটি সম্পূর্ণ সংযুক্ত নেটওয়ার্কে, প্রতিটি নিউরনের আউটপুট হ'ল ইনপুটগুলির ওজনযুক্ত যোগফল।

এখন, আসুন দেখা যাক ক্যাপসুল নেটওয়ার্কগুলিতে কী ঘটে।

ক্যাপসুল নিউরাল নেটওয়ার্ক:

আসুন আমরা একটি ক্যাপসুল নিউরাল নেটওয়ার্ক বিবেচনা করি যেখানে ‘ui‘এটি ক্যাপসুলের ক্রিয়াকলাপের ভেক্টর’আমি ’নীচে স্তর

পদক্ষেপ - 1: একটি রূপান্তর ম্যাট্রিক্স প্রয়োগ করুনভিতরেijক্যাপসুল আউটপুট ইউi পূর্ববর্তী স্তর উদাহরণস্বরূপ, একটি এম × কে ম্যাট্রিক্স সহ, আমরা একটি কে-ডি রূপান্তর করিui to a m-Duj | i ((এম × কে) × (কে × 1) = মি × 1)।

এটি পূর্বাভাস ( ভোট ) উপরের ক্যাপসুলের আউটপুটে ‘আমি’ ক্যাপসুল থেকে। ‘ভিj‘এটি ক্যাপসুলের ক্রিয়াকলাপের ভেক্টর’j ’উপরের স্তর

পদক্ষেপ - 2: একটি ওজনযুক্ত অঙ্কের গণনা করুনjওজন সহijijমিলন সহগ হয়। এই সহগের যোগফলের সমান। এটি প্রকৃত প্যারামিটার যা ক্যাপসুলের গ্রুপের সম্পর্কের উপর কাজ করে যা আমরা আগে কথা বলেছিলাম।

পদক্ষেপ - 3: কনভলিউশনাল নিউরাল নেটওয়ার্কগুলিতে আমরা রিলু ফাংশনটি ব্যবহার করেছি। এখানে, 0 এবং ইউনিটের দৈর্ঘ্যের মধ্যে ভেক্টর স্কেল করতে আমরা স্কোয়াশিং ফাংশনটি প্রয়োগ করব। এটি ছোট ভেক্টরগুলিকে শূন্যে এবং লম্বা ভেক্টরকে ইউনিট ভেক্টরগুলিতে সঙ্কুচিত করে। সুতরাং প্রতিটি ক্যাপসুলের সম্ভাবনা শূন্য এবং একের মধ্যে সীমাবদ্ধ।

এটি পূর্বাভাস ( ভোট ) উপরের ক্যাপসুলের আউটপুটে ‘আমি’ ক্যাপসুল থেকে। যদি ভবিষ্যদ্বাণী ভেক্টরের সাথে ক্রিয়াকলাপের ভেক্টরটির ঘনিষ্ঠ মিল থাকে তবে আমরা সেই ক্যাপসুলটি উপসংহারে নিয়ে যাই ‘আমি ’ক্যাপসুলের সাথে অত্যন্ত সম্পর্কিত ‘j ’। (উদাহরণস্বরূপ, নাকের ক্যাপসুলটি মুখের ক্যাপসুলের সাথে অত্যন্ত সম্পর্কিত)) এই জাতীয় মিলটি ভবিষ্যদ্বাণী এবং ক্রিয়াকলাপের ভেক্টরের স্কেলারের পণ্য ব্যবহার করে পরিমাপ করা হয়। সুতরাং, মিল এবং বৈশিষ্ট্য বৈশিষ্ট্য উভয় বিবেচনা করে। (কেবল নিউরনে সাদৃশ্যতার পরিবর্তে)।

পদক্ষেপ - 4: গণনা প্রাসঙ্গিকতা স্কোর ‘খij‘। এটি ক্রিয়াকলাপ ভেক্টর এবং পূর্বাভাস ভেক্টরের বিন্দু পণ্য হবে। সংযোগ সহগijএর সফটম্যাক্স হিসাবে গণনা করা হয়ij:

মিলন সহগ গijবি এর সফটম্যাক্স হিসাবে গণনা করা হয়ij

এই খijএকাধিক পুনরাবৃত্তিতে পুনরাবৃত্তভাবে আপডেট করা হয়

এটিকে বলা হয় চুক্তি অনুসারে রুট করা

চিত্রের নীচে একটি উদাহরণ রয়েছে:

ক্যাপসুল নেটওয়ার্কগুলিতে এই ব্লগের পরে, আমি টেনসরফ্লো ব্যবহার করে ক্যাপসুল নিউরাল নেটওয়ার্ক প্রয়োগের উপর একটি ব্লগ নিয়ে আসব।

আমি আশা করি আপনি ক্যাপসুল নেটওয়ার্কগুলিতে এই ব্লগটি পড়ে উপভোগ করেছেন, এটি দেখুন বিশ্বজুড়ে ছড়িয়ে থাকা 250,000 এরও বেশি সন্তুষ্ট শিক্ষার্থীর নেটওয়ার্ক সহ একটি বিশ্বস্ত অনলাইন লার্নিং সংস্থা এডুরেকা দ্বারা। টেনসরফ্লো সার্টিফিকেশন প্রশিক্ষণ কোর্সের সাথে এডুরেকা ডিপ লার্নিং সফটওয়্যার ম্যাক্স ফাংশন, অটো-এনকোডার নিউরাল নেটওয়ার্কস, সীমাবদ্ধ বল্টজম্যান মেশিন (আরবিএম) এর মত ধারণাগুলির সাথে রিয়েল টাইম প্রকল্প এবং অ্যাসাইনমেন্টগুলি ব্যবহার করে বেসিক এবং কনভোলশনাল নিউরাল নেটওয়ার্কগুলি প্রশিক্ষণ এবং অনুকূলকরণে দক্ষ হতে সহায়তা করে।

আমাদের জন্য একটি প্রশ্ন আছে? দয়া করে মন্তব্য বিভাগে এটি উল্লেখ করুন এবং আমরা আপনার কাছে ফিরে আসব।