Tanvir Mahmud Emon's personal blog: January 2018

ডাটা সায়েন্সের একটি কাজ হল ক্লাসিফিকেশন, এর মাধ্যমে কোন ডাটার ক্লাস বা ক্যাটাগরি সম্পর্কে জানা যায় । ক্লাসিফিকেশনের জন্য ব্যবহৃত মডেলকে বলা হয় ক্লাসিফায়ার । এই মডেল বিভিন্ন বৈশিষ্টের ভিত্তিতে অ্যালগরিদম ব্যবহার করে ডাটাকে পূর্বনির্ধারিত কিছু ক্লাসে ভাগ করে ।

একটি উদাহরণ দিলে বিষয়টি বুঝতে সহজ হবে ।

১। উদাহরনঃ ধরুন DeeniVai.com একটি ইকমার্স মার্কেটপ্লেস । এই ওয়েবসাইট কর্তৃপক্ষ জানতে চাচ্ছেন “বিপ্লব অরটন” নামক কাস্টমার “লুপ অফ সাকসেস” টিশার্টটি কিনবেন কিনা ? এর উত্তর হবে ইয়েস বা নো । “বিপ্লব অরটন” এর ডাটা থেকে আমরা যদি ক্লাসিফিকেশন করি তাহলে ইয়েস বা নো এই দুটির একটি উত্তর পাব । ইয়েস হলে সে টিশার্টটি কিনবে, নো হলে সে টিশার্টটি কিনবে না । এখানে ইয়েস বা নো পূর্বনির্ধারিত দুটি ক্লাস । কোন কাস্টমার ডাটাকে ক্লাসিফাই করলে এই দুটি ক্লাসের একটিতে পরবে ।

২। উদাহরনঃ আবার ধরুন, আগামী ঈদে “বিপ্লব অরটন” DeeniVai.com থেকে কত টাকার কেনাকাটা করতে পারেন, এটি জানতে চাওয়া হচ্ছে । এই প্রশ্নের উত্তরে টাকার পরিমাণকে কোন ক্লাস বা ক্যাটাগরিতে ফেলা যাচ্ছে না, কারণ টাকার পরিমাণের অসংখ্য মান হতে পারে । তাই এই সমস্যাটি সমাধানের জন্য নিউমেরিক প্রেডিকশনের সাহায্য নিতে হবে ।

সাধারণত দুটি ধাপে ক্লাসিফিকেশন করা হয়ে থাকেঃ

১. লার্নিং: ১ম ধাপে বিদ্যমান ডাটা থেকে ক্লাসিফায়ার মডেলটি তৈরী করা হয় ।

২. ক্লাসিফিকেশন: ২য় ধাপে মডেলটি ব্যবহার করে ডাটাকে ক্লাসিফাই করা হয় ।

ক্লাসিফিকেশনের কাজে যেসব মেশিন লার্নিং অ্যালগরিদম ব্যবহার করা হয়-

১. লজিস্টিক রিগ্রেশন (Logistic regression)

২. নেইভ বেইস (Naive Bayes)

৩. ডিসিশন ট্রি (Decision Tree)

৪. সাপোর্ট ভেক্টর মেশিন (Support Vector Machine-SVM)

৫. কে নিয়ারেস্ট নেইবার (K-Nearest Neighbor-KNN)

৬. রেন্ডম ফরেস্ট (Random Forest)

ইত্যাদি

ক্লাসিফিকেশনের কাজ করতে হলে এই অ্যালগরিদম গুলো আমাদেরকে ভালভাবে জানতে হবে।

Tanvir Mahmud Emon's personal blog

Pages

ডাটা সায়েন্স, মেশিন লার্নিং এ ক্লাসিফিকেশনের ধারণা