Pages

ডাটা সায়েন্স, মেশিন লার্নিং এ ক্লাসিফিকেশনের ধারণা

ডাটা সায়েন্সের একটি কাজ হল ক্লাসিফিকেশন, এর মাধ্যমে কোন ডাটার ক্লাস বা ক্যাটাগরি সম্পর্কে জানা যায় । ক্লাসিফিকেশনের জন্য ব্যবহৃত মডেলকে বলা হয় ক্লাসিফায়ার এই মডেল বিভিন্ন বৈশিষ্টের ভিত্তিতে অ্যালগরিদম ব্যবহার করে ডাটাকে পূর্বনির্ধারিত কিছু ক্লাসে ভাগ করে ।
একটি উদাহরণ দিলে বিষয়টি বুঝতে সহজ হবে ।

১। উদাহরনঃ ধরুন DeeniVai.com একটি ইকমার্স মার্কেটপ্লেস । এই ওয়েবসাইট কর্তৃপক্ষ জানতে চাচ্ছেন বিপ্লব অরটন নামক কাস্টমার লুপ অফ সাকসেস টিশার্টটি কিনবেন কিনা ? এর উত্তর হবে ইয়েস বা নো । বিপ্লব অরটন এর ডাটা থেকে আমরা যদি ক্লাসিফিকেশন করি তাহলে ইয়েস বা নো এই দুটির একটি উত্তর পাব । ইয়েস হলে সে টিশার্টটি কিনবে, নো হলে সে টিশার্টটি কিনবে না । এখানে ইয়েস বা নো পূর্বনির্ধারিত দুটি ক্লাস । কোন কাস্টমার ডাটাকে ক্লাসিফাই করলে এই দুটি ক্লাসের একটিতে পরবে ।


২। উদাহরনঃ আবার ধরুন, আগামী ঈদে বিপ্লব অরটন DeeniVai.com থেকে কত টাকার কেনাকাটা করতে পারেন, এটি জানতে চাওয়া হচ্ছে ।  এই প্রশ্নের উত্তরে টাকার পরিমাণকে কোন ক্লাস বা ক্যাটাগরিতে ফেলা যাচ্ছে না, কারণ টাকার পরিমাণের অসংখ্য মান হতে পারে তাই এই সমস্যাটি সমাধানের জন্য নিউমেরিক প্রেডিকশনের সাহায্য নিতে হবে ।

সাধারণত দুটি ধাপে ক্লাসিফিকেশন করা হয়ে থাকেঃ
১. লার্নিং: ১ম ধাপে বিদ্যমান ডাটা থেকে ক্লাসিফায়ার মডেলটি তৈরী করা হয় ।   
২. ক্লাসিফিকেশন: ২য় ধাপে মডেলটি ব্যবহার করে ডাটাকে ক্লাসিফাই করা হয় । 

ক্লাসিফিকেশনের কাজে যেসব মেশিন লার্নিং অ্যালগরিদম ব্যবহার করা হয়-
১. লজিস্টিক রিগ্রেশন (Logistic regression)
২. নেইভ বেইস (Naive Bayes)
৩. ডিসিশন ট্রি (Decision Tree)
৪. সাপোর্ট ভেক্টর মেশিন (Support Vector Machine-SVM)
৫. কে  নিয়ারেস্ট নেইবার (K-Nearest Neighbor-KNN)
৬. রেন্ডম ফরেস্ট (Random Forest) 

ইত্যাদি


ক্লাসিফিকেশনের কাজ করতে হলে এই অ্যালগরিদম গুলো আমাদেরকে ভালভাবে জানতে হবে।