ডাটা
সায়েন্সের একটি কাজ হল ক্লাসিফিকেশন, এর মাধ্যমে কোন ডাটার ক্লাস বা ক্যাটাগরি
সম্পর্কে জানা যায় । ক্লাসিফিকেশনের জন্য ব্যবহৃত মডেলকে বলা হয় ক্লাসিফায়ার । এই মডেল বিভিন্ন বৈশিষ্টের ভিত্তিতে অ্যালগরিদম ব্যবহার করে ডাটাকে
পূর্বনির্ধারিত কিছু ক্লাসে ভাগ করে ।
একটি
উদাহরণ দিলে বিষয়টি বুঝতে সহজ হবে ।
১।
উদাহরনঃ ধরুন DeeniVai.com একটি ইকমার্স
মার্কেটপ্লেস । এই ওয়েবসাইট কর্তৃপক্ষ জানতে চাচ্ছেন “বিপ্লব অরটন” নামক কাস্টমার “লুপ অফ সাকসেস” টিশার্টটি কিনবেন কিনা ? এর উত্তর হবে ইয়েস
বা নো । “বিপ্লব অরটন” এর ডাটা থেকে আমরা যদি ক্লাসিফিকেশন করি তাহলে
ইয়েস বা নো এই দুটির একটি উত্তর পাব । ইয়েস হলে সে টিশার্টটি কিনবে, নো হলে সে
টিশার্টটি কিনবে না । এখানে ইয়েস বা নো পূর্বনির্ধারিত দুটি ক্লাস । কোন কাস্টমার
ডাটাকে ক্লাসিফাই করলে এই দুটি ক্লাসের একটিতে পরবে ।
২।
উদাহরনঃ আবার ধরুন, আগামী ঈদে “বিপ্লব অরটন” DeeniVai.com থেকে কত টাকার কেনাকাটা করতে পারেন, এটি
জানতে চাওয়া হচ্ছে । এই প্রশ্নের উত্তরে টাকার
পরিমাণকে কোন ক্লাস বা ক্যাটাগরিতে ফেলা যাচ্ছে না, কারণ টাকার পরিমাণের অসংখ্য
মান হতে পারে । তাই এই সমস্যাটি সমাধানের জন্য নিউমেরিক প্রেডিকশনের
সাহায্য নিতে হবে ।
সাধারণত দুটি
ধাপে ক্লাসিফিকেশন করা হয়ে থাকেঃ
১.
লার্নিং: ১ম ধাপে বিদ্যমান ডাটা থেকে ক্লাসিফায়ার মডেলটি তৈরী করা হয় ।
২.
ক্লাসিফিকেশন: ২য় ধাপে মডেলটি ব্যবহার করে ডাটাকে ক্লাসিফাই করা হয় ।
ক্লাসিফিকেশনের
কাজে যেসব মেশিন লার্নিং অ্যালগরিদম ব্যবহার করা হয়-
১.
লজিস্টিক রিগ্রেশন (Logistic regression)
২. নেইভ বেইস
(Naive
Bayes)
৩.
ডিসিশন ট্রি (Decision Tree)
৪.
সাপোর্ট ভেক্টর মেশিন (Support Vector Machine-SVM)
৫.
কে নিয়ারেস্ট নেইবার (K-Nearest Neighbor-KNN)
৬.
রেন্ডম ফরেস্ট (Random Forest)
ইত্যাদি
ক্লাসিফিকেশনের
কাজ করতে হলে এই অ্যালগরিদম গুলো আমাদেরকে ভালভাবে জানতে হবে।