Pages

বাংলাদেশ স্টক এক্সচেঞ্জের হিস্টোরিক্যাল ডাটা সেট

বাংলাদেশ স্টক এক্সচেঞ্জের হিস্টোরিক্যাল ডাটা সেট
ডাউনলোড লিংক:
https://drive.google.com/drive/folders/1R1_WnMirJSb0esvpbGareqyGvHgqHdia

Credit:
অনিন্দ্য হালদার
https://www.facebook.com/anindahalder?fref=gc&dti=207496662685092

Prospects and Challenges of Data Science As a Carrier: Industry Perspective

গত ০৪/০১/২০১৮ তারিখে আমাদের বিশ্ববিদ্যালয়ে

International Islamic University Chittagong

Prospects and challenges of Data Science as a carrier: Industry Perspective


এই শিরোনামে ডাটা সাইন্স নিয়ে একটি সেমিনারে অংশগ্রহণ করেছিলাম । সেমিনারে আলোচিত বিষয়গুলো আমি নিজের মত করে সংক্ষেপে তুলে ধরছি:

সেমিনারের আলোচক ডঃ মোঃ আনিসুল করিম স্যার বর্তমানে অস্ট্রেলিয়ায় CellOS Software (http://www.cellossoftware.com/) এ কর্মরত আছেন ।

Prospects and challenges of Data Science as a carrier

# ডাটা থেকে টাকা:
বিগত দিনে ডাটা সাইন্স আসার পূর্বে কম্পিউটারে জমে থাকা অনেক ডাটাই হয়তো ডিলিট করে দেয়া হত। ডাটা সাইন্স এসে কিভাবে ডাটা থেকে টাকা কামানো যায় সে উপায় দেখিয়েছে আমাদেরকে।

"যেখানে দেখিবে ছাই উড়াইয়া দেখ তাই পাইলেও পাইতে পার অমূল্য রতন।"

আজকের দিনে সেই ছাই হল ডাটা।

# বাংলালিংক থেকে লিঙ্কডিনে যোগাযোগ:
অস্ট্রেলিয়ায় থাকা অবস্থায় একদিন বাংলালিংক কোম্পানির একজন উচ্চপদস্থ কর্মকর্তার কাছ থেকে লিঙ্কডিনে স্যার একটি মেসেজ পান। ঐ কর্মকর্তা স্যারের প্রোফাইল দেখে তার সাথে যোগাযোগ করে জানান তারা বাংলালিংক থেকে বিগ ডাটা, ডাটা সাইন্স নিয়ে জোরেসোরে কাজ শুরু করছে। স্যার যদি আগ্রহী হন তবে জানাতে বলেন।
অন্য দেশের মত বাংলাদেশেও ডাটা সায়েন্সের কাজ আস্তে আস্তে বাড়ছে।

# https://www.seek.com.au/ অস্ট্রেলিয়ার ১ নাম্বার জব সাইট। সেই সাইটে দেয়া ডাটা সাইন্স নিয়ে কিছু জব পোস্ট দেখান তিনি । QBE, Siemens, Telecom industry ইত্যাদি বিভিন্ন প্রতিষ্ঠান ডাটা সায়েন্টিস্ট খুঁজছে Seek.com এ ।

#
ম্যাথেমেটিক্যাল মডেলিং করে ডাটা সায়েন্সের মাধ্যমে ক্যান্সার সনাক্ত করা, ডিএনএ সিকোএন্সিং, অটিজম, টেরোরিস্ট এটাক, সাইবার এটাক সনাক্ত করা এ ধরণের অনেক কাজ করা হচ্ছে।

# If you torture the data long enough, it will confess.- Ronald Coase

# Quantitative analyst:
স্টক এক্সচেঞ্জগুলোতে Quantitative analyst দের কাজ করতে দেখা যায়, যারা Quantitative analysis ব্যবহার করে কোন শেয়ারের দাম বাড়বে, কোনটা কমবে, কোথায় বিনিয়োগ করলে লাভজনক হবে এসব বিষয়ে বড় বড় বিনিয়োগকরি দেরকে বিনিয়োগের সিদ্ধান্ত গ্রহণে সহয়তা করে।

# একটি বিষয় জানলেই ডাটা সায়েন্টিস্ট হওয়া যায় না। স্ট্যাটিসটিক্স, মেশিন লার্নিং, লিনিয়ার এলজেব্রা, কোডিং সহ কয়েকটি বিষয় জানতে হয় একজন ভাল ডাটা সায়েন্টিস্টকে।

# Data Science Team:
ডাটা সাইন্স টীমে বিভিন্ন বিষয়ে দক্ষ মানুষজন কাজ করে। একটি ডাটা সাইন্স টীমে স্টাটিস্টিশিয়ান, ইঞ্জিনিয়ার, ম্যাথমেটিশিয়ান, সোশ্যাল সায়েন্টিস্ট থাকতে পারে।

# Data Science in Industry:
ফিনান্স, মেডিকেল ইন্ডাস্ট্রি, ফার্মাসিউটিক্যালস, বায়োইনফরম্যাটিকস, সরকারি প্রতিষ্ঠান ইত্যাদি ক্ষেত্রে ডাটা সায়েন্সের প্রয়োগ ও ব্যবহার হচ্ছে আজকাল। যেমন: উন্নত দেশগুলোতে বেকারদের ভাতা দিয়ে থাকে সরকার। এই ভাতার পরিমান ভাল হওয়ায় অসাধু মানুষজন ভুল তথ্য দিয়ে অবৈধভাবে বেকার ভাতা আদায়ের চেষ্টা করে। সরকার এমন প্রতারণা বন্ধ করতে ডাটা সায়েন্সকে কাজে লাগাচ্ছে।

# Role of a Data Scientist in Industry:
একজন ডাটা সায়েন্টিস্ট হিসাবে ইন্ডাস্ট্রিতে বেশ কিছু বিষয় খেয়াল করতে হয়। কাস্টমার প্রাইভেসি একটি গুরুত্বপূর্ণ দিক। যেন একইসাথে কাস্টমার প্রাইভেসি নষ্ট না হয় আবার কাস্টমার ডাটা নিয়ে কাজও করা যায় উভয় দিকেই নজর দেয়া লাগে। বিদ্যমান ডাটা থেকে কিভাবে সিদ্ধান্ত নেয়া হবে, ব্যাকএন্ড এ কিভাবে ডাটাকে প্রসেস করা হবে ইত্যাদি বিষয়ে চিন্তা করতে হয় ডাটা সায়েন্টিস্টকে। ডাটা সাইন্স একটি হাই লেভেল জব, ডাটা সায়েন্টিস্টের কাজের ভিত্তিতে কোম্পানির সিইও, সিটিওগণ সিদ্ধান্ত গ্রহণ করেন। তাই একজন ডাটা সায়েন্টিস্টকে তাদের সাথে কমুনিকেশনের দক্ষতা অর্জন করতে হয়।

# 60-70% Time:
ডাটা সায়েন্সের কোন কাজটিতে সবচেয়ে বেশি সময় ব্যয় হয় ? হয়তো ভাবছেন মেশিন লার্নিং, মডেলিং। জি না, পুরো ডাটা সাইন্স প্রজেক্টের ৬০-৭০% সময় ডাটা প্রিপ্রসেসিং, ক্লিনিং এর কাজেই চলে যায়।

# Data Wrangling:
কোন ডাটাকে প্রয়োজন মনে না করলে ডাটা সেট থেকে বাদ দেয়া(Data discarding)মিসিং ডাটা অন্য কোন ডাটা দিয়ে পূর্ণ করা(Data filling) এ ধরণের নানা বিষয় নিয়ে Data Wrangling অংশে কাজ হয়।

# Terabyte Ram:
বিগ ডাটার কথা হয়ত আমরা শুনেছি। ডাটা সায়েন্সের সাথে বিগ ডাটার সম্পর্ক আছে। বিশাল পরিমান ডাটা প্রসেস করতে হলে বেশ ভাল কম্পিউটিং রিসোর্স লাগে।

যেমন: CellOS Software তাদের কাজে টেরাবাইট রেম ব্যবহার করে। তারপরও মাঝে মাঝে ডাটা প্রসেসিংয়ের কাজ স্লো হয়ে যায়।

# Churn Reduction:
Customer Retention is better(Easier, Cheaper) than Customer Acquisition. কাজেই Churn Reduction নিয়ে টেলিকম, ইকমার্স সহ প্রায় অনেক ক্ষেত্রে ডাটা সায়েন্টিস্টদের কাজ করতে হয়।

# Tools:
Jupyter Notebook
IBM DSX- Python, R, and Scala (https://datascience.ibm.com/)
IntelliJ

*Spark:
MapR
Cloudera
Hortonworks(Commercial Distribution)
Apache Hive
Apache Drill
Apache Pig
HDFS
Hadoop YARN

* Frontend(Visualization):
Tableau
Zoomdata
Power BI

আলোচনা শেষে স্যার এবং তার সহকর্মী ডাটা সায়েন্টিস্টরা কিভাবে তাদের প্রতিষ্ঠানে ডাটা নিয়ে কাজ করছেন তার কিছু বাস্তব উদাহরণ দেখান। কাস্টমার ডাটা সংগ্রহ, প্রিপ্রসেসসিং, মডেলিং এবং ভিসুলাইজিঙ ইত্যাদি দেখানো হয়।

# একটি সুন্দর আইডিয়া:
সবশেষে স্যার একটি সুন্দর আইডিয়া দিয়েছেন।
বাংলাদেশের বড় বড় ব্যবসা প্রতিষ্ঠানগুলোর কাছে কাজে লাগানোর মত অনেক ডাটা আছে। এখনো এদেশের সরকারি, বেসকারি প্রতিষ্ঠানগুলোতে ডাটা সায়েন্সের কাজ তেমনভাবে শুরু না হওয়ায় এসব ডাটায় অধিকাংশ ক্ষেত্রেই এখনো ডাটা সাইন্স প্রয়োগ হয়নি।

বিশ্ববিদ্যালয়গুলো ব্যবসা প্রতিষ্ঠানগুলোর সাথে যোগাযোগ করে বিনামূল্যে কিছু সেম্পল ডাটা সংগ্রহ করতে পারে এই শর্তে যে, বিশ্ববিদ্যালয়ের ছাত্ররা বিনামূল্যে ঐসব ডাটায় ডাটা সাইন্স প্রয়োগ করে ব্যবসা প্রতিষ্ঠানের জন্য লাভজনক কিছু করে দেখাবে।

ছাত্রদের কাজ দেখে প্রতিষ্ঠানগুলো সন্তুষ্ট হলে তাদের কাছ থেকে আরো অধিক ডাটা এনে কাজ করে দেয়া যাবে এবং ঐ কাজের বিনিময়ে পারিশ্রমিক দাবি করা যাবে। এতে করে উভয় পক্ষই লাভবান হবে।


ডাটা সায়েন্স, মেশিন লার্নিং এ ক্লাসিফিকেশনের ধারণা

ডাটা সায়েন্সের একটি কাজ হল ক্লাসিফিকেশন, এর মাধ্যমে কোন ডাটার ক্লাস বা ক্যাটাগরি সম্পর্কে জানা যায় । ক্লাসিফিকেশনের জন্য ব্যবহৃত মডেলকে বলা হয় ক্লাসিফায়ার এই মডেল বিভিন্ন বৈশিষ্টের ভিত্তিতে অ্যালগরিদম ব্যবহার করে ডাটাকে পূর্বনির্ধারিত কিছু ক্লাসে ভাগ করে ।
একটি উদাহরণ দিলে বিষয়টি বুঝতে সহজ হবে ।

১। উদাহরনঃ ধরুন DeeniVai.com একটি ইকমার্স মার্কেটপ্লেস । এই ওয়েবসাইট কর্তৃপক্ষ জানতে চাচ্ছেন বিপ্লব অরটন নামক কাস্টমার লুপ অফ সাকসেস টিশার্টটি কিনবেন কিনা ? এর উত্তর হবে ইয়েস বা নো । বিপ্লব অরটন এর ডাটা থেকে আমরা যদি ক্লাসিফিকেশন করি তাহলে ইয়েস বা নো এই দুটির একটি উত্তর পাব । ইয়েস হলে সে টিশার্টটি কিনবে, নো হলে সে টিশার্টটি কিনবে না । এখানে ইয়েস বা নো পূর্বনির্ধারিত দুটি ক্লাস । কোন কাস্টমার ডাটাকে ক্লাসিফাই করলে এই দুটি ক্লাসের একটিতে পরবে ।


২। উদাহরনঃ আবার ধরুন, আগামী ঈদে বিপ্লব অরটন DeeniVai.com থেকে কত টাকার কেনাকাটা করতে পারেন, এটি জানতে চাওয়া হচ্ছে ।  এই প্রশ্নের উত্তরে টাকার পরিমাণকে কোন ক্লাস বা ক্যাটাগরিতে ফেলা যাচ্ছে না, কারণ টাকার পরিমাণের অসংখ্য মান হতে পারে তাই এই সমস্যাটি সমাধানের জন্য নিউমেরিক প্রেডিকশনের সাহায্য নিতে হবে ।

সাধারণত দুটি ধাপে ক্লাসিফিকেশন করা হয়ে থাকেঃ
১. লার্নিং: ১ম ধাপে বিদ্যমান ডাটা থেকে ক্লাসিফায়ার মডেলটি তৈরী করা হয় ।   
২. ক্লাসিফিকেশন: ২য় ধাপে মডেলটি ব্যবহার করে ডাটাকে ক্লাসিফাই করা হয় । 

ক্লাসিফিকেশনের কাজে যেসব মেশিন লার্নিং অ্যালগরিদম ব্যবহার করা হয়-
১. লজিস্টিক রিগ্রেশন (Logistic regression)
২. নেইভ বেইস (Naive Bayes)
৩. ডিসিশন ট্রি (Decision Tree)
৪. সাপোর্ট ভেক্টর মেশিন (Support Vector Machine-SVM)
৫. কে  নিয়ারেস্ট নেইবার (K-Nearest Neighbor-KNN)
৬. রেন্ডম ফরেস্ট (Random Forest) 

ইত্যাদি


ক্লাসিফিকেশনের কাজ করতে হলে এই অ্যালগরিদম গুলো আমাদেরকে ভালভাবে জানতে হবে।