গত ০৪/০১/২০১৮ তারিখে আমাদের বিশ্ববিদ্যালয়ে
International Islamic University Chittagong
“Prospects and challenges of Data Science as a
carrier: Industry Perspective”
এই শিরোনামে ডাটা সাইন্স নিয়ে একটি সেমিনারে অংশগ্রহণ
করেছিলাম । সেমিনারে আলোচিত বিষয়গুলো আমি নিজের মত করে সংক্ষেপে তুলে ধরছি:
সেমিনারের আলোচক ডঃ মোঃ আনিসুল করিম স্যার বর্তমানে
অস্ট্রেলিয়ায় CellOS Software (http://www.cellossoftware.com/) এ কর্মরত আছেন ।
# ডাটা থেকে টাকা:
বিগত দিনে ডাটা সাইন্স আসার পূর্বে কম্পিউটারে জমে থাকা
অনেক ডাটাই হয়তো ডিলিট করে দেয়া হত। ডাটা সাইন্স এসে কিভাবে ডাটা থেকে টাকা কামানো
যায় সে উপায় দেখিয়েছে আমাদেরকে।
"যেখানে দেখিবে ছাই উড়াইয়া দেখ তাই পাইলেও
পাইতে পার অমূল্য রতন।"
আজকের দিনে সেই ছাই হল ডাটা।
# বাংলালিংক থেকে লিঙ্কডিনে যোগাযোগ:
অস্ট্রেলিয়ায় থাকা অবস্থায় একদিন বাংলালিংক কোম্পানির
একজন উচ্চপদস্থ কর্মকর্তার কাছ থেকে লিঙ্কডিনে স্যার একটি মেসেজ পান। ঐ কর্মকর্তা
স্যারের প্রোফাইল দেখে তার সাথে যোগাযোগ করে জানান তারা বাংলালিংক থেকে বিগ ডাটা, ডাটা সাইন্স নিয়ে জোরেসোরে কাজ শুরু করছে। স্যার যদি আগ্রহী হন তবে
জানাতে বলেন।
অন্য দেশের মত বাংলাদেশেও ডাটা সায়েন্সের কাজ আস্তে
আস্তে বাড়ছে।
# https://www.seek.com.au/ অস্ট্রেলিয়ার ১
নাম্বার জব সাইট। সেই সাইটে দেয়া ডাটা সাইন্স নিয়ে কিছু জব পোস্ট দেখান তিনি । QBE,
Siemens, Telecom industry ইত্যাদি বিভিন্ন প্রতিষ্ঠান ডাটা
সায়েন্টিস্ট খুঁজছে Seek.com এ ।
#
ম্যাথেমেটিক্যাল মডেলিং করে ডাটা সায়েন্সের মাধ্যমে
ক্যান্সার সনাক্ত করা, ডিএনএ সিকোএন্সিং, অটিজম, টেরোরিস্ট এটাক, সাইবার এটাক সনাক্ত করা এ ধরণের অনেক কাজ করা হচ্ছে।
# “If you torture the data long enough,
it will confess.”- Ronald Coase
# Quantitative analyst:
স্টক এক্সচেঞ্জগুলোতে Quantitative analyst দের কাজ করতে দেখা যায়, যারা Quantitative
analysis ব্যবহার করে কোন শেয়ারের দাম বাড়বে, কোনটা কমবে, কোথায় বিনিয়োগ করলে লাভজনক হবে
এসব বিষয়ে বড় বড় বিনিয়োগকরি দেরকে বিনিয়োগের সিদ্ধান্ত গ্রহণে সহয়তা করে।
# একটি বিষয় জানলেই ডাটা সায়েন্টিস্ট হওয়া যায় না।
স্ট্যাটিসটিক্স, মেশিন লার্নিং, লিনিয়ার
এলজেব্রা, কোডিং সহ কয়েকটি বিষয় জানতে হয় একজন ভাল ডাটা
সায়েন্টিস্টকে।
# Data Science Team:
ডাটা সাইন্স টীমে বিভিন্ন বিষয়ে দক্ষ মানুষজন কাজ করে।
একটি ডাটা সাইন্স টীমে স্টাটিস্টিশিয়ান, ইঞ্জিনিয়ার,
ম্যাথমেটিশিয়ান, সোশ্যাল সায়েন্টিস্ট
থাকতে পারে।
# Data Science in Industry:
ফিনান্স, মেডিকেল
ইন্ডাস্ট্রি, ফার্মাসিউটিক্যালস, বায়োইনফরম্যাটিকস, সরকারি প্রতিষ্ঠান ইত্যাদি
ক্ষেত্রে ডাটা সায়েন্সের প্রয়োগ ও ব্যবহার হচ্ছে আজকাল। যেমন: উন্নত দেশগুলোতে
বেকারদের ভাতা দিয়ে থাকে সরকার। এই ভাতার পরিমান ভাল হওয়ায় অসাধু মানুষজন ভুল তথ্য
দিয়ে অবৈধভাবে বেকার ভাতা আদায়ের চেষ্টা করে। সরকার এমন প্রতারণা বন্ধ করতে ডাটা
সায়েন্সকে কাজে লাগাচ্ছে।
# Role of a Data Scientist in Industry:
একজন ডাটা সায়েন্টিস্ট হিসাবে ইন্ডাস্ট্রিতে বেশ কিছু
বিষয় খেয়াল করতে হয়। কাস্টমার প্রাইভেসি একটি গুরুত্বপূর্ণ দিক। যেন একইসাথে
কাস্টমার প্রাইভেসি নষ্ট না হয় আবার কাস্টমার ডাটা নিয়ে কাজও করা যায় উভয় দিকেই
নজর দেয়া লাগে। বিদ্যমান ডাটা থেকে কিভাবে সিদ্ধান্ত নেয়া হবে, ব্যাকএন্ড এ কিভাবে ডাটাকে প্রসেস করা হবে ইত্যাদি বিষয়ে চিন্তা করতে
হয় ডাটা সায়েন্টিস্টকে। ডাটা সাইন্স একটি হাই লেভেল জব, ডাটা
সায়েন্টিস্টের কাজের ভিত্তিতে কোম্পানির সিইও, সিটিওগণ
সিদ্ধান্ত গ্রহণ করেন। তাই একজন ডাটা সায়েন্টিস্টকে তাদের সাথে কমুনিকেশনের দক্ষতা
অর্জন করতে হয়।
# 60-70% Time:
ডাটা সায়েন্সের কোন কাজটিতে সবচেয়ে বেশি সময় ব্যয় হয় ? হয়তো ভাবছেন মেশিন লার্নিং, মডেলিং। জি না,
পুরো ডাটা সাইন্স প্রজেক্টের ৬০-৭০% সময় ডাটা প্রিপ্রসেসিং,
ক্লিনিং এর কাজেই চলে যায়।
# Data Wrangling:
কোন ডাটাকে প্রয়োজন মনে না করলে ডাটা সেট থেকে বাদ
দেয়া(Data
discarding)। মিসিং ডাটা
অন্য কোন ডাটা দিয়ে পূর্ণ করা(Data filling) এ ধরণের নানা বিষয়
নিয়ে Data Wrangling অংশে কাজ হয়।
# Terabyte Ram:
বিগ ডাটার কথা হয়ত আমরা শুনেছি। ডাটা সায়েন্সের সাথে
বিগ ডাটার সম্পর্ক আছে। বিশাল পরিমান ডাটা প্রসেস করতে হলে বেশ ভাল কম্পিউটিং
রিসোর্স লাগে।
যেমন: CellOS Software তাদের কাজে টেরাবাইট রেম ব্যবহার
করে। তারপরও মাঝে মাঝে ডাটা প্রসেসিংয়ের কাজ স্লো হয়ে যায়।
# Churn Reduction:
Customer Retention is better(Easier, Cheaper) than Customer
Acquisition. কাজেই Churn Reduction নিয়ে
টেলিকম, ইকমার্স সহ প্রায় অনেক ক্ষেত্রে ডাটা
সায়েন্টিস্টদের কাজ করতে হয়।
# Tools:
Jupyter Notebook
IBM DSX- Python, R, and Scala (https://datascience.ibm.com/)
IntelliJ
*Spark:
MapR
Cloudera
Hortonworks(Commercial Distribution)
Apache Hive
Apache Drill
Apache Pig
HDFS
Hadoop YARN
* Frontend(Visualization):
Tableau
Zoomdata
Power BI
আলোচনা শেষে স্যার এবং তার সহকর্মী ডাটা সায়েন্টিস্টরা
কিভাবে তাদের প্রতিষ্ঠানে ডাটা নিয়ে কাজ করছেন তার কিছু বাস্তব উদাহরণ দেখান।
কাস্টমার ডাটা সংগ্রহ, প্রিপ্রসেসসিং, মডেলিং এবং ভিসুলাইজিঙ ইত্যাদি দেখানো হয়।
# একটি সুন্দর আইডিয়া:
সবশেষে স্যার একটি সুন্দর আইডিয়া দিয়েছেন।
বাংলাদেশের বড় বড় ব্যবসা প্রতিষ্ঠানগুলোর কাছে কাজে
লাগানোর মত অনেক ডাটা আছে। এখনো এদেশের সরকারি, বেসকারি
প্রতিষ্ঠানগুলোতে ডাটা সায়েন্সের কাজ তেমনভাবে শুরু না হওয়ায় এসব ডাটায় অধিকাংশ
ক্ষেত্রেই এখনো ডাটা সাইন্স প্রয়োগ হয়নি।
বিশ্ববিদ্যালয়গুলো ব্যবসা প্রতিষ্ঠানগুলোর সাথে যোগাযোগ
করে বিনামূল্যে কিছু সেম্পল ডাটা সংগ্রহ করতে পারে এই শর্তে যে, বিশ্ববিদ্যালয়ের ছাত্ররা বিনামূল্যে ঐসব ডাটায় ডাটা সাইন্স প্রয়োগ করে
ব্যবসা প্রতিষ্ঠানের জন্য লাভজনক কিছু করে দেখাবে।
ছাত্রদের কাজ দেখে প্রতিষ্ঠানগুলো সন্তুষ্ট হলে তাদের
কাছ থেকে আরো অধিক ডাটা এনে কাজ করে দেয়া যাবে এবং ঐ কাজের বিনিময়ে পারিশ্রমিক
দাবি করা যাবে। এতে করে উভয় পক্ষই লাভবান হবে।