December 23, 2024
Chicago 12, Melborne City, USA
Career CSE Jobs Data Science Engineering Featured Software Engineering Jobs

কিভাবে ডাটা সায়েন্স শুরু করবেন?

Data Science

ডাটা আসলে কি ? আপনি যে ফেসবুক এ স্ট্যাটাস দিচ্ছেন, ইন্সটাগ্রাম এ ছবি পোস্ট করতেসেন, স্ন্যাপচ্যাট এ ভিডিও দিচ্ছেন, ইউটিউবে ভিডিও দেখতেসেন, লাইক, কমেন্ট করতেসেন এগুলোর সবই ডাটা । এটা গেলো অনলাইনের উদাহরণ । অফলাইন এর উদাহরণ দিতে বললে বলবো আপনি প্রতিদিন যা যা করেন , তার সবই কোন না কোন ডাটা বা তথ্যের জন্ম দিচ্ছে ।

এখন প্রশ্ন হচ্ছে ডাটা সায়েন্স কি তাহলে? ডেটা সায়েন্স হলো কয়েকটা বিষয় মিলে হাইব্রিড (Hybrid) একটা বিষয় এবং ডাটা সায়েন্স যেসব বিষয়কে ফোকাস করে গঠিত সেগুলা হলো — পরিসংখ্যান (Statistics), ফলিত গণিত (Applied Mathematics) এবং কম্পিউটার সায়েন্স (Computer Science), বায়োইনফরমেটিক্স(Bioinformatics), বিজেনেস এনালাইসেস(Business Analysis) ইত্যাদি। আর মেশিন লার্নিং হল কৃত্রিম বুদ্ধিমত্তার (AI) এবং ডাটা সায়েন্সের একটি উপ-ক্ষেত্র যা মেশিনগুলিকে কেবলমাত্র ডেটা থেকে শিখতে সক্ষম করার চেষ্টা করে যেমন পরিবেশের সাথে মিথস্ক্রিয়া করার সময় সংগৃহীত তথ্য থেকে শেখার মতো।

আপনার হয়তো মনে প্রশ্ন জাগতে পারে বিজনেস গ্রোথ রেট বৃদ্ধি করার সাথে ডাটা সায়েন্স এর সম্পর্ক কি? হ্যা অবশ্যই আছে। আপনাকে একটা ছোট্ট উদাহরণ এর মাধ্যমে বিষয়টি পরিস্কার করছি, ধরুন আপনি একটি বই বিষয়ক ই-কমার্স ওয়েবসাইট তৈরি করেছেন। এই ই-কমার্স ওবেবসাইটে আপনার সেল বৃদ্ধি করতে, আপনি চাইলেই ডেটা সায়েন্স এর ব্যাবহার করতে পারেন। যেমন ধরুন কোন কাস্টমার প্রোগ্রামিং এর ওপরে একটা বই সার্চ করলো। তার মানে ওই কাস্টমার প্রোগ্রামিং এ আগ্রহী। আপনি এমনভাবে সিস্টেমটি ডেভলপ করেছেন যেন কাস্টমারের সার্চের ওপরে ভিত্তি করে সেটি প্রোগ্রামিং রিলেটে নতুন আরও কিছু বই রিকমেন্ড করবে। আরও সহজ করে বলতে চাইলে ধরুন আপনি ইউটিউবে সার্চ করলেন ‘ Data Science Tutorial’ এটা সার্চ করার পরে হয়তো ইউটিউব আপনার হোমপেজে অনেকগুলো টিউটোরিয়াল সাজেশনে এনে দেবে এবং আপনি যখন একটা ভিডিও ক্লিক করার পরে কিছুক্ষণ দেখে হয়তো কেটে দেবেন। পরবর্তীতে যখনি আপনি ইউটিউবে যাবেন আশা করা যায় অন্য সব ভিডিওর পাশাপাশি কমপক্ষে ১-৩ টি পাইথন প্রোগ্রামিং এর ভিডিও হোমপেজে এনে দেবেই। তবে এর কারণ কি? আপনি যখন সার্চ করেছেন তখনি ইউটিউব বুঝতে পেরেছে আপনি Data Science এ আগ্রহী। তাই পরবর্তীতে আপনার সামনে এই ধরনের ভিডিও সাজেস্ট করেছে। শুধু এটাই নয় সামনে আপনি যত ভিডিও দেখবেন সেখানে ভিডিওর মাঝে পেইড এড হিসেবে ইউটিউব আপনাকে যা দেখাবে সেগুলোও হবে Data Science রিলেটেড। এখন মনে প্রশ্ন জাগা টা স্বাভাবিক যে এই কাজগুলো হয় কিভাবে? এটা নিয়ে বিস্তারিত আলোচনা করতে গেলে কথা বলতে হবে মেশিন লার্নিং, এনএলপি এবং ডেটা মাইনিং নিয়ে। ML, NLP, DM সবকিছুই ডেটা সায়েন্স এর সাবসেট বলতে পারেন।

আর ডাটা নিয়ে কাজ করে তাদের বলে ডাটা সায়েন্টিস্ট!

ডাটা সায়েন্টিস্টদের ডিমান্ড কেমন?

বর্তমান যুগে যেকোনো ক্ষেত্রেই ডাটা প্রয়োজন। একটি সঠিক ডাটার অভাবে যেমন কোনো ব্যবসা নিমিষেই ধ্বংস হয়ে যেতে পারে; তেমনি একটি সঠিক ডাটা ব্যবহার করে কোনো ব্যবসা শুন্য থেকে সফল ও হতে পারে। বড় বড় কোম্পানিগুলো তাদের ব্যবসা এগিয়ে নিতে সবার আগে চায় ডাটা।তাই তারা সবার আগে একজন ডাটা সায়েন্টিস্ট এর খোঁজ করে। সম্প্রতি লিংকডইনের এক তথ্য অনুসারে ডাটা সায়েন্টিস্ট দের চাহিদা চাকরির বাজার খুব বেশি এবং তা সবসময় বেড়েই চলছে। ২০১৯ সাল থেকে বর্তমানে চাকরির বাজারে ডাটা রিলেটেড জবের চাহিদা বেড়েছে ৪৬ শতাংশ

  • বিশেষজ্ঞরা বলেন, “এখন যুগ ডাটা সায়েন্সের। গত কয়েক বছর ধরে চাকরির বাজারে সব চেয়ে বেশি আলোচিত শব্দ “ডাটা সায়েন্টিস্ট”।”

এক পরিসংখ্যান থেকে জানা যায়, ২০১২ সালে বিশ্বব্যাপী ডাটার পরিমাণ যা ছিলো, তা ২০২০ সালে এসে ৫০ গুণ বৃদ্ধি পেয়েছে।

একটা জরিপ মতে ২০৩০ সালের মধ্যে প্রায় ১৩টি জব সেক্টর পুরোপুরি স্বয়ংক্রিয় (Automated) হয়ে যাবে এবং World Economic Forum এর জরিপ থেকে ধারণা করা হয় অটোমেশন (Automation) এর কারণে প্রায় ৭৫ মিলিয়ন চাকরী ডিসপ্লেস হয়ে গেলেও মজার বিষয় হলো মোট প্রায় ১৩৩ মিলিয়ন নতুন চাকরী জেনারেট করবে। তবে অটোমেশন (Automation) এর কারণে কিছু নিম্ন এবং মধ্যম স্কিল এর জব অটোমেটেড(Automated) করা সম্ভব হলেও কখনোই ডাটা সায়েন্স (Data Science) এর চাকরী নস্ট করা সম্ভব নয়। অটোমেশন কেন ডেটা সায়েন্স এর জবগুলো নস্ট করতে পারবে না সেটা বুঝতে চাইলে ডেটা সায়েন্স কি এবং ডেটা সায়েন্স ইকোসিস্টেম কিভাবে কাজ করে এটা বুঝতে হবে। বর্তমানে ভারতে এক লাখের ও বেশি ডাটা সায়েন্টিস্টদের জন্য চাকরির সুযোগ রয়েছে। ডাটা খাতে পেশাদার কর্মীর চাহিদা বাড়ায় এখন অনেকেই ডাটা সায়েন্সের পথে যাচ্ছেন। Glassdoor এর তথ্য অনুযায়ী আমেরিকায় একজন ডাটা সায়েন্টিস্ট তার অভিজ্ঞতা অনুসারে বছরে প্রায় $95k — $200k বেতন নিয়ে থাকেন। ডাটা সায়েন্স এর ওপর ভিত্তি করে যেসব জব পজিশন তৈরি হয়েছে যথাক্রমে — Machine Learning Engineer, Database Administrator, Data Architect, Data Engineer, Business Analyst, Data Analyst, Data Scientist, etc.

ডাটা সায়েন্সের স্টেজগুলো কি কি?

  • ডাটা কালেকশন
  • ডাটা ক্লিনিং
  • এক্সপ্লোরেটরি্ ডাটা এনালাইসিস
  • মডেল বিল্ডিং
  • মডেল ডেপ্লয়মেন্ট

এবার আসি তাহলে বাংলাদেশে চাহিদা কেমন?

দেশে হাতে গোনা অল্প কয়েকটি কোম্পানি সত্যিকার অর্থে মেশিন লার্নিং নিয়ে কাজ করছে । বেশির ভাগ কোম্পানি ডাটা সায়েন্টিস্ট হায়ার করছে কিন্তু মেশিন লার্নিং নিয়ে তেমন কোন কাজ করাচ্ছে না এমপ্লয়ীদের দিয়ে। শুধু ডাটা ভিজুয়ালাইজেশন এবং হালকা ডাটা ইঞ্জিনিয়ারিং-ই হয়তো বেশিরভাগ কোম্পানির কাজের পরিধি। ডিপ লার্নিং বেসড প্রেডিক্টিভ মডেল ডিজাইন এবং ডেভেলপমেন্ট করে এমন কোম্পানি হয়তো একেবারেই কম। তবে বাংলাদের প্রযুক্তির উন্নয়নের সাথে সাথে এর চাহিদা বেড়েই চলছে এবং ভবিষ্যতে চাহিদা আরও বাড়বে। ডেটা সায়েন্স এর ব্যাবহার সব সেক্টরেরই রয়েছে যেমনঃ রিকমেন্ডেশন সিস্টেম, ওয়েদার প্রেডিকশন, ট্রেড মার্কেট এনালাইসিস, ডিজেস ডিটেকশন, স্পাম টেক্সট ক্লাসিফিকেশন, মার্কেট বাস্কেট এনালাইসিস ইত্যাদি গুরুত্বপূর্ণ কিছু উদাহরন।আস্তে আস্তে এর কাজের পরিধি বাড়বে এবং মেশিন লার্নিং ইঞ্জিনিয়ার / ডাটা সায়েন্টিস্ট দেড় ভাল একটা ডিমান্ড বাংলাদেশেও তৈরী হবে অদূর ভবিষ্যতে।

স্যালারি এর কথা বলতে গেলে , ৩৫ হাজার থেকে ৬০ হাজার পর্যন্ত আশা করতে পারেন ফ্রেশ গ্রাজুয়েট হিসাবে। এর থেকে কম টাকা যদি মেশিন লার্নিং অথবা ডাটা সায়েন্টিস্ট পজিশন এর জন্য দিতে চায়, তাহলে ওই কোম্পানিতে জয়েন না করাই ভাল। আশার কথা হল সম্প্রতি অনেক প্রাইভেট কোম্পানিই তাদের বিজনেস গ্রোথ রেট ধরে রাখার জন্য বা বৃদ্ধি করার জন্য নতুন নতুন ডাটা সায়েন্স রিলেভ্যান্ট জব যেমন ডেটা এনালিস্ট, বিজনেস এনালিস্ট, ডেটাবেইস এডমিনিস্ট্রেটর, ডেটা সায়েন্টিস্ট নিয়োগ দিচ্ছেন।

চলুন দেখে নেওয়া যাক ডাটা সায়েন্সে কী কী ক্যাটাগরির চাকুরি আছে এবং আপনার কী ধরনের দক্ষতা থাকা উচিত।

· Data Analysts — Easy to Medium

· ML Engineers — Medium

· Data Engineers — Medium to Hard

· Research/Applied Data Scientists — Hard

· AI Engineers/Deep Learning Practitioners — Very Hard

ডাটা সায়েন্সের সংক্ষিপ্ত সিলেবাস

Programming: Python, R, MATLAB, Scala, Julia, SQL, SAS ইত্যাদি

Tools: SPSS, WEKA, STATA, Tableau, PowerBI ইত্যাদি

Mathematics: Linear Algebra, Calculus, Statistics, Probability ইত্যাদি

এছাড়া ও Business Intelligence, Cloud Computing, Data Mining, Data Visualization, Exploratory Data Analysis ইত্যাদি বিষয়ে ভাল জ্ঞান থাকা আবশ্যক।

ডাটা সায়েন্স রোড ম্যাপ

ডাটা সায়েন্স শিখার জন্য আমাদের অনেক বেগ পেতে হই। কোথা থেকে শিখলে ভালো হবে? আর প্রোগ্রামিং নাকি পাইথন? আমিতো ম্যাথ পারি না কিন্তু ডাটা সায়েন্স মানে ই তো ম্যাথ আর স্টাটিসটিক্স তাহলে কি আমার জন্য সম্ভব নই? ওকে…..প্রথমত ডাটা সায়েন্স শিখার জন্য আপনারা ক্রিশ নাইকের ইউটিউব চ্যানেল, এডুরেখােসিম্পলি ল্যারেনডিপ ল্যানিং.এআইমিডিয়ায়, টুয়াডস ডাটা সায়েন্স, কোর্সেরা তে আন্দ্রো এন জি কোর্স, বাংলা তে স্টাডি মার্ট (বাংলা তে এর থেকে ভাল চ্যানেল/কমিউনিটি আমার জানামতে আরে নেই) ইউটিউব চ্যানেল পাইথন এবং বাংলা মেশিন লানিং এর রিসোর্স ফ্রীতে পাবেন যেখান থেকে আপনি বাংলা ভাষায় খুব সুন্দরভাবে বেসিক পাইথন প্রোগ্রামিং এবং বাংলায় মেশিন লানিং শিখে নিতে পারেন।

আর ও মজার কিছু ব্লগ;

১. R-bloggers

২. Data Science 101

৩. Machine Learning Mastery

৪. DataTau

৫. Data School ইত্যাদি

আবার ডেটা এনালিস্ট তবে ডেটা এনালাইসিস স্কিল অর্জনের জন্য MS Excel, Minitab, PAST, SQL Database, Stata, SPSS, Tableau অথবা Power Bi শিখে নিতে পারেন। ডাটা মাইনিং শিখার জন্য WEKA শিখে নিতে পারেন(Weka MOOC)।

ডেটা সায়েন্স কমিউনিটিঃ

বিশ্বের বৃহত্তম ডেটা সায়েন্স কমিউনিটি যেমন KaggleAnalytics VidhyaUCI হাজার হাজার ডেটাসেটের সাথে আপনাকে পরিচয় করিয়ে দিবে এবং এখান থেকে আপনি বিভিন্ন ডেটা বিশ্লেষণ কৌশল, মেশিন লার্নিং অ্যালগরিদম অনুশীলনের ধারনা দিবে। এই কমিউনিটি গুলোতে অনুষ্ঠিত প্রতিযোগিতাগুলি ডেটা সায়েন্সের দক্ষতাগুলিকে তীক্ষ্ণ করার জন্যও দরকারী, এইভাবে আমাদের ডেটা সায়েন্সে দ্রুত দক্ষ হওয়ার লক্ষ্য অর্জনে সহায়তা করে৷ Kaggle এ আর ও পাবেন বড় বড় প্রোগ্রাম রান করার জন্য Kaggle এর ক্লাউড ফ্লাটফরম আবার আপনি চাইলে কম্পিটিশনে অংশগ্রহন করে জিতে নিতে পারেন পুরস্কার হিসেবে হাজার হাজার ডলার

Kaggle এর কিছু সুবিধাঃ

১. ইউজ করা ফ্রি এবং সহজ

২. ফ্রি GPU

৩. পেতে পারেন Awards, Money and Fame ইত্যাদি

আর ও কিছু কমিউনিটি

  • Driven Data
  • Codalab
  • IBM Data Science Community
  • Reddit
  • Open Data Science ইত্যাদি

আর ও কিছু ফ্রি ডাটাসেট সোর্সঃ

  • Google Dataset Search
  • World Bank Open Data
  • Data.world
  • DataHub
  • Academic Torrents Data ইত্যাদি

ডাটা সায়েন্সের জন্য সেরা ৫টি GitHub Repositories:

  • FREECODECAMP (337K ★)
  • TENSORFLOW (161K ★)
  • THE ALGORITHMS (126K ★)
  • AWESOME MACHINE LEARNING (52.2K ★)
  • DATA SCIENCE I-PYTHON NOTEBOOKS (22.1K ★)

পোস্ট টা অনেক বড় হয়ে গেসে। এত লেখা পড়ার জন্য ধন্যবাদ। এই ইনফরমেশন গুলো বিভিন্ন ব্লগ, পোস্ট, আর্টিকেল থেকে গুসিয়ে লিখিছি আপনারদের সুবিধার জন্য। কিছু মিসিং ইনফো থাকলে আমি দুঃখিত।

From- Abu Tareq Rony

Data Analyst at Upwork

Share করে সবাইকে জানিয়ে দিন।

Join Our Community bdengineer.com

Join Our Community Engineers Job in Bangladesh

    Leave a Reply

    Your email address will not be published. Required fields are marked *