علم داده و داده‌کاوی: از داده خام تا ارائه بینش

این دوره بر چرخه کامل حیات یک پروژه علم داده (Data Science Lifecycle) تمرکز دارد. برخلاف دوره‌هایی که صرفاً به الگوریتم‌ها می‌پردازند، در اینجا تاکید بر فرآیندهای عملیاتی است: از درک مسئله کسب‌وکار، جمع‌آوری و پاک‌سازی داده‌های کثیف (messy data)، تا تحلیل اکتشافی (EDA)، مهندسی ویژگی و در نهایت، استخراج الگوهای پنهان و ارائه نتایج به صورت قابل فهم. این دوره به شرکت‌کنندگان یاد می‌دهد که چگونه با داده‌های دنیای واقعی کار کرده و از آن‌ها برای تصمیم‌سازی بهتر، بینش استخراج کنند. این دوره، یک رویکرد جامع و کاربردی به علم داده (Data Science) و کاوش داده (Data Mining) ارائه می‌دهد. از جمع‌آوری و مدیریت داده‌های بزرگ تا تحلیل‌های آماری پیشرفته، یادگیری ماشین و ارائه بینش‌های قابل اقدام، تمام مراحل چرخه حیات علم داده پوشش داده می‌شود. تمرکز بر پیاده‌سازی عملی با پایتون، کار با مجموعه داده‌های بزرگ و متنوع، و حل مسائل واقعی صنعتی است. این دوره شرکت‌کنندگان را برای تبدیل شدن به متخصصان علم داده که قادر به استخراج ارزش از داده‌ها هستند، آماده می‌کند.

مدرس دوره:

دکتر محمد رضا عاطفی
دکتر حمیدرضا یزدانی

مدت زمان دوره:

240 ساعت

پیشنیاز دوره:

ندارد

اهداف دوره:

• تسلط بر چرخه حیات علم داده: درک و پیاده‌سازی تمامی مراحل یک پروژه علم داده، از جمع‌آوری تا استقرار
• مدیریت و پردازش داده‌های بزرگ: کسب مهارت در کار با داده‌های بزرگ و نامنظم با استفاده از ابزارهای پایتون
• تحلیل‌های آماری و مدل‌سازی: توانایی انجام تحلیل‌های آماری پیشرفته و ساخت مدل‌های پیش‌بینی‌کننده
• کاوش داده و کشف الگوها: آشنایی با تکنیک‌های کشف دانش از داده (KDD) و شناسایی الگوهای پنهان
• مهارت‌های ارتباطی و ارائه: توانایی تبدیل بینش‌های داده به داستان‌های موثر و ارائه آن‌ها به ذینفعان
• یادگیری تکنیک‌های پیشرفته مهندسی ویژگی برای بهبود عملکرد مدل

پس از اتمام این دوره می توانید:

  • پروژه‌های علم داده را از ابتدا تا انتها به طور مستقل مدیریت و پیاده‌سازی کنید.
  • داده‌های خام را از منابع مختلف جمع‌آوری، پاکسازی و آماده‌سازی کنید.
  • تحلیل‌های اکتشافی و آماری عمیق بر روی داده‌ها انجام دهید.
  • مدل‌های یادگیری ماشین را برای پیش‌بینی و طبقه‌بندی پیاده‌سازی و ارزیابی کنید.
  • الگوهای پنهان و دانش ارزشمند را از مجموعه داده‌های بزرگ کاوش و استخراج کنید.

مخاطبان این دوره:

این دوره برای تحلیل‌گران داده، مهندسان نرم‌افزار و متخصصانی طراحی شده که می‌خواهند وارد دنیای علم داده شوند یا مهارت‌های عملی خود را در مدیریت یک پروژه از ابتدا تا انتها تقویت کنند. این دوره برای تحلیلگران داده، مهندسان داده، متخصصان یادگیری ماشین، آماردانان، و هر کسی که علاقه‌مند به تسلط بر تمام جنبه‌های علم داده و توانایی استخراج بینش‌های عملی از داده‌های پیچیده است، مناسب می‌باشد.

سرفصل های دوره:

  1. مقدمه‌ای بر علم داده و تفکر داده-محور
  2. آشنایی با متدولوژی‌های علم داده (مانند CRISP-DM)
  3. جمع‌آوری داده‌ها: کار با فایل‌ها، پایگاه‌های داده (SQL) و APIها
  4. مبانی وب اسکرپینگ (Web Scraping) با کتابخانه‌هایی مانند BeautifulSoup
  5. پاک‌سازی داده‌ها (Data Cleaning): مدیریت داده‌های گمشده، مقادیر پرت و ناسازگاری‌ها
  6. تبدیل و مرتب‌سازی داده‌ها (Data Wrangling) با Pandas
  7. تحلیل اکتشافی داده (Exploratory Data Analysis – EDA): آمار توصیفی
  8. بصری‌سازی داده‌ها با Matplotlib و Seaborn برای کشف الگو
  9. اصول داستان‌سرایی با داده (Data Storytelling)
  10. مهندسی ویژگی (Feature Engineering): ایجاد، انتخاب و تبدیل ویژگی‌ها
  11. کاهش ابعاد (Dimensionality Reduction) با PCA
  12. مقدمه‌ای بر کاربرد مدل‌های یادگیری ماشین (به عنوان ابزار)
  13. داده‌کاوی: کشف الگوهای پنهان
  14. تحلیل سبد خرید (Market Basket Analysis) با الگوریتم Apriori
  15. اصول ارزیابی مدل و اعتبارسنجی متقابل (Cross-Validation)
  16. ارتباط نتایج: ساخت داشبوردهای تعاملی ساده
  17. ملاحظات حریم خصوصی و اخلاق در علم داده
  18. پروژه نهایی: انجام یک پروژه کامل علم داده روی یک مجموعه داده واقعی

 

مقدمه‌ای بر علم داده و نقش آن در دنیای امروز:

  • تعریف علم داده، تفاوت با یادگیری ماشین، آمار و BI
  • چرخه حیات علم داده
  • نقش دانشمند داده

پایتون برای علم داده: مرور عمیق‌تر:

  • NumPy، Pandas: تکنیک‌های پیشرفته دستکاری و تحلیل داده
  • Matplotlib، Seaborn، Plotly: تجسم‌سازی داده‌های پیچیده

مدیریت و جمع‌آوری داده‌ها:

  • کار با APIها برای جمع‌آوری داده‌های وب
  • Web Scraping با Beautiful Soup و Scrapy
  • مقدمه‌ای بر پایگاه‌های داده NoSQL (MongoDB, Cassandra) و کاربردهای آن‌ها
  • مفاهیم Data Lake و Data Lakehouse

پیش‌پردازش و پاکسازی داده‌ها:

  • شناسایی و مدیریت مقادیر پرت (Outlier Detection)
  • تکنیک‌های imputing برای مقادیر گمشده
  • نرمال‌سازی و استانداردسازی پیشرفته
  • مواجهه با داده‌های نامتوازن (Imbalanced Data)

آمار کاربردی برای علم داده (Advanced Statistics):

  • آمار توصیفی و استنباطی
  • آزمون‌های فرضیه پیشرفته (ANOVA, Chi-squared)
  • رگرسیون خطی و لجستیک (مرور و رویکردهای پیشرفته)
  • مقدمه‌ای بر سری‌های زمانی (Time Series Analysis) و مدل‌های ARIMA

یادگیری ماشین کاربردی (مرور و نکات کاوش داده):

  • طبقه‌بندی، رگرسیون، خوشه‌بندی، کاهش ابعاد (تمرکز بر کاربردها در کاوش داده)
  • استفاده از Scikit-learn برای ساخت پایپ‌لاین‌های کامل

کاوش داده (Data Mining) – کشف الگوها:

  • قوانین انجمنی (Association Rule Mining): الگوریتم Apriori و کاربردهای آن
  • تحلیل توالی (Sequence Mining)
  • تشخیص ناهنجاری (Anomaly Detection) – رویکردهای آماری

تحلیل متن و داده‌های بدون ساختار (Text Mining):

  • مقدمه‌ای بر پردازش زبان طبیعی (NLP) برای کاوش داده
  • بردارسازی متن
  • تحلیل احساسات (Sentiment Analysis)
  • موضوع‌کاوی (Topic Modeling) با LDA

سیستم‌های توصیه‌گر (Recommender Systems) – رویکرد جامع:

  • فیلترینگ مشارکتی (Collaborative Filtering)
  • فیلترینگ مبتنی بر محتوا (Content-Based Filtering)
  • مفاهیم ماتریس فاکتورسازی (Matrix Factorization)

اخلاق و حریم خصوصی در علم داده:

  • اهمیت حریم خصوصی داده (Data Privacy) و حفاظت از داده‌ها
  • بایاس و عدالت در الگوریتم‌ها و داده‌ها
  • مقررات داده (GDPR, CCPA) و تبعات آن برای پروژه‌های علم داده

اصول استقرار مدل‌های علم داده (Data Science Deployment – MLOps Lite):

  • ذخیره و بارگذاری مدل‌های پایتون
  • ساخت APIهای ساده برای مدل‌ها با Flask/FastAPI
  • مقدمه‌ای بر Docker برای بسته‌بندی

ابزارهای Big Data برای علم داده (مفاهیم):

  • مقدمه‌ای بر Apache Spark و Hadoop (اکوسیستم و کاربردها)
  • مفاهیم پردازش توزیع‌شده برای تحلیل داده

پروژه عملی ۱: تحلیل و پیش‌بینی تقاضای محصول با داده‌های سری زمانی

  • شامل پیش‌پردازش سری زمانی و مدل‌سازی

پروژه عملی ۲: کاوش الگوهای خرید مشتریان با قوانین انجمنی

پروژه عملی ۳: ساخت یک سیستم تشخیص ناهنجاری در لاگ‌های سیستمی

پروژه عملی ۴: تحلیل جامع داده‌های متنی (مثلاً نظرات کاربران) و موضوع‌کاوی

کارگاه‌های عملی: حل مسائل دنیای واقعی با داده‌های پیچیده

مهارت‌های ارتباطی و داستان‌گویی با داده (Data Storytelling)

نحوه ارائه یافته‌ها به ذینفعان غیرفنی

پروژه نهایی جامع: یک پروژه End-to-End علم داده از ابتدا تا انتها

  • شامل انتخاب مسئله، جمع‌آوری داده، تحلیل، مدل‌سازی، استخراج بینش و ارائه.

ابزار های دوره:

Python و کتابخانه‌های اکوسیستم آن: Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn و Plotly

منابع دوره:

Python for Data Analysis by Wes McKinney

Data Science for Business by Foster Provost and Tom Fawcett

Storytelling with Data by Cole Nussbaumer Knaflic

Introduction to Data Mining by Pang-Ning Tan, Michael Steinbach, and Vipin Kumar

پرسش و پاسخ:

  • تفاوت این دوره با دوره یادگیری ماشین چیست؟ این دوره بر کل فرآیند کار با داده تمرکز دارد، در حالی که دوره یادگیری ماشین به صورت عمیق به ریاضیات و پیاده‌سازی الگوریتم‌های پیش‌بینی‌کننده می‌پردازد. اینجا، مدل‌سازی تنها یک بخش از چرخه است.
  • آیا باید آمار بلد باشم؟ دانش پایه آمار توصیفی مفید است، اما مفاهیم کلیدی در طول دوره مرور خواهند شد.

تمایل دارید در دوره شرکت کنید؟
فرم زیر را پر کنید. ما در اسرع وقت با شما تماس خواهیم گرفت.