قسمت 5 :سری‌های زمانی و داده‌های پرت

مقدمه داده‌های پرت (Outliers) در نگاه اول فقط چند نقطه‌ی عجیب و دورافتاده به نظر می‌رسند، اما در واقع یکی از تعیین‌کننده‌ترین عوامل در کیفیت تحلیل، اعتبار مدل‌ها و حتی تصمیم‌گیری‌های سازمانی هستند. مجموعه‌ای که اکنون پیش روی شماست، یک راهنمای مرحله‌به‌مرحله، جامع و کاربردی درباره‌ی شناخت، منشأ، انواع، اثرات و روش‌های مدیریت داده‌های پرت […]

قسمت ۴: استراتژی‌های مدیریت (حذف، اصلاح یا نگهداری؟)

مقدمه شناسایی داده‌های پرت فقط نیمی از مسیر است؛ تصمیم‌گیری درباره اینکه با این نقاط چه رفتاری داشته باشیم، بخش حساس‌تر و تعیین‌کننده‌تر ماجراست. یک انتخاب اشتباه—مثل حذف همه داده‌های پرت—می‌تواند تحلیل‌ها را منحرف کند، دقت مدل‌ها را کاهش دهد یا حتی بخش مهمی از واقعیت داده را از بین ببرد.در این بخش به مهم‌ترین […]