جعبه‌ابزار تشخیص داده‌های پرت (بخش دوم): روش‌های مدل‌محور، یادگیری ماشین، یادگیری عمیق و Ensemble

دکتر محمدرضا عاطفی
نوامبر 24, 2025

مقدمه

پس از بررسی روش‌های سنتیِ تشخیص داده‌های پرت — از جمله روش‌های آماری، غیرپارامتریک، فاصله‌ای و خوشه‌بندی — به سراغ ابزارهای پیشرفته‌تر می‌رویم.در دنیای واقعی، داده‌ها اغلب چندبعدی، حجیم، پیچیده یا دارای روابط زمانی هستند.در چنین شرایطی، روش‌های کلاسیک دیگر پاسخگو نیستند و نیاز به مدل‌های هوشمند افزایش می‌یابد.

برای مواجهه مؤثر با این چالش‌ها، از روش‌های مبتنی بر مدل، یادگیری یک‌کلاسه و نیمه‌نظارتی استفاده می‌شود.همچنین، الگوریتم‌های فاصله‌ای و هسته‌ای در حوزه یادگیری ماشین نقش مهمی ایفا می‌کنند.مدل‌های بازسازی‌کننده، شبکه‌های عمیقی مانند Autoencoder و LSTM، و روش‌های Ensemble نیز برجسته‌اند.این تکنیک‌های مدرن، به‌ویژه در داده‌های پُربُعد، سری‌زمانی، مالی، سنسوری یا امنیتی، عملکرد بهتری دارند.آن‌ها انعطاف و دقت بیشتری در شناسایی الگوهای ناهنجار فراهم می‌کنند.
این مقاله یک نقشه راه کاربردی برای شناسایی پرت‌های پیچیده ارائه می‌دهد — جایی که روش‌های ساده دیگر جوابگو نیستند.

۵. روش‌های مبتنی بر مدل (Model-Based Outlier Detection)

در این رویکرد، ابتدا یک مدل آماری یا پیش‌بینی‌کننده روی داده‌ها برازش می‌شود.
اگر یک مشاهده:

احتمال بسیار کمی طبق مدل داشته باشد،
یا پسماند بزرگ و غیرعادی ایجاد کند،
یا پارامترهای مدل را تغییر زیادی دهد،
آن مشاهده به عنوان داده پرت (Outlier) شناسایی می‌شود.
این روش‌ها زمانی بسیار مؤثرند که داده‌ها دارای رابطه ساختاری، روند یا وابستگی زمانی باشند.

۵.۱. تحلیل پسماند (Residual Analysis)

ساده‌ترین و عمومی‌ترین روش مدل‌محور.

ایده اصلی

مدل روی داده برازش می‌شود.اگر مقدار واقعی با مقدار پیش‌بینی شده فاصله زیادی داشته باشد ⭠ پرت.

فرمول

معیار پرت بودن

معمولاً k=2: یا 3

مزایا

ساده و قابل اجرا روی هر مدلی
ایده‌آل برای سری زمانی و رگرسیون

معایب

به کیفیت مدل وابسته است
چند پرت شدید می‌توانند مدل را خراب کنند

۵.۲. روش‌های مبتنی بر رگرسیون (Regression-Based Detection)

این روش‌ها به‌دنبال نقاطی هستند که:

مقدارشان غیرعادی است
و تأثیر شدیدی بر تخمین پارامترهای مدل دارند

۵.۲.۱. Cook’s Distance

۵.۲.۲. پسماندهای دانشجویی‌شده (Studentized Residuals)

اگر

۵.۳. روش‌های احتمالاتی (Probabilistic / Likelihood-Based)

این گروه بر پایه احتمال رخداد یک مشاهده طبق مدل است.

۵.۳.۱. روش مبتنی بر درستنمایی (Likelihood-Based)

ایده: اگر احتمال رخداد یک مشاهده تحت مدل بسیار کم باشد، آن مشاهده پرت است.

اگر

۵.۳.۲. مدل‌های آمیخته گوسی (GMM)

اگر p(x_i) کوچک باشد ⭠ پرت
اگر نقطه به هیچ مؤلفه‌ای تعلق زیاد نداشته باشد ⭠ پرت

مزایا

مناسب داده‌های چندبعدی
خروجی احتمالاتی

معایب

انتخاب تعداد مؤلفه‌ها سخت
حساس به initialization

۵.۳.۳. روش‌های بیزی (Bayesian Outlier Detection)

نقطه پرت است اگر: