مقدمه
دادههای پرت (Outliers) همیشه بخشی از واقعیتهای یک دیتاست هستند. گاهی بیخطر و قابلچشمپوشی، گاهی هم مخرب و گمراهکننده است. اهمیت این دادهها فقط در مقدار غیرعادیشان نیست، بلکه در تأثیری است که میتوانند بر تحلیل، تصمیمگیری و مدلهای یادگیری ماشین داشته باشند. در این بخش بررسی میکنیم که دادههای پرت چگونه میتوانند نتایج تحلیل را تغییر دهند و چرا شناخت درست آنها برای هر تحلیلگر حرفهای ضروری است.
شناسایی و مدیریت دادههای پرت، یک کار تزئینی یا مرحله جانبیِ «تمیزکاری داده» نیست؛ بلکه بخشی حیاتی از تحلیل داده مسئولانه در همهی رشتههای کمی است. اگر با دادههای پرت درست و آگاهانه برخورد نشود، میتوانند:
- خلاصههای توصیفی را بهشدت تحریف کنند،
- مفروضات کلیدی مدلهای آماری را نقض کنند،
- عملکرد و پایداری الگوریتمهای یادگیری ماشین را کاهش دهند،
- مشکلات اساسی کیفیت داده را پنهان کنند،
- و مهمتر از همه، باعث شوند سیگنالهای بسیار مهمی که در قالب نقاط ظاهراً «عجیب» ظاهر میشوند، نادیده گرفته شوند
در ادامه، این اثرات را بهصورت لایهبهلایه مرور میکنیم.
اگر با تعریف Outlier، منشأ و طبقهبندی آن آشنا نیستید، ابتدا مقالهی «کالبدشکافی دادههای پرت» را مطالعه کنید.
1.1 تحریف شدید آمار توصیفی کلاسیک

بسیاری از معیارهایی که در تحلیل مقدماتی استفاده میکنیم – مثل میانگین و انحراف معیار – ذاتاً غیرمقاوم هستند و با حضور چند مقدار پرت، بهسرعت از واقعیت دور میشوند.
1.1.1 معیارهای گرایش مرکزی
میانگین حسابی نقطهی شکست صفر درصد دارد؛ یعنی یک مقدار پرتِ بسیار بزرگ یا بسیار کوچک میتواند میانگین را به هر سمتی که بخواهد بکشد. در دادههای چوله یا آلوده، این یعنی میانگین دیگر نمایندهی «رفتار معمول» نیست.
در مقابل:
- میانه نقطهی شکست ۵۰٪ دارد و در برابر وجود حتی تعداد قابلتوجهی دادهی پرت، پایدار میماند.
- میانگین پیرایششده (Trimmed Mean) با حذف مثلاً ۵ یا ۱۰ درصد از مقادیر انتهایی، اثر نقاط بسیار دور را کاهش میدهد.
- میانگین وینسورایزشده (Winsorized Mean) بهجای حذف مقادیر انتهایی، آنها را با مقادیر نزدیکتر جایگزین میکند و سپس میانگین میگیرد.
این رویکردها، تصویر بسیار واقعیتری از «مرکز» داده در حضور Outlierها میدهند.
1.1.2 معیارهای پراکندگی
واریانس و انحراف معیار به مربع فاصله از میانگین وابستهاند؛ بنابراین دادههای پرت، سهم بسیار بزرگی در آنها دارند نتیجه:
- برآورد پراکندگی بهطور غیرواقعی بزرگ میشود،
- دادهی ما پرنوسانتر از آنچه واقعاً هست بهنظر میرسد.
به همین دلیل، در حضور دادههای پرت، بهتر است از معیارهای مقاوم استفاده کنیم، مثل:
- دامنه بین چارکی (IQR)
- انحراف مطلق میانه (MAD)
- سایر تخمینگرهای مقیاس مبتنی بر چندکها یا تخمینگرهای مقاوم نوع M
1.1.3 معیارهای شکل (چولگی و کشیدگی)
وجود یک یا چند مقدار بسیار شدید در دمهای توزیع، بهراحتی میتواند:
- چولگی محاسبهشده را بزرگ کند،
- کشیدگی (Kurtosis) را بالا ببرد و توزیع را «دمسنگین» نشان دهد،
و این در حالی است که شاید واقعاً توزیع آنقدر هم غیرعادی نباشد. معیارهای مقاوم برای چولگی و کشیدگی وجود دارند ، اما در عمل کمتر استفاده میشوند؛ در حالیکه در حضور Outlier، بسیار مفیدترند.
2.1 نقض مفروضات اساسی در استنباط و مدلسازی آماری
بخش عمدهای از آمار استنباطی روی مفروضاتی بنا شده که دادههای پرت بهراحتی آنها را نقض میکنند.
2.1.1 فرض نرمال بودن
آزمونهای t، ANOVA و رگرسیون کلاسیک (OLS) غالباً فرض میکنند که:
- خطاها (Residualها) نرمالاند،
- یا خود دادهها تقریباً توزیع نرمال دارند.
دادههای پرت معمولاً در دمهای توزیع قرار میگیرند و باعث:
- چولگی،
- دمهای سنگین،
- و انحراف آشکار از نرمال بودن
میشوند. نتیجه: مقادیر p و بازههای اطمینان میتوانند بهطور جدی غلطانداز باشند.
ابزارهایی مثل Q-Q Plot، هیستوگرام پسماند، و آزمونهای Shapiro-Wilk یا Kolmogorov–Smirnov هم خودشان به دادههای پرت حساساند و اگر بدون توجه به Outlier استفاده شوند، تشخیص را پیچیدهتر میکنند.
2.1.2 فرض همسانی واریانس (Homoscedasticity)
در رگرسیون OLS و ANOVA، فرض میشود واریانس خطاها در تمام سطوح پیشبینها ثابت است دادههای پرت میتوانند:
- نواحی موضعی با واریانس بسیار بالا ایجاد کنند،
- و باعث ناهمسانی واریانس (Heteroscedasticity) شوند.
نمودار «پسماند در برابر مقادیر برازششده» و آزمونهایی مثل Breusch–Pagan یا White به تشخیص کمک میکنند؛ اما باز هم اگر دادههای پرت کنترل نشده باشند، این تشخیصها ممکن است گمراهکننده شوند.
2.1.3 فرض خطی بودن

در رگرسیون، معمولاً فرض میکنیم رابطه بین پیشبینها و متغیر پاسخ تقریباً خطی است. دادههای پرت با اهرم بالا (مقادیر بسیار دور در متغیرهای X) میتوانند:
- خط رگرسیون را به سمت خود خم کنند،
- رابطهی واقعی را پنهان کنند،
- یا در جایی که رابطهای غیرخطی وجود دارد، ظاهر خطیِ جعلی بسازند.
شاخصهایی مثل فاصلهی کوک (Cook’s Distance)، DFFITS و DFBETAS برای شناسایی همین نقاط نفوذی طراحی شدهاند.
2.1.4 فرض استقلال
خود دادههای پرت لزوماً استقلال را نقض نمیکنند، اما اگر Outlierها در زمانها، مکانها یا دستههای خاصی متمرکز شده باشند، میتوانند:
- الگوهای ظاهری خودهمبستگی یا خوشهبندی در پسماندها ایجاد کنند،
- و باعث شوند تحلیلگر بهاشتباه به وجود ساختار وابستگی در خطاها مشکوک شود.
در هر حال، نقض هر یک از این مفروضات، یعنی نتایج استنباطی غیرقابلاعتماد و مدلهایی که روی دادهی جدید عملکرد خوبی ندارند.
3.1 کاهش عملکرد و پایداری مدلهای یادگیری ماشین

در یادگیری ماشین، دادههای پرت میتوانند هم دقت را پایین بیاورند، هم مدل را ناپایدار کنند.
3.1.1 الگوریتمهای مبتنی بر فاصله (K-Means، KNN، SVM)
- : K-Means چند نقطهی پرت میتوانند مراکز خوشهها را از مرکز واقعی دادهها دور کنند .
- : KNN همسایگی یک نقطهی عادی میتواند توسط چند Outlier اشغال شود، و در نتیجه طبقهبندی یا رگرسیون کاملاً منحرف شود.
- : SVM نقاط پرت نزدیک یا آنسوی مرز تصمیم، میتوانند بهطور نامتناسبی روی ابرصفحهی جداکننده تأثیر بگذارند و حاشیه را کوچک و تعمیمپذیری را ضعیف کنند.
در روشهای کرنلمحور، این حساسیت گاهی حتی بیشتر هم میشود.
3.1.2 مدلهای خطی (رگرسیون خطی/لاجستیک، LDA)
پیادهسازیهای کلاسیک که بر حداقل مربعات یا حداکثر درستنمایی تحت مفروضات استاندارد تکیه دارند، همچنان نسبت به دادههای پرت آسیبپذیرند.
در LDA، تخمین میانگین کلاسها و ماتریس کوواریانس تجمیعی – که هر دو غیرمقاوم هستند – باعث میشوند چند نقطهی پرت بتوانند مرزهای تفکیک را بهطور جدی جابهجا کنند.
3.1.3 کاهش ابعاد (PCA و …)
PCA بهدنبال جهتهایی است که بیشترین واریانس را توضیح میدهند. از آنجا که Outlierها سهم بزرگی در واریانس دارند، میتوانند:
- محورهای اصلی را به سمت خود بکشند،
- و ساختار واقعیِ بخش عمدهی دادهها را پنهان کنند.
در نتیجه، نمایش دوبعدی/سهبعدی که از PCA به دست میآید، ممکن است بیش از آنکه ساختار «نرمال» داده را نشان دهد، توسط چند Outlier کنترل شود.
در کنار PCA، روشهای دیگری مثل t-SNE برای تجسم دادههای با ابعاد بالا استفاده میشوند، اما آنها نیز در برابر نقاط بسیار دور میتوانند رفتار غیرمنتظره داشته باشند.
3.1.4 مدلهای مبتنی بر درخت (درخت تصمیم، جنگل تصادفی)
درخت تصمیم از بسیاری مدلهای خطی مقاومتر است، اما:
- اگر یک دادهی پرت روی معیارهای ناخالصی (مثل جینی یا آنتروپی) اثر بگذارد،
- یا در سطوح بالای درخت منجر به تقسیمهای نامناسب شود،
میتواند ساختار درخت را خراب کند.
جنگل تصادفی با میانگینگیری روی درختهای متعدد و استفاده از نمونهگیری تصادفی ویژگیها، اثر تکنقطهها را کاهش میدهد ، اما اگر پرتها بسیار شدید باشند، هنوز هم اثر باقیمانده خواهند داشت.
3.1.5 شبکههای عصبی و روشهای عمیق
در شبکههای عصبی:
- خطاهای بزرگ مرتبط با Outlierها میتوانند باعث انفجار گرادیان شوند و بهینهسازی را ناپایدار کنند .
- مقادیر بسیار بزرگ میتوانند بعضی نورونها را بهطور کامل در نواحی اشباع توابع فعالسازی ببرند و یادگیری را مختل کنند.

برای کاهش این اثرات، معمولاً از:
- برش گرادیان (Gradient Clipping)
- توابع زیان مقاوم (مثل Huber Loss)
- نرمالسازی درست ورودیها
استفاده میشود، اما مسئلهی Outlier کاملاً از بین نمیرود .
در عین حال، از همین شبکهها میتوان برای تشخیص ناهنجاری هم استفاده کرد:
Autoencoderها:
- روی دادههای «عادی» آموزش میبینند تا ورودی را بازسازی کنند.
- نقاطی که خطای بازسازی آنها خیلی بزرگ است، بهعنوان Outlier علامتگذاری میشوند.
- نسخههای مختلف مثل VAE و Denoising Autoencoder، در مواجهه با نویز و ناهنجاری رفتار بهتری دارند.
GANها:
- یک شبکه تولیدکننده و یک شبکه تمایزدهنده دارند.
- اگر دادهای بهخوبی توسط مدل یادگرفتهشده قابل تولید یا بازشناسی نباشد، میتواند ناهنجار تلقی شود .
RNN / LSTM برای سریهای زمانی:
- روی توالیهای «نرمال» آموزش میبینند تا مقدار بعدی را پیشبینی کنند.
- اختلاف زیاد بین مقدار واقعی و پیشبینی شده، نشانهی ناهنجاری است.
برای مطالعه بیشتر درباره انواع Outlierهایی که باعث رفتارهای غیرمنتظره در الگوریتمها میشوند، مقاله «کالبدشکافی Outlier» نقطه شروع مناسبی است.
4.1 پنهان کردن مسائل مهم کیفیت داده
اغلب، تشخیص دادههای پرت اولین آژیر خطری است که به ما میگوید:
- جایی در اندازهگیری، ثبت، تبدیل واحد، یا ادغام دادهها ایراد وجود دارد.
اگر بدون بررسی، این نقاط را نادیده بگیریم یا کورکورانه حذف کنیم، خطاهای جدی دادهای به مراحل بعدی تحلیل و مدلسازی نشت میکنند و تمام نتایج را آلوده میسازند.
بنابراین، استفاده از روالهای تشخیص Outlier بخشی از کنترل کیفیت داده (Data Quality Assurance) است، نه فقط یک کار آماری جانبی.
5.1نادیده گرفتن دادههای پرت «سیگنال»

از آنطرف، بدترین سناریو این است که دادههای پرت، نه خطا، بلکه سیگنالهای حیاتی باشند و ما با حذف مکانیکیشان آنها را نابود کنیم. نمونهها:
- در تشخیص تقلب، دقیقاً همان تراکنشهای غیرعادی هستند که اهمیت دارند.
- در امنیت شبکه، الگوهای ترافیکی عجیب، نشانهی نفوذ یا حملهاند.
- در پزشکی، تغییر ناگهانی علائم حیاتی یا یک لکهی غیرطبیعی در تصویر پزشکی میتواند مربوط به وضعیت بحرانی بیمار باشد.
- در نگهداری پیشگویانه، قرائتهای غیرعادی حسگر، هشدار قبل از خرابی بزرگ تجهیزات است .
- در کشف علمی، بسیاری از پیشرفتهای بزرگ دقیقاً از مشاهدهی یک «مقدار غیرمنتظره» شروع شدهاند.
اگر با این نوع دادههای پرت مثل «نویز» رفتار کنیم، فرصتهای مهمی را از دست میدهیم و حتی ممکن است تبعات سنگینی مثل عدم شناسایی تقلب یا از دست دادن تشخیص حیاتی را تجربه کنیم. اینجا نقش تخصص دامنه و درک زمینه کاملاً کلیدی است.
برای تشخیص اینکه این نقاط از کدام نوع Outlier هستند، جدول طبقهبندی مقالهی اول مجموعه کمک بزرگی میکند.
6.1تأثیرات دادههای پرت بر تحلیل دادهها (با مثال و مطالعهی موردی)
جدول زیر چند اثر مهم دادههای پرت را بهصورت خلاصه نشان میدهد:
| مطالعهی موردی | مثال | توضیح | نوع تأثیر |
|---|---|---|---|
| در تحلیل زمان پاسخ یک وبسایت، چند پاسخ بسیار کند ناشی از مشکل سرور، میانگین را آنقدر بالا برد که عملکرد سایت بدتر از واقعیت بهنظر رسید. | حقوق بسیار بالای یک CEO میانگین حقوق کارکنان را غیرواقعی بالا نشان میدهد. | Outlierها میتوانند میانگین، انحراف معیار و دامنه را بهشدت جابهجا کنند و تصویر غلطی از توزیع بدهند. | تغییر در آمار توصیفی |
| مدل پیشبینی قیمت مسکن بهخاطر چند ملک با قیمت بسیار غیرعادی (مثلاً ویلای تاریخی) ضرایبی بهدست آورد که برای خانههای معمولی مناسب نبود. | در رگرسیون خطی، یک نقطهی پرت میتواند خط را به سمت خود بکشد. | مدلها را بد برازش میکنند، دقت پیشبینی را کم میکنند و تعمیمپذیری را خراب میکنند. | تحریف مدلهای آماری و ML |
| تعداد کلیکهای بسیار زیاد از یک IP (ربات) روی یک لینک بهاشتباه نشانهی محبوبیت لینک تعبیر شد. | افزایش ناگهانی فروش ناشی از خطای ورود داده، بهعنوان «رشد بازار» تعبیر میشود. | Outlierها میتوانند ظاهرِ روند یا رابطهای را ایجاد کنند که واقعا وجود ندارد. | ایجاد الگوهای نادرست |
| در آزمون t قبل و بعد از آموزش، چند نفر بهدلیل وقفهی طولانی زمانهای بسیار زیادی داشتند و باعث شد آزمون، تفاوت واقعی را «غیرمعنادار» نشان دهد. | در یک آزمایش بالینی، چند پاسخ بسیار غیرمعمول تشخیص تفاوت واقعی بین دو دارو را سخت میکند. | با افزایش واریانس، قدرت آزمون برای تشخیص اثرات واقعی کاهش مییابد. | کاهش قدرت آزمونهای آماری |
| در نمودار خطی دمای روزانه، یک مقدار بهشدت اشتباه ناشی از خرابی سنسور، کل مقیاس محور را بههم زد و نوسانهای طبیعی قابل دیدن نبودند. | فردی با وزن بسیار زیاد در نمودار قد–وزن، باعث میشود بقیهی نقاط بهصورت یک تودهی کوچک دیده شوند. | یک نقطهی بسیار دور میتواند مقیاس نمودارها را خراب کند و بقیهی دادهها را در گوشهای فشرده کند. | ایجاد مشکل در تجسم |
| یک مدل پیشبینی فروش که تبلیغات غیرعادی را در نظر نگرفته، برای تولید برنامهی نادرست سفارش و تولید استفاده شد. | بودجهبندی حقوق بر پایهی میانگین حقوقِ تحریفشده، منجر به سیاست حقوقی غلط میشود. | تحلیلهای آلوده به Outlier میتوانند تصمیمهای اشتباه در کسبوکار، علم و سیاستگذاری ایجاد کنند. | تصمیمگیری نادرست |
7.1مطالعهی موردی: اثر دادههای پرت در تحلیل دادههای پزشکی
فرض کنید پژوهشی در حال بررسی رابطهی سطح کلسترول خون و خطر بیماری قلبی است.
منشأهای احتمالی Outlier:
- خطای انسانی در ثبت مقدار کلسترول.
- نقص یا کالیبراسیون نادرست دستگاه آزمایشگاهی.
- خطا در تبدیل واحدها.
- یا واقعاً فردی با وضعیت ژنتیکی ویژه و سطح کلسترول بسیار بالا/پایین.
تأثیر دادههای پرت:
• در آمار توصیفی، چند مقدار بسیار بالا میتوانند میانگین را بهشدت بالا ببرند.
• در مدل رگرسیون، چند نقطهی پرت میتوانند خط رگرسیون را منحرف کنند و ارتباط واقعی کلسترول–خطر قلبی را تحریف کنند.
• در سطح تصمیمگیری، ممکن است آستانههای خطر یا اثر درمانها اشتباه برآورد شود.
راهکار مدیریت:
- تشخیص: استفاده از Z-Score، IQR، نمودار جعبهای و… برای شناسایی مقادیر مشکوک.
- بررسی منشأ: چک کردن سوابق آزمایشگاه و پروندهی پزشکی فرد برای تشخیص اینکه داده خطاست یا یک وضعیت واقعی خاص.
- تصمیم:
- اگر خطاست → حذف یا اصلاح.
- اگر وضعیت واقعی است → نگه داشتن، اما با تحلیل حساسیت (با و بدون آن نقطه).
- تحلیل حساسیت: اجرای مدل با و بدون آن دادهها برای دیدن میزان اثرشان روی نتیجهی کلی.
این رویکرد کمک میکند هم کیفیت علمی تحلیل حفظ شود، هم اطلاعات ارزشمند از دست نرود.
نتیجه گیری
دادههای پرت میتوانند یک تحلیل را کاملاً دگرگون کنند؛ چه با ایجاد خطا در میانگین و واریانس، چه با منحرفکردن مدلهای پیشبینی، و چه با نشاندادن رفتارهای غیرمنتظره در دادهها. درک دقیق اثر Outlierها به ما کمک میکند تا تصمیم بگیریم آنها را اصلاح کنیم، حذف کنیم یا حتی از آنها برای کشف الگوهای جدید استفاده کنیم. توجه به دادههای پرت یکی از مهمترین مهارتهای یک تحلیلگر حرفهای است و بیتوجهی به آن میتواند به نتایج اشتباه و تصمیمگیریهای غلط منجر شود.
درک انواع Outlier و منشأ آنها پیشنیاز فهم دقیق اثرات Outlier است؛ بنابراین پیشنهاد میشود مقالهی «کالبدشکافی دادههای پرت» را نیز مطالعه کنید.



