COVER

قسمت 2 :تأثیرات داده‌های پرت بر تحلیل آماری و مدل های یادگیری ماشین

مقدمه

داده‌های پرت (Outliers) همیشه بخشی از واقعیت‌های یک دیتاست هستند. گاهی بی‌خطر و قابل‌چشم‌پوشی، گاهی هم مخرب و گمراه‌کننده است. اهمیت این داده‌ها فقط در مقدار غیرعادی‌شان نیست، بلکه در تأثیری است که می‌توانند بر تحلیل، تصمیم‌گیری و مدل‌های یادگیری ماشین داشته باشند. در این بخش بررسی می‌کنیم که داده‌های پرت چگونه می‌توانند نتایج تحلیل را تغییر دهند و چرا شناخت درست آن‌ها برای هر تحلیل‌گر حرفه‌ای ضروری است.

شناسایی و مدیریت داده‌های پرت، یک کار تزئینی یا مرحله جانبیِ «تمیزکاری داده» نیست؛ بلکه بخشی حیاتی از تحلیل داده مسئولانه در همه‌ی رشته‌های کمی است. اگر با داده‌های پرت درست و آگاهانه برخورد نشود، می‌توانند:

  • خلاصه‌های توصیفی را به‌شدت تحریف کنند،
  • مفروضات کلیدی مدل‌های آماری را نقض کنند،
  • عملکرد و پایداری الگوریتم‌های یادگیری ماشین را کاهش دهند،
  • مشکلات اساسی کیفیت داده را پنهان کنند،
  • و مهم‌تر از همه، باعث شوند سیگنال‌های بسیار مهمی که در قالب نقاط ظاهراً «عجیب» ظاهر می‌شوند، نادیده گرفته شوند

در ادامه، این اثرات را به‌صورت لایه‌به‌لایه مرور می‌کنیم.

اگر با تعریف Outlier، منشأ و طبقه‌بندی آن آشنا نیستید، ابتدا مقاله‌ی «کالبدشکافی داده‌های پرت» را مطالعه کنید.

1.1 تحریف شدید آمار توصیفی کلاسیک

بسیاری از معیارهایی که در تحلیل مقدماتی استفاده می‌کنیم – مثل میانگین و انحراف معیار – ذاتاً غیرمقاوم هستند و با حضور چند مقدار پرت، به‌سرعت از واقعیت دور می‌شوند.

1.1.1 معیارهای گرایش مرکزی

میانگین حسابی نقطه‌ی شکست صفر درصد دارد؛ یعنی یک مقدار پرتِ بسیار بزرگ یا بسیار کوچک می‌تواند میانگین را به هر سمتی که بخواهد بکشد. در داده‌های چوله یا آلوده، این یعنی میانگین دیگر نماینده‌ی «رفتار معمول» نیست.

در مقابل:

  • میانه نقطه‌ی شکست ۵۰٪ دارد  و در برابر وجود حتی تعداد قابل‌توجهی داده‌ی پرت، پایدار می‌ماند.
  • میانگین پیرایش‌شده (Trimmed Mean) با حذف مثلاً ۵ یا ۱۰ درصد از مقادیر انتهایی، اثر نقاط بسیار دور را کاهش می‌دهد.
  • میانگین وینسورایز‌شده (Winsorized Mean) به‌جای حذف مقادیر انتهایی، آن‌ها را با مقادیر نزدیک‌تر جایگزین می‌کند و سپس میانگین می‌گیرد.

این رویکردها، تصویر بسیار واقعی‌تری از «مرکز» داده در حضور Outlierها می‌دهند.

1.1.2 معیارهای پراکندگی

واریانس و انحراف معیار به مربع فاصله از میانگین وابسته‌اند؛ بنابراین داده‌های پرت، سهم بسیار بزرگی در آن‌ها دارند نتیجه:

  • برآورد پراکندگی به‌طور غیرواقعی بزرگ می‌شود،
  • داده‌ی ما پرنوسان‌تر از آن‌چه واقعاً هست به‌نظر می‌رسد.

به همین دلیل، در حضور داده‌های پرت، بهتر است از معیارهای مقاوم استفاده کنیم، مثل:

  • دامنه بین چارکی (IQR)
  • انحراف مطلق میانه (MAD)
  • سایر تخمین‌گرهای مقیاس مبتنی بر چندک‌ها یا تخمین‌گرهای مقاوم نوع M

1.1.3 معیارهای شکل (چولگی و کشیدگی)

وجود یک یا چند مقدار بسیار شدید در دم‌های توزیع، به‌راحتی می‌تواند:

  • چولگی محاسبه‌شده را بزرگ کند،
  • کشیدگی (Kurtosis) را بالا ببرد و توزیع را «دم‌سنگین» نشان دهد،

و این در حالی است که شاید واقعاً توزیع آن‌قدر هم غیرعادی نباشد. معیارهای مقاوم برای چولگی و کشیدگی وجود دارند ، اما در عمل کمتر استفاده می‌شوند؛ در حالی‌که در حضور Outlier، بسیار مفیدترند.

2.1 نقض مفروضات اساسی در استنباط و مدل‌سازی آماری

بخش عمده‌ای از آمار استنباطی روی مفروضاتی بنا شده که داده‌های پرت به‌راحتی آن‌ها را نقض می‌کنند.

2.1.1 فرض نرمال بودن

آزمون‌های  t، ANOVA و رگرسیون کلاسیک (OLS) غالباً فرض می‌کنند که:

  • خطاها (Residualها) نرمال‌اند،
  • یا خود داده‌ها تقریباً توزیع نرمال دارند.

داده‌های پرت معمولاً در دم‌های توزیع قرار می‌گیرند و باعث:

  • چولگی،
  • دم‌های سنگین،
  • و انحراف آشکار از نرمال بودن

می‌شوند. نتیجه: مقادیر p و بازه‌های اطمینان می‌توانند به‌طور جدی غلط‌انداز باشند.

ابزارهایی مثل Q-Q Plot، هیستوگرام پسماند، و آزمون‌های Shapiro-Wilk یا Kolmogorov–Smirnov هم خودشان به داده‌های پرت حساس‌اند و اگر بدون توجه به Outlier استفاده شوند، تشخیص را پیچیده‌تر می‌کنند.

2.1.2 فرض همسانی واریانس (Homoscedasticity)

در رگرسیون OLS و ANOVA، فرض می‌شود واریانس خطاها در تمام سطوح پیش‌بین‌ها ثابت است داده‌های پرت می‌توانند:

  • نواحی موضعی با واریانس بسیار بالا ایجاد کنند،
  • و باعث ناهمسانی واریانس (Heteroscedasticity) شوند.

نمودار «پسماند در برابر مقادیر برازش‌شده» و آزمون‌هایی مثل Breusch–Pagan یا White به تشخیص کمک می‌کنند؛ اما باز هم اگر داده‌های پرت کنترل نشده باشند، این تشخیص‌ها ممکن است گمراه‌کننده شوند.

2.1.3 فرض خطی بودن

در رگرسیون، معمولاً فرض می‌کنیم رابطه بین پیش‌بین‌ها و متغیر پاسخ تقریباً خطی است. داده‌های پرت با اهرم بالا (مقادیر بسیار دور در متغیرهای X) می‌توانند:

  • خط رگرسیون را به سمت خود خم کنند،
  • رابطه‌ی واقعی را پنهان کنند،
  • یا در جایی که رابطه‌ای غیرخطی وجود دارد، ظاهر خطیِ جعلی بسازند.

شاخص‌هایی مثل فاصله‌ی کوک (Cook’s Distance)، DFFITS و DFBETAS برای شناسایی همین نقاط نفوذی طراحی شده‌اند.

2.1.4 فرض استقلال

خود داده‌های پرت لزوماً استقلال را نقض نمی‌کنند، اما اگر Outlierها در زمان‌ها، مکان‌ها یا دسته‌های خاصی متمرکز شده باشند، می‌توانند:

  • الگوهای ظاهری خودهمبستگی یا خوشه‌بندی در پسماندها ایجاد کنند،
  • و باعث شوند تحلیل‌گر به‌اشتباه به وجود ساختار وابستگی در خطاها مشکوک شود.

در هر حال، نقض هر یک از این مفروضات، یعنی نتایج استنباطی غیرقابل‌اعتماد و مدل‌هایی که روی داده‌ی جدید عملکرد خوبی ندارند.

3.1 کاهش عملکرد و پایداری مدل‌های یادگیری ماشین

در یادگیری ماشین، داده‌های پرت می‌توانند هم دقت را پایین بیاورند، هم مدل را ناپایدار کنند.

3.1.1 الگوریتم‌های مبتنی بر فاصله (K-Means، KNN، SVM)

  • : K-Means چند نقطه‌ی پرت می‌توانند مراکز خوشه‌ها را از مرکز واقعی داده‌ها دور کنند .
  • : KNN همسایگی یک نقطه‌ی عادی می‌تواند توسط چند Outlier اشغال شود، و در نتیجه طبقه‌بندی یا رگرسیون کاملاً منحرف شود.
  • : SVM نقاط پرت نزدیک یا آن‌سوی مرز تصمیم، می‌توانند به‌طور نامتناسبی روی ابرصفحه‌ی جداکننده تأثیر بگذارند و حاشیه را کوچک و تعمیم‌پذیری را ضعیف کنند.

در روش‌های کرنل‌محور، این حساسیت گاهی حتی بیشتر هم می‌شود.

3.1.2 مدل‌های خطی (رگرسیون خطی/لاجستیک، LDA)

پیاده‌سازی‌های کلاسیک که بر حداقل مربعات یا حداکثر درست‌نمایی تحت مفروضات استاندارد تکیه دارند، همچنان نسبت به داده‌های پرت آسیب‌پذیرند.

در LDA، تخمین میانگین کلاس‌ها و ماتریس کوواریانس تجمیعی – که هر دو غیرمقاوم هستند – باعث می‌شوند چند نقطه‌ی پرت بتوانند مرزهای تفکیک را به‌طور جدی جابه‌جا کنند.

3.1.3 کاهش ابعاد (PCA و …)

PCA به‌دنبال جهت‌هایی است که بیشترین واریانس را توضیح می‌دهند. از آن‌جا که Outlierها سهم بزرگی در واریانس دارند، می‌توانند:

  • محورهای اصلی را به سمت خود بکشند،
  • و ساختار واقعیِ بخش عمده‌ی داده‌ها را پنهان کنند.

در نتیجه، نمایش دوبعدی/سه‌بعدی که از PCA به دست می‌آید، ممکن است بیش از آن‌که ساختار «نرمال» داده را نشان دهد، توسط چند Outlier کنترل شود.

در کنار PCA، روش‌های دیگری مثل t-SNE برای تجسم داده‌های با ابعاد بالا استفاده می‌شوند، اما آن‌ها نیز در برابر نقاط بسیار دور می‌توانند رفتار غیرمنتظره داشته باشند.

3.1.4 مدل‌های مبتنی بر درخت (درخت تصمیم، جنگل تصادفی)

درخت تصمیم از بسیاری مدل‌های خطی مقاوم‌تر است، اما:

  • اگر یک داده‌ی پرت روی معیارهای ناخالصی (مثل جینی یا آنتروپی) اثر بگذارد،
  • یا در سطوح بالای درخت منجر به تقسیم‌های نامناسب شود،

می‌تواند ساختار درخت را خراب کند.

جنگل تصادفی با میانگین‌گیری روی درخت‌های متعدد و استفاده از نمونه‌گیری تصادفی ویژگی‌ها، اثر تک‌نقطه‌ها را کاهش می‌دهد ، اما اگر پرت‌ها بسیار شدید باشند، هنوز هم اثر باقیمانده خواهند داشت.

3.1.5 شبکه‌های عصبی و روش‌های عمیق

در شبکه‌های عصبی:

  • خطاهای بزرگ مرتبط با Outlierها می‌توانند باعث انفجار گرادیان شوند و بهینه‌سازی را ناپایدار کنند .
  • مقادیر بسیار بزرگ می‌توانند بعضی نورون‌ها را به‌طور کامل در نواحی اشباع توابع فعال‌سازی ببرند و یادگیری را مختل کنند.

برای کاهش این اثرات، معمولاً از:

  • برش گرادیان (Gradient Clipping)
  • توابع زیان مقاوم (مثل Huber Loss)
  • نرمال‌سازی درست ورودی‌ها

استفاده می‌شود، اما مسئله‌ی Outlier کاملاً از بین نمی‌رود .

در عین حال، از همین شبکه‌ها می‌توان برای تشخیص ناهنجاری هم استفاده کرد:

Autoencoderها:

  • روی داده‌های «عادی» آموزش می‌بینند تا ورودی را بازسازی کنند.
  • نقاطی که خطای بازسازی آن‌ها خیلی بزرگ است، به‌عنوان Outlier علامت‌گذاری می‌شوند.
  • نسخه‌های مختلف مثل VAE و Denoising Autoencoder، در مواجهه با نویز و ناهنجاری رفتار بهتری دارند.

GANها:

  • یک شبکه تولیدکننده و یک شبکه تمایزدهنده دارند.
  • اگر داده‌ای به‌خوبی توسط مدل یادگرفته‌شده قابل تولید یا بازشناسی نباشد، می‌تواند ناهنجار تلقی شود .

RNN / LSTM برای سری‌های زمانی:

  • روی توالی‌های «نرمال» آموزش می‌بینند تا مقدار بعدی را پیش‌بینی کنند.
  • اختلاف زیاد بین مقدار واقعی و پیش‌بینی شده، نشانه‌ی ناهنجاری است.

برای مطالعه بیشتر درباره انواع Outlierهایی که باعث رفتارهای غیرمنتظره در الگوریتم‌ها می‌شوند، مقاله «کالبدشکافی Outlier» نقطه شروع مناسبی است.

4.1 پنهان کردن مسائل مهم کیفیت داده

اغلب، تشخیص داده‌های پرت اولین آژیر خطری است که به ما می‌گوید:

  • جایی در اندازه‌گیری، ثبت، تبدیل واحد، یا ادغام داده‌ها ایراد وجود دارد.

اگر بدون بررسی، این نقاط را نادیده بگیریم یا کورکورانه حذف کنیم، خطاهای جدی داده‌ای به مراحل بعدی تحلیل و مدل‌سازی نشت می‌کنند و تمام نتایج را آلوده می‌سازند.

بنابراین، استفاده از روال‌های تشخیص Outlier بخشی از کنترل کیفیت داده (Data Quality Assurance) است، نه فقط یک کار آماری جانبی.

 5.1نادیده گرفتن داده‌های پرت «سیگنال»

از آن‌طرف، بدترین سناریو این است که داده‌های پرت، نه خطا، بلکه سیگنال‌های حیاتی باشند و ما با حذف مکانیکی‌شان آن‌ها را نابود کنیم. نمونه‌ها:

  • در تشخیص تقلب، دقیقاً همان تراکنش‌های غیرعادی هستند که اهمیت دارند.
  • در امنیت شبکه، الگوهای ترافیکی عجیب، نشانه‌ی نفوذ یا حمله‌اند.
  • در پزشکی، تغییر ناگهانی علائم حیاتی یا یک لکه‌ی غیرطبیعی در تصویر پزشکی می‌تواند مربوط به وضعیت بحرانی بیمار باشد.
  • در نگه‌داری پیشگویانه، قرائت‌های غیرعادی حسگر، هشدار قبل از خرابی بزرگ تجهیزات است .
  • در کشف علمی، بسیاری از پیشرفت‌های بزرگ دقیقاً از مشاهده‌ی یک «مقدار غیرمنتظره» شروع شده‌اند.

اگر با این نوع داده‌های پرت مثل «نویز» رفتار کنیم، فرصت‌های مهمی را از دست می‌دهیم و حتی ممکن است تبعات سنگینی مثل عدم شناسایی تقلب یا از دست دادن تشخیص حیاتی را تجربه کنیم. این‌جا نقش تخصص دامنه و درک زمینه کاملاً کلیدی است.

برای تشخیص اینکه این نقاط از کدام نوع Outlier هستند، جدول طبقه‌بندی مقاله‌ی اول مجموعه کمک بزرگی می‌کند.

 6.1تأثیرات داده‌های پرت بر تحلیل داده‌ها (با مثال و مطالعه‌ی موردی)

جدول زیر چند اثر مهم داده‌های پرت را به‌صورت خلاصه نشان می‌دهد:

مطالعه‌ی موردی مثالتوضیحنوع تأثیر
در تحلیل زمان پاسخ یک وب‌سایت، چند پاسخ بسیار کند ناشی از مشکل سرور، میانگین را آن‌قدر بالا برد که عملکرد سایت بدتر از واقعیت به‌نظر رسید.حقوق بسیار بالای یک CEO میانگین حقوق کارکنان را غیرواقعی بالا نشان می‌دهد.Outlierها می‌توانند میانگین، انحراف معیار و دامنه را به‌شدت جابه‌جا کنند و تصویر غلطی از توزیع بدهند.تغییر در آمار توصیفی
مدل پیش‌بینی قیمت مسکن به‌خاطر چند ملک با قیمت بسیار غیرعادی (مثلاً ویلای تاریخی) ضرایبی به‌دست آورد که برای خانه‌های معمولی مناسب نبود.در رگرسیون خطی، یک نقطه‌ی پرت می‌تواند خط را به سمت خود بکشد.مدل‌ها را بد برازش می‌کنند، دقت پیش‌بینی را کم می‌کنند و تعمیم‌پذیری را خراب می‌کنند.تحریف مدل‌های آماری و ML
تعداد کلیک‌های بسیار زیاد از یک IP (ربات) روی یک لینک به‌اشتباه نشانه‌ی محبوبیت لینک تعبیر شد.افزایش ناگهانی فروش ناشی از خطای ورود داده، به‌عنوان «رشد بازار» تعبیر می‌شود.Outlierها می‌توانند ظاهرِ روند یا رابطه‌ای را ایجاد کنند که واقعا وجود ندارد.ایجاد الگوهای نادرست
در آزمون t قبل و بعد از آموزش، چند نفر به‌دلیل وقفه‌ی طولانی زمان‌های بسیار زیادی داشتند و باعث شد آزمون، تفاوت واقعی را «غیرمعنادار» نشان دهد.در یک آزمایش بالینی، چند پاسخ بسیار غیرمعمول تشخیص تفاوت واقعی بین دو دارو را سخت می‌کند.با افزایش واریانس، قدرت آزمون برای تشخیص اثرات واقعی کاهش می‌یابد.کاهش قدرت آزمون‌های آماری
در نمودار خطی دمای روزانه، یک مقدار به‌شدت اشتباه ناشی از خرابی سنسور، کل مقیاس محور را به‌هم زد و نوسان‌های طبیعی قابل دیدن نبودند.فردی با وزن بسیار زیاد در نمودار قد–وزن، باعث می‌شود بقیه‌ی نقاط به‌صورت یک توده‌ی کوچک دیده شوند.یک نقطه‌ی بسیار دور می‌تواند مقیاس نمودارها را خراب کند و بقیه‌ی داده‌ها را در گوشه‌ای فشرده کند.ایجاد مشکل در تجسم
یک مدل پیش‌بینی فروش که تبلیغات غیرعادی را در نظر نگرفته، برای تولید برنامه‌ی نادرست سفارش و تولید استفاده شد.بودجه‌بندی حقوق بر پایه‌ی میانگین حقوقِ تحریف‌شده، منجر به سیاست حقوقی غلط می‌شود.تحلیل‌های آلوده به Outlier می‌توانند تصمیم‌های اشتباه در کسب‌وکار، علم و سیاست‌گذاری ایجاد کنند.تصمیم‌گیری نادرست

 7.1مطالعه‌ی موردی: اثر داده‌های پرت در تحلیل داده‌های پزشکی

فرض کنید پژوهشی در حال بررسی رابطه‌ی سطح کلسترول خون و خطر بیماری قلبی است.

منشأهای احتمالی Outlier:

  • خطای انسانی در ثبت مقدار کلسترول.
  • نقص یا کالیبراسیون نادرست دستگاه آزمایشگاهی.
  • خطا در تبدیل واحدها.
  • یا واقعاً فردی با وضعیت ژنتیکی ویژه و سطح کلسترول بسیار بالا/پایین.

تأثیر داده‌های پرت:

• در آمار توصیفی، چند مقدار بسیار بالا می‌توانند میانگین را به‌شدت بالا ببرند.
• در مدل رگرسیون، چند نقطه‌ی پرت می‌توانند خط رگرسیون را منحرف کنند و ارتباط واقعی کلسترول–خطر قلبی را تحریف کنند.
• در سطح تصمیم‌گیری، ممکن است آستانه‌های خطر یا اثر درمان‌ها اشتباه برآورد شود.

راهکار مدیریت:

  1. تشخیص: استفاده از Z-Score، IQR، نمودار جعبه‌ای و… برای شناسایی مقادیر مشکوک.
  2. بررسی منشأ: چک کردن سوابق آزمایشگاه و پرونده‌ی پزشکی فرد برای تشخیص این‌که داده خطاست یا یک وضعیت واقعی خاص.
  3. تصمیم:
    • اگر خطاست → حذف یا اصلاح.
    • اگر وضعیت واقعی است → نگه داشتن، اما با تحلیل حساسیت (با و بدون آن نقطه).
  4. تحلیل حساسیت: اجرای مدل با و بدون آن داده‌ها برای دیدن میزان اثرشان روی نتیجه‌ی کلی.

این رویکرد کمک می‌کند هم کیفیت علمی تحلیل حفظ شود، هم اطلاعات ارزشمند از دست نرود.

نتیجه گیری

داده‌های پرت می‌توانند یک تحلیل را کاملاً دگرگون کنند؛ چه با ایجاد خطا در میانگین و واریانس، چه با منحرف‌کردن مدل‌های پیش‌بینی، و چه با نشان‌دادن رفتارهای غیرمنتظره در داده‌ها. درک دقیق اثر Outlierها به ما کمک می‌کند تا تصمیم بگیریم آن‌ها را اصلاح کنیم، حذف کنیم یا حتی از آن‌ها برای کشف الگوهای جدید استفاده کنیم. توجه به داده‌های پرت یکی از مهم‌ترین مهارت‌های یک تحلیل‌گر حرفه‌ای است و بی‌توجهی به آن می‌تواند به نتایج اشتباه و تصمیم‌گیری‌های غلط منجر شود.

درک انواع Outlier و منشأ آن‌ها پیش‌نیاز فهم دقیق اثرات Outlier است؛ بنابراین پیشنهاد می‌شود مقاله‌ی «کالبدشکافی داده‌های پرت» را نیز مطالعه کنید.

دکتر محمدرضا عاطفی

عضو هیئت علمی دانشگاه
رئیس هیئت مدیره گروه ناب
هم بنیان گذار شرکت دانش بنیان
مشاور شرکت ها و سازمان های بزرگ کشور

آنچه می خوانید

هوش مصنوعی

کاربرد سنسور دمای IC در مخابرات، تجهیزات پزشکی و سیستم‌های صنعتی:بخش دوم

پیشنهاد میکنیم ابتدا مقاله سنسورهای دمای IC در کاربردهای صنعتی: عملکرد، نصب و ملاحظات عملیاتی:بخش اول را مطالعه کنید سپس این مقاله را مطالعه کنید. . 6.2. کاربرد سنسورهای دمای IC در صنعت مخابرات 1.6.2.  دستگاه‌ها و محیط‌های کاربردی:     تجهیزات فعال شبکه (Active Network Equipment):     روترها، سوئیچ‌ها، فایروال‌ها:

توضیحات بیشتر »
هوش مصنوعی

سنسورهای دمای IC در کاربردهای صنعتی: عملکرد، نصب و ملاحظات عملیاتی:بخش اول

سنسورهای دمای مجتمع (IC) جزء حیاتی سیستم‌های کنترل و پایش در طیف وسیعی از صنایع مدرن به شمار می‌روند. این حسگرها، که به دلیل اندازه کوچک، هزینه پایین و خروجی خطی خود شناخته شده‌اند، قابلیت‌های پایش دما را به طور مستقیم و بدون نیاز به مدارهای پیچیده اضافی ارائه می‌دهند.

توضیحات بیشتر »
هوش مصنوعی

پیاده‌سازی الگوریتم K-Modes در پایتون | آموزش کامل و مطالعه موردی کاربردی

۱. چکیده اگرچه درک پایه‌های تئوری و روابط فرکانسی افراز حول مُدها زیربنای تحلیل‌های علمی است، اما مهار پتانسیل واقعی این الگوریتم تخصصی در گرو پیاده‌سازی اصولی آن در خطوط لوله داده (Data Pipelines) جهان واقعی است. این مقاله به عنوان یک مرجع کاملاً کاربردی و تجربی، نحوه به کارگیری

توضیحات بیشتر »