cover

قسمت ۱: داده های پرت چیست؟کالبدشکافی Outlier ها از تعریف تا طبقه‌بندی

مقدمه

داده‌های پرت فقط مقادیر عجیب در میان داده‌ها نیستند؛ بلکه می‌توانند منبع خطا، نشانه‌ای از مشکل پنهان یا حتی سرنخی برای کشف علمی باشند. در ساده‌ترین تعریف، داده‌ی پرت مشاهده‌ای است که رفتاری چنان متفاوت دارد که تردید به همگونی فرآیند تولیدش ایجاد می‌شود. این پدیده در حوزه‌های گوناگونی مانند آمار، روان‌شناسی، یادگیری ماشین، مالی و امنیت سایبری رخ می‌دهد . در صورت نادیده گرفتن، می‌تواند تحلیل‌ها و تصمیم‌گیری‌ها را به‌شدت منحرف کند.

مقاله ابتدا داده‌های پرت را تعریف می‌کند و دلایل اهمیت توجه به آن‌ها را شرح می‌دهد. سپس نشان می‌دهد که چگونه رویکردها به این پدیده از اخترشناسان قرن هجدهم تا متخصصان امروزیِ یادگیری عمیق تکامل یافته‌اند. همچنین روشن می‌کند که چرا مدیریت پرت‌ها امروزه یکی از ارکان اساسی علم داده است. در ادامه، پنج منشأ اصلی پیدایش داده‌های پرت — از جمله خطاهای اندازه‌گیری، مشکلات ورود و پردازش داده، نمونه‌برداری نادرست، تقلب یا گزارش‌دهی اشتباه، و رویدادهای واقعی ولی نادر — را بررسی می‌کند. هر یک از این منابع را با مثال‌های عینی و مطالعات موردی شهودی همراه می‌سازد.

در ادامه، چارچوبی جامع برای طبقه‌بندی داده‌های پرت ارائه می‌شود — از تقسیم‌بندی‌های کلاسیک (سراسری، زمینه‌ای و جمعی) و تمایز تک‌متغیره در مقابل چندمتغیره تا دیدگاه‌های مبتنی بر منشأ و دامنه ناهنجاری. تأکید اصلی بر این است که پیش از انتخاب روش تشخیص یا تصمیم درباره نحوه برخورد با پرت‌ها، درک دقیق «نوع» و «منشأ» آن‌ها ضروری است. چنین درکی می‌تواند کیفیت تحلیل‌ها، مدل‌ها و فرآیندهای تصمیم‌گیری را به‌طور چشمگیری بهبود بخشد.

1. داده پرت چیست؟ (فراتر از یک عدد دورافتاده)

وقتی از داده‌های دنیای واقعی حرف می‌زنیم، تقریباً هیچ‌وقت با یک جدول تمیز و مرتب شبیه مثال‌های کتاب درسی مواجه نمی‌شویم. در میان هر مجموعه داده‌ی واقعی، همیشه چند مقدار پیدا می‌شود که «به چشم می‌آیند»: بیش از حد بزرگ، بیش از حد کوچک، یا به شکلی غیرمنتظره متفاوت از سایر نمونه‌ها. این‌ها همان چیزی هستند که از آن‌ها با عنوان داده‌های پرت (Outliers) یاد می‌کنیم.

تعریف شهودی Outlier

به‌صورت شهودی، داده‌ی پرت مشاهده‌ای است که فاصله‌اش از سایر داده‌ها آن‌قدر زیاد است که ما را به این سؤال می‌کشاند: آیا از همان مکانیسم معمول تولید شده است؟ شاید این انحراف ناشی از خطا باشد، یا شاید سرنخی از یک رویداد واقعی ولی نادر باشد.

پیامد های وجود Outlier در تحلیل

این تفاوت ظاهراً ساده، پیامدهای عملی بسیار عمیقی دارد. اگر یک داده‌ی پرت ناشی از خطا باشد — مثلاً ثبت ۲۵۰ درجه به‌جای ۲۵ درجه — نگه‌داشتن آن می‌تواند تحلیل را به‌طور جدی تحریف کند. اما اگر همان مقدار واقعاً نشانه‌ای از یک رویداد واقعی باشد — مثلاً افزایش غیرعادی دما به‌دلیل نقص فنی در یک توربین یا راکتور — حذف آن یعنی گم کردن یک هشدار حیاتی.

همین دوگانگی است که کار با داده‌های پرت را از یک وظیفه‌ی ساده‌ی «پاکسازی جدول» به یک مسئله‌ی روش‌شناختی عمیق تبدیل می‌کند؛ مسئله‌ای که به‌شدت وابسته به زمینه‌ی کاربرد، هدف تحلیل و دانش حوزه‌ای است.

1.1. چرا داده‌های پرت مهم‌اند؟

وجود داده‌های پرت می‌تواند در چند سطح اصلی مشکل‌ساز شود:

تحریف آمار توصیفی:

 یک یا دو مقدار خیلی بزرگ یا کوچک می‌توانند میانگین و انحراف معیار را به‌طور جدی جابه‌جا کنند و تصویری غلط از مرکز و پراکندگی داده ارائه دهند. به همین دلیل، در حضور داده‌های پرت معمولاً توصیه می‌شود به معیارهای مقاوم مثل میانه، دامنه‌ی بین چارکی (IQR) و انحراف مطلق میانه (MAD) تکیه کنیم.

نقض مفروضات استنباط آماری:

بسیاری از روش‌های کلاسیک آماری (رگرسیون حداقل مربعات، آزمون t، ANOVA و…) روی فرض‌هایی مثل نرمال بودن خطاها، همسانی واریانس و نبود چند نقطه‌ی بسیار اثرگذار تکیه دارند. داده‌های پرت می‌توانند این مفروضات را بر هم بزنند و باعث شوند ضریب‌ها، مقادیر p و بازه‌های اطمینان ظاهراً دقیق اما در واقع گمراه‌کننده باشند.

کاهش عملکرد مدل‌های یادگیری ماشین:

بسیاری از الگوریتم‌های یادگیری ماشین – به خصوص آن‌هایی که بر فاصله یا واریانس متکی هستند مثل KNN، K-Means، SVM، PCA، –LDA  نسبت به داده‌های پرت حساس‌اند. چند نقطه‌ی پرت می‌توانند مرز تصمیم را منحرف کنند، مراکز خوشه‌ها را جابه‌جا کنند، یا جهت‌های اصلی در PCA را به سمت خود بکشند؛ در نتیجه مدل روی داده‌ی جدید ضعیف عمل می‌کند.

پنهان کردن مسائل واقعی یا سیگنال‌های مهم:

گاهی داده‌های پرت دقیقاً همان چیزی هستند که باید رویشان تمرکز کنیم: نشانه‌ی تقلب، حمله‌ی سایبری، خرابی یک دستگاه، بیماری در داده‌های پزشکی، یا تغییر حالت در یک سیستم پویا. اگر بی‌دقت با آن‌ها برخورد کنیم، ممکن است مهم‌ترین اطلاعات را از دست بدهیم.

بنابراین، کار با داده‌های پرت فقط یک پیش‌پردازش ساده نیست؛ بلکه جزئی جدایی‌ناپذیر از علم داده‌ی مسئولانه و قابل اتکا است.

برای مطالعه‌ی عمیق‌تر درباره تأثیر داده‌های پرت بر آمار توصیفی، مفروضات آماری و مدل‌های یادگیری ماشین، مقاله «اهمیت و تأثیرات داده‌های پرت» را بخوانید.

2.یک سفر تاریخی از اخترشناسان تا یادگیری ماشین

برخورد با داده‌های عجیب به‌هیچ‌وجه محصول عصر یادگیری ماشین نیست. از همان زمانی که انسان شروع کرد به اندازه‌گیری و ثبت، با مسئله‌ی «عددهای مشکوک» روبه‌رو شد.

2.1. از اخترشناسان تا گاوس

در قرن‌های هفدهم و هجدهم، اخترشناسان در تلاش بودند موقعیت ستاره‌ها و سیارات را با دقت بالا اندازه‌گیری کنند. آن‌ها مجموعه‌ای از قرائت‌ها داشتند که تقریباً نزدیک هم بودند، و هر از گاهی یک مقدار که کاملاً از بقیه جدا بود. آن زمان هنوز نظریه‌ی رسمی درباره‌ی احتمال و توزیع خطا وجود نداشت، اما دانشمندان به‌طور تجربی بعضی اندازه‌گیری‌ها را کنار می‌گذاشتند چون «غیرقابل‌اعتماد» به نظر می‌رسیدند.

با کارهای گاوس و لژاندر در اوایل قرن نوزدهم و معرفی روش حداقل مربعات و توزیع نرمال خطاها، نخستین چارچوب رسمی برای فکر کردن به داده‌های پرت شکل گرفت. اگر فرض کنیم خطاها نرمال‌اند، می‌توانیم بپرسیم: «احتمال دیدن خطایی به این بزرگی چقدر است؟»
اگر این احتمال خیلی کم باشد، شاید آن نقطه را به‌عنوان مشاهد‌ه‌ی مشکوک یا پرت کنار بگذاریم.

2.2. آمار مقاوم و EDA

تا نیمه‌ی قرن بیستم، کم‌کم روشن شد که روش‌های کلاسیک مثل میانگین و حداقل مربعات، بیش از حد به داده‌های پرت حساس‌اند.همین جا بود که ایده‌ی آمار مقاوم مطرح شد.

جان توکی، با مطرح کردن تحلیل اکتشافی داده‌ها (EDA)، تأکید کرد که قبل از هر مدل‌سازی پیچیده، باید داده را دید، نمودار کشید، و نقاط مشکوک را تشخیص داد. او نمودار جعبه‌ای و معیارهایی مثل IQR را برای شناسایی داده‌های پرت معرفی کرد.

در همین دوره، پژوهشگرانی مثل هوبر و همپل به‌صورت نظری نشان دادند که می‌توان تخمین‌گرهایی طراحی کرد که حتی اگر بخشی از داده‌ها آلوده یا پرت باشد، هنوز رفتار خوبی داشته باشند. مفاهیمی مانند نقطه‌ی شکست (حداکثر درصد آلودگی که یک روش می‌تواند تحمل کند) و تابع تأثیر (اندازه‌گیری تأثیر یک نقطه‌ی منفرد بر برآورد) در همین جریان شکل گرفت. روش‌هایی مانند LMS، LTS، MCD و MVE نیز برای برازش مقاوم رگرسیون و کوواریانس توسعه یافتند.

2.3. رویکرد علوم کامپیوتر و الگوریتم های مدرن

از اواخر قرن بیستم، با رشد پایگاه‌های داده‌ی بزرگ و چندبعدی، رویکرد تشخیص ناهنجاری در علوم کامپیوتر شکل گرفت. در این رویکرد، داده‌ی پرت دیگر فقط «خطای آزمایش» نبود؛ بلکه می‌توانست نشانه‌ی تقلب، حمله‌ی شبکه، رفتار غیرعادی کاربر یا اشکال در سیستم باشد.

الگوریتم‌هایی مانند تشخیص پرت مبتنی بر نزدیک‌ترین همسایه (KNN-based)، عامل پرت محلی (LOF)، روش‌های مبتنی بر خوشه‌بندی، One-Class SVM، روش‌های تجمیعی مثل Isolation Forest و در سال‌های اخیر روش‌های مبتنی بر یادگیری عمیق (Autoencoderها، VAE، GAN، LSTM برای سری‌های زمانی) به‌طور خاص برای شناسایی الگوهای پیچیده‌ی ناهنجاری طراحی شدند.

این مسیر تاریخی نشان می‌دهد که مسئله داده‌های پرت از یک دغدغه تخصصی در نجوم، به یک حوزه بین‌رشته‌ای تبدیل شده است که آمار، علوم کامپیوتر و دانش تخصصی حوزه‌ای در آن هم‌افزایی می‌کنند.

3. منشأ داده های پرت :چرا  Outlier ایجاد میشود؟

برای این‌که بدانیم با یک داده‌ی پرت چه کار کنیم، اول باید بفهمیم چرا به وجود آمده است. منبع یا منشأ داده‌ی پرت تا حد زیادی تعیین‌کننده‌ی نوع واکنش ماست.

3.1. خطاهای اندازه‌گیری و ابزار

یکی از شایع‌ترین منابع داده‌های پرت، خطا در ابزار اندازه‌گیری است:

  • نویز یا خرابی حسگرها: سنسور دما ناگهان صفر درجه گزارش می‌کند در حالی که محیط گرم است؛ یا حسگر ارتعاش به‌خاطر نویز الکترومغناطیس مقادیر غیرواقعی ثبت می‌کند.
  • کالیبراسیون ناقص: اگر یک ترازو درست تنظیم نشده باشد، همه‌ی اندازه‌گیری‌ها چند گرم یا چند کیلو خطا دارند و بخشی از داده‌ها نسبت به سایر منابع یا دستگاه‌های دیگر «پرت» به نظر می‌رسند.
  • عدم رعایت پروتکل آزمایش: در آزمایش‌های شیمی، پزشکی یا مهندسی، تفاوت در دما، زمان، غلظت مواد و آلودگی نمونه می‌تواند از یک سری آزمایش تا سری دیگر نتایج غیرعادی ایجاد کند.

در این موارد، اگر مطمئن باشیم خطا ابزاری است، معمولاً استراتژی درست اصلاح یا حذف آن داده است.

3.2. خطا در ورود، انتقال و پردازش داده

حتی اگر اندازه‌گیری صحیح باشد، در مراحل بعدی هم امکان تولید داده‌ی پرت وجود دارد:

  • اشتباه تایپی (۲۵۰ به جای ۲۵، ۱.۲ به جای ۱۲)، جابه‌جایی اعشار، واحد اشتباه (پوند به جای کیلوگرم)، کدگذاری غلط مقادیر دسته‌ای؛
  • خطا در انتقال داده از فرم کاغذی به سیستم، یا در تبدیل بین فرمت‌های مختلف؛
  • اشتباه در ادغام چند منبع داده ( Join اشتباه، تکراری شدن رکوردها، قاطی شدن رکورد دو نفر با هم).

در یک پروژه فروش چند شعبه، اگر واحد پول شعبه‌ای یورو و شعبه‌ی دیگر دلار باشد ولی بدون تبدیل ادغام شوند، مقادیر یک شعبه به صورت «پرت» در دیتاست نهایی ظاهر می‌شوند، در حالی که در واقع خطای پردازش داریم.

3.3. خطاهای نمونه‌برداری

گاهی داده‌ی جمع‌آوری‌شده به‌درستی ثبت شده، اما نمونه اصلاً نماینده‌ی جمعیت هدف نیست:

  • وارد شدن اعضای یک جمعیت دیگر در نمونه؛
  • استفاده از نمونه‌گیری در دسترس و جانبدار؛
  • آلودگی فیزیکی نمونه‌های بیولوژیک یا شیمیایی.

در این حالت، نقطه‌ی پرت نسبت به جمعیت مورد نظر ما پرت است، نه نسبت به جمعیت واقعی خودش.

3.4. گزارش نادرست و رفتار مخرب

در برخی حوزه‌ها داده‌های پرت عمدی هستند:

  • پاسخ‌های دروغ یا اغراق‌آمیز در پرسش‌نامه‌های حساس (درآمد، مصرف، عقاید).
  • تراکنش‌های غیرمعمول در کارت‌های بانکی، ادعاهای عجیب در بیمه، حملات بات‌نت و تولید ترافیک غیرعادی در شبکه.
  • داده‌های دستکاری‌شده برای گمراه کردن سامانه‌های تشخیص (نمونه‌های خصمانه در یادگیری ماشین).

اینجا Outlier نه خطاست، نه چیزی برای حذف؛ بلکه سیگنال اصلی است که باید روی آن متمرکز شویم.

3.5. خرابی داده

خرابی فایل، از کار افتادن رسانه‌ی ذخیره‌سازی، نویز روی خطوط ارتباطی و… هم می‌تواند داده‌های بی‌معنی تولید کند. معمولاً این نوع داده‌ها با بررسی‌های فنی و کنترل‌های صحت (چک‌سام، لاگ‌ها) قابل تشخیص‌اند.

3.6. رویدادهای نادر اما واقعی

شاید مهم‌ترین و حساس‌ترین دسته، داده‌های پرت واقعی و معنادار باشند:

  • در توزیع درآمد، چند فرد بسیار ثروتمند.
  • در بازار سهام، سقوط‌ها و جهش‌های بزرگ.
  • در زلزله، چند رخداد با بزرگی بسیار بالا.
  • در پزشکی، علائم نادری که بیماری جدید یا وضعیت بحرانی را نشان می‌دهند.
  • در علوم، اندازه‌گیری‌هایی که ممکن است حاکی از کشف یک ذره‌ی جدید یا یک پدیده‌ی ناشناخته باشند.

در سیستم‌های پویا، این نقاط می‌توانند نشانه‌ی تغییر فاز یا گذار ناگهانی از یک حالت به حالت دیگر باشند. حذف آن‌ها یعنی کور کردن خود نسبت به اتفاقات مهم.

به همین دلیل، درک منشأ داده‌های پرت یک کار صرفاً تکنیکی نیست. بیشتر شبیه کارآگاه‌بازی است و نیاز به ترکیب نمودارکشی، تشخیص‌های آماری، بررسی متادیتا و مشورت با متخصصان حوزه دارد.

4. طبقه‌بندی داده‌های پرت: زبان مشترک تحلیل Outlier ها

از آن‌جا که داده‌های پرت از نظر شکل، منشأ و رفتار بسیار متنوع‌اند، لازم است یک زبان مشترک برای دسته‌بندی آن‌ها داشته باشیم. این طبقه‌بندی مستقیماً روی انتخاب روش تشخیص و نحوه‌ی برخورد اثر می‌گذارد.

  • سراسری (Point)، زمینه‌ای (Contextual) و جمعی (Collective)
  • تک‌متغیره در برابر چندمتغیره

حال به بررسی هر یک می پردازیم.

4.1. سراسری، زمینه‌ای و جمعی

یکی از رایج‌ترین تقسیم‌بندی‌ها سه دسته‌ی زیر است:

4.1.1. داده‌های پرت سراسری (Global / Point Outliers)

این‌ها نقاطی هستند که در مقیاس کل دیتاست، به‌وضوح از بقیه جدا هستند.
مثلاً:

  • سن ۱۵۰ سال در دیتاست جمعیت عمومی.
  • تراکنش ۱۰ میلیون دلاری در میان تراکنش‌های ۱۰۰ تا ۱۰۰۰ دلاری.

این نوع پرت‌ها با روش‌هایی مثل Z-Score، IQR، آزمون گرابز، روش‌های مبتنی بر توزیع نرمال، و الگوریتم‌هایی مثل Isolation Forest نسبتاً راحت‌تر شناسایی می‌شوند. اما اگر چند پرت شبیه هم وجود داشته باشد، پدیده‌هایی مثل ماسکینگ و سوامپینگ می‌توانند کار را سخت کنند. بعضی پرت‌ها یکدیگر را پنهان می‌کنند یا باعث می‌شوند نقاط نرمال ظاهراً پرت به نظر برسند.

4.1.2. داده‌های پرت زمینه‌ای (Contextual / Conditional Outliers)

در اینجا، مقدار به‌تنهایی لزوماً افراطی نیست، بلکه در یک زمینه‌ی خاص غیرعادی می‌شود.

مثال‌ها:

  • دمای ۲۵ درجه در تابستان تهران عادی است، اما در زمستان استکهلم غیرعادی است.
  • خرید ۵۰۰ دلار برای یک خانواده‌ی مرفه طبیعی است، اما برای یک دانشجو می‌تواند مشکوک باشد.
  • تعداد بازدید زیاد سایت در ساعت ۳ صبح ممکن است ناهنجار باشد، مگر زمانی که رویداد جهانی خاصی در حال پخش باشد.

تشخیص این نوع Outlierها نیازمند مدل‌سازی رفتار «عادی» مشروط بر زمینه است؛ یعنی باید بدانیم «در این فصل، برای این نوع کاربر، در این منطقه، رفتار معمول چیست؟».

4.1.3. داده‌های پرت جمعی (Collective Outliers)

گاهی هیچ نقطه‌ای به‌تنهایی خیلی غیرعادی نیست، اما مجموعه‌ای از نقاط با هم رفتاری غیرطبیعی دارند.

مثلاً:

  • چند ده تراکنش کوچک در نقاط جغرافیایی مختلف طی چند دقیقه.
  • توالی خاصی از ضربان قلب در ECG که به‌تنهایی طبیعی به نظر می‌رسد، اما به‌صورت مجموعه‌ای الگوی ریتم غیرعادی را نشان می‌دهد.
  • چند سنسور که همزمان کمی بالا می‌روند و این الگوی هماهنگ نشانه‌ی یک مشکل سیستمی است.

تشخیص این نوع ناهنجاری معمولاً به روش‌های تحلیلی دنباله‌ای (سری زمانی، RNN/LSTM)، گراف، یا تحلیل ساختار خوشه‌ها و زیرالگوها نیاز دارد.

4.2. تک‌متغیره و چندمتغیره

بُعد دیگر طبقه‌بندی، این است که ناهنجاری در چند ویژگی ظاهر می‌شود؟

  • پرت تک‌متغیره: وقتی یک ویژگی به‌تنهایی مقدار عجیبی دارد (مثلاً قد ۳ متر). این نوع با نمودار جعبه‌ای، هیستوگرام، Z-Score، IQR  و آزمون‌های کلاسیک به‌خوبی کشف می‌شود.
  • پرت چندمتغیره: وقتی هر ویژگی به‌تنهایی ممکن است در محدوده‌ی عادی باشد، اما ترکیب آن‌ها غیرمنطقی است. مثل فردی با قد ۱۶۰ و وزن ۱۲۰ کیلو، یا تراکنشی با مبلغ متوسط و مکان آشنا، اما در زمانی غیرمعمول و با الگویی که هرگز در تاریخ آن حساب دیده نمی‌شده است.

برای این نوعOutlier ها به روش‌هایی مثل فاصله‌ی ماهالانوبیس، کوواریانس مقاوم، PCA، LOF، One-Class SVM، Isolation Forest  و سایر الگوریتم‌های چندبعدی نیاز داریم.

پس از شناخت انواع Outlier، قدم بعدی بررسی این است که این Outlierها چه تأثیری بر تحلیل داده و مدل‌سازی دارند. ادامه‌ی این بحث در مقاله‌ی دوم این مجموعه آمده است.

5. تفاوت: نویز (Noise) با داده پرت (Outlier)

در دنیای داده‌ها، هر چیزی که با الگوی معمول نمی‌خواند، لزوماً «داده پرت» نیست. بسیاری از تحلیل‌گران تازه‌کار، هر نوسان یا بی‌نظمی را Outlier می‌نامند، اما از نظر فنی، تمایز مهمی بین نویز و پرت وجود دارد. درک این تفاوت تعیین می‌کند که آیا باید داده را «صاف» (Smooth) کنید یا آن را «بررسی» (Investigate) نمایید.

5.1. نویز (Noise) چیست؟

به خطای تصادفی یا واریانس در متغیر اندازه‌گیری‌شده اشاره دارد. نویز معمولاً فاقد الگوی مشخص است، معنای خاصی ندارد و صرفاً مانعی برای دیدن الگوی اصلی داده‌هاست.

  • ماهیت: خطای تصادفی سطح پایین.
  • منشأ: محدودیت‌های فیزیکی ابزار اندازه‌گیری، تداخلات محیطی، یا نوسانات جزئی و طبیعی.
  • ارزش تحلیلی: تقریباً صفر. نویز هیچ اطلاعات مفیدی درباره پدیده مورد مطالعه به ما نمی‌دهد و “سیگنال” را مخفی می‌کند.
  • مثال: صدای “خش‌خش” در پس‌زمینه یک فایل صوتی ضبط شده، یا لرزش دست هنگام اندازه‌گیری وزن یک جسم.

نکته کلیدی: نویز یک “شیء” (Object) نیست؛ بلکه ویژگی‌ای است که روی مقادیر داده سوار می‌شود. شما نمی‌توانید بگویید “این سطر نویز است” (مگر اینکه کل سطر زباله باشد)، بلکه می‌گویید “این سطر دارای نویز است”.

5.2. (Outlier) چیست؟

داده پرت مشاهده‌ای است که به‌طور معناداری با سایر داده‌ها متفاوت است. این تفاوت آن‌قدر زیاد است که شک می‌کنیم مکانیسم تولید آن با بقیه داده‌ها یکی باشد.

  • ماهیت: انحراف شدید و معنادار.
  • منشأ: می‌تواند ناشی از یک خطای بزرگ (مثل خرابی سنسور) باشد، یا ناشی از یک رویداد واقعی و کمیاب (مثل یک تراکنش بانکی میلیاردی).
  • ارزش تحلیلی: بسیار بالا. (اگر نویز نباشد) Outlierها اغلب حاوی مهم‌ترین اطلاعات دیتاست هستند (کشف تقلب، کشف بیماری، کشف علمی).
  • مثال: شنیدن صدای “جیغ” در میان صدای خش‌خش رادیو. جیغ، خش‌خش نیست؛ یک رویداد متمایز است.

برای مشاهده تفاوت اثر نویز و داده‌ی پرت بر تحلیل و مدل‌سازی، مقاله‌ی «تأثیر داده‌های پرت» را ببینید.

جدول مقایسه: نویز در برابر داده پرت

ویژگیداده پرت (Outlier)نویز (Noise)
تعریفانحراف چشمگیر از رفتار نرمالخطای تصادفی یا واریانس ناخواسته
شدت انحرافمعمولاً زیاد و شدیدمعمولاً کم یا متوسط
منشأرویداد خاص، خطای فاحش، تغییر فرآیندمحدودیت ابزار، تداخل محیطی
اطلاعاتممکن است “سیگنال اصلی” باشدمانع اطلاعات است (Garbage)
روش برخوردتشخیص (Detection)، تحلیل، تصمیم‌گیریکاهش نویز، هموارسازی (Smoothing)، فیلتر کردن
مثال بصرینقطه‌ای که کاملاً دور از خط رگرسیون افتاده استنقاطی که کمی بالا و پایین خط رگرسیون می‌لرزند

یک مثال شهودی (آنالوژی رادیو)

فرض کنید در حال گوش دادن به یک ایستگاه رادیویی هستید.

  • نویز: صدای “فِش‌فِش” دائمی که در پس‌زمینه می‌شنوید. این صدا هیچ معنایی ندارد و شما سعی می‌کنید با آنتن‌دهی بهتر آن را حذف (Smooth) کنید تا صدای گوینده شفاف شود.
  • داده پرت: ناگهان صدای یک “آژیر خطر” بلند پخش می‌شود که صحبت گوینده را قطع می‌کند. این صدا نویز نیست؛ یک اتفاق متمایز است. شما نباید آن را فیلتر کنید، بلکه باید توجه کنید که چرا آژیر زده شد.

جمع‌بندی

آنچه در این بخش انجام دادیم، ادغام چهار محور اصلی بود: تعریف و انگیزه‌ی داده‌های پرت، تاریخچه‌ی فشرده‌ی مواجهه با آن، منشأها و ریشه‌های تولید داده‌ی پرت و در نهایت چارچوبی برای طبقه‌بندی انواع آن بود.

پیام کلیدی این است که:

  • داده‌ی پرت نه یک «نقص حاشیه‌ای» در داده، بلکه عنصری مرکزی و تعیین‌کننده در علم داده عملی محسوب می‌شود.
  • بدون درک منشأ، هر تصمیمی برای حذف، اصلاح یا استفاده از داده‌ی پرت می‌تواند خطرناک و گمراه‌کننده باشد؛
  • طبقه‌بندی روشن انواع Outlier (سراسری، زمینه‌ای، جمعی، تک‌متغیره، چندمتغیره، ناشی از خطا، ناشی از رویداد واقعی، عمدی) شرط لازم برای انتخاب روش تشخیص و استراتژی مدیریت آن‌هاست؛
  • ترکیب نگاه آماری، الگوریتمی و دانش حوزه‌ای همان چیزی است که یک کار با داده‌ی حرفه‌ای را از یک پاکسازی سطحی متمایز می‌کند.

در گام‌های بعدی، می‌توان بر همین مبنا به سراغ روش‌های تشخیص، الگوریتم‌ها، راهکارهای عملی مدیریت و پیاده‌سازی در پایتون رفت؛ اما تا وقتی این «زیربنای مفهومی» روشن نشده باشد، هیچ الگوریتم پیچیده‌ای نمی‌تواند تضمین کند که برخورد ما با داده‌های پرت واقعاً درست و معنادار است.

دکتر محمدرضا عاطفی

عضو هیئت علمی دانشگاه
رئیس هیئت مدیره گروه ناب
هم بنیان گذار شرکت دانش بنیان
مشاور شرکت ها و سازمان های بزرگ کشور

آنچه می خوانید

هوش مصنوعی

کاربرد سنسور دمای IC در مخابرات، تجهیزات پزشکی و سیستم‌های صنعتی:بخش دوم

پیشنهاد میکنیم ابتدا مقاله سنسورهای دمای IC در کاربردهای صنعتی: عملکرد، نصب و ملاحظات عملیاتی:بخش اول را مطالعه کنید سپس این مقاله را مطالعه کنید. . 6.2. کاربرد سنسورهای دمای IC در صنعت مخابرات 1.6.2.  دستگاه‌ها و محیط‌های کاربردی:     تجهیزات فعال شبکه (Active Network Equipment):     روترها، سوئیچ‌ها، فایروال‌ها:

توضیحات بیشتر »
هوش مصنوعی

سنسورهای دمای IC در کاربردهای صنعتی: عملکرد، نصب و ملاحظات عملیاتی:بخش اول

سنسورهای دمای مجتمع (IC) جزء حیاتی سیستم‌های کنترل و پایش در طیف وسیعی از صنایع مدرن به شمار می‌روند. این حسگرها، که به دلیل اندازه کوچک، هزینه پایین و خروجی خطی خود شناخته شده‌اند، قابلیت‌های پایش دما را به طور مستقیم و بدون نیاز به مدارهای پیچیده اضافی ارائه می‌دهند.

توضیحات بیشتر »
هوش مصنوعی

پیاده‌سازی الگوریتم K-Modes در پایتون | آموزش کامل و مطالعه موردی کاربردی

۱. چکیده اگرچه درک پایه‌های تئوری و روابط فرکانسی افراز حول مُدها زیربنای تحلیل‌های علمی است، اما مهار پتانسیل واقعی این الگوریتم تخصصی در گرو پیاده‌سازی اصولی آن در خطوط لوله داده (Data Pipelines) جهان واقعی است. این مقاله به عنوان یک مرجع کاملاً کاربردی و تجربی، نحوه به کارگیری

توضیحات بیشتر »