cover

قسمت 5 :سری‌های زمانی و داده‌های پرت

مقدمه

داده‌های پرت (Outliers) در نگاه اول فقط چند نقطه‌ی عجیب و دورافتاده به نظر می‌رسند، اما در واقع یکی از تعیین‌کننده‌ترین عوامل در کیفیت تحلیل، اعتبار مدل‌ها و حتی تصمیم‌گیری‌های سازمانی هستند. مجموعه‌ای که اکنون پیش روی شماست، یک راهنمای مرحله‌به‌مرحله، جامع و کاربردی درباره‌ی شناخت، منشأ، انواع، اثرات و روش‌های مدیریت داده‌های پرت در تحلیل داده، آمار و یادگیری ماشین است.

در چهار بخش نخست این مجموعه، به‌صورت لایه‌به‌لایه پیش رفتیم:

۱. در بخش اول

ماهیت داده‌های پرت را تعریف کردیم، تفاوت آن‌ها با «نویز» را توضیح دادیم و نشان دادیم چرا Outlierها همیشه بد نیستند و گاهی حتی نقش سیگنال‌های حیاتی را دارند.

۲. در بخش دوم

به دلایل بروز داده‌های پرت، طبقه‌بندی آن‌ها (پرت‌های نقطه‌ای، زمینه‌محور، سیستمی، چندبعدی) و چرایی خطرناک‌بودنشان در تحلیل‌های آماری پرداختیم.

۳. در بخش سوم

وارد دنیای عملی مدیریت داده‌های پرت شدیم:روش‌های حذف، اصلاح، Winsorizing، مدل‌سازی صریح Outlier، انتخاب بین نگهداری یا حذف و اثر این تصمیم‌ها بر تفسیر نتایج.

۴. در بخش چهارم

نشان دادیم که داده‌های پرت چه اثرات عظیمی بر تحلیل‌های آماری و یادگیری ماشین دارند:تحریف میانگین و واریانس، نقض مفروضات مدل‌ها، گمراه‌کردن رگرسیون، منحرف‌کردن PCA، ایجاد رابطه‌های ساختگی، آلوده‌کردن آزمون‌های آماری و حتی آسیب به شبکه‌های عصبی.

اکنون در بخش پنجم وارد حوزه‌ای پیچیده‌تر و تخصصی‌تر می‌شویم:

۵. داده‌های پرت در سری‌های زمانی

سری‌های زمانی ساختاری پویا و وابسته به زمان دارند، بنابراین Outlierها در آن‌ها تنها یک نقطه‌ی اشتباه نیستند؛ممکن است اثرشان به چندین مشاهده بعدی سرایت کند، یا بیانگر شکست ساختاری، رویداد ناگهانی یا تغییر رژیم تولید داده باشند.

در این بخش به‌طور کامل بررسی شد:

  • انواع Outlierهای سری زمانی (AO، IO، LS، TC)
  • دلایل بروز ناهنجاری در داده‌های وابسته به زمان
  • اثرات Outlier بر تخمین پارامتر، ACF/PACF، پیش‌بینی و آزمون‌ها
  • روش‌های تشخیص آماری، مدل‌محور و یادگیری ماشین
  • مدیریت Outlier با حذف، جایگزینی، مدل‌سازی صریح و روش‌های مقاوم
  • چالش‌هایی مانند Masking، Swamping، ناایستایی و چندبعدی‌بودن

5.1  تعریف و انواع داده‌های پرت در سری‌های زمانی

در داده‌های مقطعی، معمولاً فرض استقلال بین مشاهدات قابل قبول است؛ اما در سری‌های زمانی، وابستگی زمانی ویژگی اصلی داده است. همین وابستگی باعث می‌شود یک داده‌ی پرت نه‌فقط همان نقطه، بلکه رفتار مشاهدات بعدی را هم تحت تأثیر قرار دهد. به همین دلیل، تعریف و شناسایی داده‌ی پرت در سری‌های زمانی پیچیده‌تر از داده‌های مقطعی است.

انواع رایج داده‌های پرت در سری‌های زمانی عبارت‌اند از:

داده‌ی پرت افزایشی (Additive Outlier – AO)

  • یک جهش غیرعادی در یک مشاهده‌ی منفرد که به‌طور موقّت الگوی سری را به‌هم می‌زند.
  • پس از این نقطه، سری معمولاً به رفتار قبلی خود بازمی‌گردد.
  • شبیه یک خطای اندازه‌گیری بزرگ یا یک رویداد ناگهانی و گذرا است.

داده‌ی پرت نوآورانه (Innovational Outlier – IO)

  • به جای خودِ مقدار مشاهده، بر نوآوری یا جمله‌ی خطا در یک زمان خاص اثر می‌گذارد.
  • به دلیل ساختار پویای سری (مثلاً در مدل ARIMA)، اثر آن به مشاهدات بعدی سرایت می‌کند و می‌تواند اثر ماندگار داشته باشد.

تغییر سطح (Level Shift – LS)

  • بیانگر تغییر ناگهانی و تقریباً دائمی در سطح میانگین سری از یک زمان خاص به بعد است.
  • اغلب ناشی از مداخله‌ی بیرونی (مثلاً تغییر سیاست، راه‌اندازی خط تولید جدید، تغییر رژیم بازار) یا شکست ساختاری در فرآیند است.

تغییر موقت (Temporary Change – TC)

  • شبیه IO است با این تفاوت که اثر آن بر مشاهدات بعدی به تدریج و معمولاً نمایی کاهش می‌یابد و در نهایت از بین می‌رود.
  • رویدادی را منعکس می‌کند که شوک اولیه‌ی قوی دارد، اما سیستم به‌تدریج به سطح عادی برمی‌گردد.

تمایز بین AO، IO، LS و TC در عمل بسیار مهم است، زیرا هرکدام روش‌های تشخیص و مدل‌سازی خاص خود را می‌طلبند .

بهترین روش تشخیصمثال واقعیاثر بر سری زمانیتعریف دقیقنوع Outlier
Z-score روی پسماند، Boxplotخرابی لحظه‌ای سنسوراثر کوتاه‌مدت؛ سری بلافاصله به مسیر قبلی برمی‌گرددیک پرش ناگهانی و تک‌نقطه‌ای در مقدار سریAO – Additive Outlier
برازش اولیه ARIMA + تحلیل پسماندشوک ناگهانی اقتصادیاثر در چند مشاهده بعدی پخش می‌شود و ماندگارتر استپرت در جمله خطا (innovation) مدل ARIMAIO – Innovational Outlier
آزمون ساختار شکستی، تحلیل پسماندتغییر سیاست دولت، تغییر نرخ ارزتغییر سطح میانگین برای همیشهتغییر ناگهانی و دائمی در سطح سریLS – Level Shift
ARIMA + بررسی decay پسماندقطعی موقت سیستم، حمله سایبری کوچکاثر نمایی کاهندهتغییر ناگهانی که اثرش به تدریج محو می‌شودTC – Temporary Change

 5.2 علل بروز داده‌های پرت در سری‌های زمانی

داده‌های پرت می‌توانند از مجموعه‌ای متنوع از منابع ناشی شوند، از جمله:

  • خطاهای اندازه‌گیری یا ورود داده:خطای انسانی در ثبت، خرابی یا کالیبراسیون نامناسب سنسور، نقص تجهیزات ثبت داده.
  • رویدادهای نادر و غیرمنتظره:بلایای طبیعی (سیل، زلزله)، بحران‌های اقتصادی، اعتصابات، همه‌گیری‌ها، حوادث صنعتی، تغییر ناگهانی نرخ ارز و… .
  • تغییرات ساختاری در فرآیند:تغییر در تکنولوژی تولید، تغییر الگوی مصرف، اجرای سیاست جدید، تغییر در قوانین و مقررات.
  • خطاهای نمونه‌گیری:انتخاب نمونه‌هایی که نماینده‌ی واقعی فرآیند نیستند یا به‌طور تصادفی مقادیری بسیار غیرمعمول را شامل می‌شوند.
  • رفتار ذاتی فرآیند:برخی فرآیندها ذاتاً «جهشی» و با دم‌های سنگین‌اند (مثلاً بازارهای مالی)، بنابراین داده‌های ظاهراً پرت، بخشی از ماهیت طبیعی فرآیند محسوب می‌شوند.

 5.3تأثیر داده‌های پرت بر تحلیل سری‌های زمانی

وجود داده‌های پرت در سری‌های زمانی می‌تواند پیامدهای متعددی داشته باشد:

تخمین پارامتر

تخمین‌گرهای کلاسیک (مثل حداقل مربعات) نسبت به نقاط دورافتاده بسیار حساس‌اند؛ حضور چند داده‌ی پرت می‌تواند پارامترهای ARIMA یا مدل‌های مشابه را به شدت منحرف کند و منجر به برآوردهای مغرضانه و ناکارا شود .

شناسایی مدل (Model Identification)

داده‌های پرت می‌توانند ACF و PACF نمونه‌ای را تحریف کنند و انتخاب مرتبه‌ی مناسب مدل (p, d, q) را گمراه سازند؛ در نتیجه ممکن است مدل اشتباه انتخاب شود.

پیش‌بینی

مدلی که برای توضیح نقاط غیرعادی «خود را کج‌و‌معوج» کرده است، معمولاً روی داده‌های آینده عملکرد خوبی ندارد؛ پیش‌بینی‌ها ناپایدار و غیرقابل اعتماد می‌شوند.

آزمون‌های آماری

آزمون‌های مانایی، آزمون‌های اهمیت پارامترها و سایر آزمون‌های فرض به حضور داده‌های پرت حساس‌اند و ممکن است قدرت یا سطح خطای آن‌ها به‌طور جدی مخدوش شود.

تحلیل روابط در سری‌های زمانی چندمتغیره

چند نقطه‌ی پرت می‌توانند همبستگی‌های ساختگی بین سری‌ها ایجاد کنند یا روابط واقعی را پنهان کنند؛ به‌خصوص زمانی که فقط یکی از سری‌ها تحت تأثیر شوک شدید قرار گرفته است.

5.4اثرات داده‌های پرت بر مدل‌های مختلف سری زمانی

داده‌های پرت، بسته به نوع مدل سری‌زمانی، اثرات متفاوت و گاهی بسیار عمیقی دارند.در این بخش اثرات Outlier بر مدل‌های پرکاربرد را دقیق‌تر بررسی می‌کنیم:

الف) اثر Outlier بر مدل‌های AR، MA و ARIMA

مشکلات اصلی:

  • تحریف شدید در برآورد پارامترها
    حتی یک AO می‌تواند AR(1) یا ARIMA را وادار به تخمین ضرایب اشتباه کند.
  • خراب کردن ACF و PACF
    باعث می‌شود p و q اشتباه انتخاب شوند.
  • پیش‌بینی ناپایدار
    چون مدل خودش را برای توضیح یک نقطه پرت «کج» می‌کند.

چرا این اتفاق می‌افتد؟

ARIMA اساساً بر پایه حداقل مربعات است و Outlierها واریانس را منفجر می‌کنند.

ب) اثر Outlier بر مدل‌های Exponential Smoothing (ETS)

در ETS مانند: Holt-Winters

  • Outlier سطح (Level) را منحرف می‌کند
  • یا روند (Trend) را دچار پرش می‌کند
  • هموارسازی ممکن است چندین گام زمان ببرد تا به مسیر واقعی برگردد

ج) اثر Outlier بر Prophet (مدل فیس‌بوک)

Prophet نسبت به Level Shift مقاوم‌تر استاما نسبت به AO و IO حساس است.

مشکلات:

  • پرش یک‌نقطه‌ای در داده باعث spike ناگهانی در پیش‌بینی می‌شود
  • نیاز به استفاده از holidays یا extra regressors دارد

د) اثر Outlier بر مدل‌های یادگیری عمیق (LSTM / GRU / CNN)

Outlier باعث:

  • Gradient Explosion
  • ورود به نواحی اشباع
  • رفتار غیرقابل‌پیش‌بینی
  • کاهش پایداری آموزش

راهکار:

  • Robust Scaling
  • حذف یا Winsorize
  • Lossهای مقاوم (Huber Loss)

هـ) اثر Outlier در مدل‌های چندمتغیره (VAR، VECM)

  • Outlier در یکی از سری‌ها می‌تواند روابط کل سیستم را تخریب کند
  • باعث ایجاد همبستگی ساختگی یا پنهان کردن رابطه واقعی می‌شود
  • بر آزمون‌های علیت گرنجر اثر مستقیم می‌گذارد

 5.5 روش‌های تشخیص داده‌های پرت در سری‌های زمانی

به‌طور کلی، روش‌های تشخیص داده‌ی پرت در سری‌های زمانی را می‌توان به سه دسته‌ی اصلی تقسیم کرد: آماری، مبتنی بر مدل و مبتنی بر یادگیری ماشین/داده‌کاوی.

  5.5.1روش‌های آماری ساده

نمره‌ی Z و نمره‌ی Z مقاوم

استفاده از Z-score کلاسیک یا نسخه‌ی اصلاح‌شده‌ی آن بر اساس MAD. این روش‌ها معمولاً فرض می‌کنند داده‌ها (یا پسماندهای مدل) نرمال‌اند. در سری‌های زمانی، بهتر است به‌جای خود سری، روی پسماندهای مدل اعمال شوند.

نمودار جعبه‌ای (Boxplot)

شناسایی نقاط خارج از بازه‌ی  . Q1 – 1.5 IQR, Q3+1.5IQR این روش هم در اصل تک‌متغیره و بدون توجه به وابستگی زمانی است.

آزمون‌های Grubbs و Dixon

برای شناسایی یک یا دو نقطه‌ی دورافتاده طراحی شده‌اند؛ اما مثل روش‌های قبل، استقلال مشاهدات را فرض می‌کنند و در سری‌های زمانی باید با احتیاط و اغلب بر روی پسماندها استفاده شوند.

 5.5.2روش‌های مبتنی بر مدل

تحلیل پسماند

یک مدل سری زمانی )مثل ARIMA) روی داده‌ها برازش می‌دهیم، سپس پسماندها را بررسی می‌کنیم؛ پسماندهایی که از حد مشخصی فراتر می‌روند می‌توانند نشان‌دهنده‌ی داده‌ی پرت باشند.

تحلیل مداخله و مدل‌سازی صریح داده‌ی پرت

رویکرد Box & Tiao و توسعه‌ی آن توسط Chen & Liu  این است که انواع مختلف داده‌ی پرت (AO، IO، LS، TC) را به‌شکل متغیرهای مداخله در مدل ARIMA وارد کنیم و هم‌زمان نوع، زمان وقوع و بزرگی آن‌ها را تخمین بزنیم. الگوریتم‌های تکراری پیشنهادی، به‌طور سیستماتیک این نقاط را در سری شناسایی می‌کنند.

 5.5.3روش‌های یادگیری ماشین و داده‌کاوی

خوشه‌بندی و روش‌های مبتنی بر چگالی

الگوریتم‌هایی چون DBSCAN نقاطی را که در نواحی کم‌چگالی قرار دارند، به‌عنوان پرت تشخیص می‌دهند.

Isolation Forest

با تقسیم‌بندی تصادفی داده‌ها، نقاطی را که به‌صورت متوسط با عمق کمتر جدا می‌شوند (یعنی جداسازی آن‌ها آسان‌تر است) به‌عنوان ناهنجاری تشخیص می‌دهد.

ضریب پرت محلی (Local Outlier Factor – LOF)

چگالی محلی هر نقطه را با چگالی همسایگان نزدیکش مقایسه می‌کند؛ نقاطی که چگالی بسیار پایین‌تری دارند، پرت محسوب می‌شوند.

روش‌های مبتنی بر بازسازی (خودرمزگذارها و مشابه‌ها)

یک مدل (مثلاً Autoencoder) روی الگوی «طبیعی» سری آموزش داده می‌شود؛ نقاطی که خطای بازسازی بالایی دارند، به‌عنوان ناهنجاری در نظر گرفته می‌شوند. این رویکرد برای سری‌های زمانی پیچیده و با بعد بالا، به‌ویژه در ترکیب با LSTM و CNN، بسیار کاربرد دارد.

انتخاب روش مناسب، به ماهیت داده، نوع ناهنجاری مورد انتظار، حجم داده و هدف کاربردی (تشخیص برخط، تحلیل پسینی، توضیح‌پذیری و…) بستگی دارد.

 5.6 راهبردهای مدیریت داده‌های پرت در سری‌های زمانی

بعد از تشخیص، پرسش اصلی این است که «با این نقاط چه کنیم؟». راهبردهای اصلی عبارت‌اند از:

حذف (Deletion / Trimming)

  • ساده‌ترین کار، حذف مشاهدات پرت است؛ اما در سری‌های زمانی، این کار اغلب باعث ایجاد شکاف در توالی و از دست رفتن ساختار زمانی می‌شود.
  • فقط زمانی قابل توصیه است که تقریباً مطمئن باشیم مقدار ثبت‌شده خطای فاحش است (مثلاً خرابی سنسور) و بتوانیم آن را با درون‌یابی یا پیش‌بینی پوشش دهیم.

جایگزینی / انتساب مقدار (Replacement / Imputation)

  • روش‌های ساده: جایگزینی با میانه یا میانگین نقاط مجاور.
  • درون‌یابی: (Interpolation) درون‌یابی خطی، اسپلاین یا استفاده از پیش‌بینی مدل برای نقطه‌ی موردنظر.
  • انتساب مبتنی بر مدل: استفاده از مدل سری زمانی برازش‌شده برای پیش‌بینی مقدار «عادی» در آن زمان و جایگزینی آن با مقدار پرت.

تبدیل داده (Transformation)

  • تبدیل‌هایی مثل لگاریتم، جذر یا Box–Cox می‌توانند واریانس را تثبیت و فاصله‌ی ظاهری پرت‌ها از بقیه‌ی نقاط را کم کنند؛ هرچند خودِ ناهنجاری را حذف نمی‌کنند.

استفاده از روش‌های مقاوم

  • به‌جای دست‌کاری داده، از تخمین‌گرها و مدل‌هایی استفاده می‌شود که ذاتاً نسبت به داده‌های پرت حساسیت کم‌تری دارند؛
  • مانند M-estimatorها، مدل‌های ARIMA مبتنی بر توزیع‌های دم‌سنگین، یا روش‌های هموارسازی مقاوم مثل robust .

مدل‌سازی صریح داده‌های پرت

  • در تحلیل مداخله، خودِ داده‌ی پرت و اثر زمانی آن به‌عنوان بخشی از مدل در نظر گرفته می‌شود؛
  • این روش، اطلاعات موجود در داده‌ی پرت را حفظ می‌کند و معمولاً از نظر آماری دقیق‌ترین رویکرد است، به‌ویژه زمانی که رویدادهای نادر خود موضوع تحلیل هستند.

انتخاب راهبرد مناسب کاملاً وابسته به زمینه است:
آیا داده‌ی پرت خطاست یا سیگنال؟ آیا پیش‌بینی مهم‌تر است یا توضیح ساختار سری؟ حجم داده چقدر است؟ آیا امکان استفاده از روش‌های مقاوم وجود دارد؟

 5.7 چالش‌ها و ملاحظات ویژه در سری‌های زمانی

تحلیل داده‌های پرت در سری‌های زمانی با چند چالش کلاسیک مواجه است:

  • اثر پوشاندن (Masking)
    چند داده‌ی پرت نزدیک به هم می‌توانند یکدیگر را «پنهان» کنند و الگوریتم نتواند آن‌ها را به‌عنوان ناهنجاری تشخیص دهد .
  • اثر غرق کردن (Swamping)
    برعکس، وجود یک یا چند نقطه‌ی بسیار دورافتاده می‌تواند باعث شود نقاط نرمال مجاور، به اشتباه پرت تشخیص داده شوند .
  • ناایستایی (Non-stationarity)
    روندها و فصلیت‌ها می‌توانند به‌راحتی با داده‌های پرت اشتباه گرفته شوند. تمایز میان شکست ساختاری واقعی و یک رویداد موقتی، نیازمند مدل‌سازی دقیق و اغلب استفاده از دانش دامنه است.
  • سری‌های زمانی چندمتغیره
    ممکن است یک نقطه در هیچ بعدی به‌تنهایی افراطی نباشد، ولی در فضای چندبعدی یک ناهنجاری حقیقی باشد. این موضوع تشخیص را دشوارتر و نیازمند روش‌های چندمتغیره (مثلاً فاصله‌ی ماهالانوبیس مقاوم) می‌کند.
  • انتخاب آستانه
    تبدیل امتیاز ناهنجاری به برچسب پرت/نرمال همیشه نیازمند تعیین آستانه است؛ این آستانه، هم به ویژگی داده و هم به هزینه‌ی خطاهای نوع اول و دوم در کاربرد موردنظر وابسته است و نمی‌توان آن را کاملاً مکانیکی تعیین کرد.

5.8 روندها و جهت‌گیری‌های آینده در سری‌های زمانی

مسئله‌ی داده‌های پرت در سری‌های زمانی همچنان یک حوزه‌ی بسیار فعال تحقیقاتی است. برخی جهت‌گیری‌های مهم عبارت‌اند از:

  • به‌کارگیری گسترده‌ی یادگیری عمیق (RNN، LSTM، CNN، Transformer، Autoencoderها) برای تشخیص الگوهای پیچیده و ناهنجاری در سری‌های زمانی طولانی و با ابعاد بالا؛
  • توسعه‌ی الگوریتم‌های برخط (Online / Real-time) برای تشخیص ناهنجاری در جریان داده، به‌ویژه در کاربردهایی مانند نظارت صنعتی، امنیت سایبری و تشخیص تقلب؛
  • طراحی روش‌های ترکیبی که مزایای رویکردهای آماری، مدل‌محور و یادگیری ماشین را با هم تلفیق کنند؛
  • و نهایتاً، تمرکز روزافزون بر توضیح‌پذیری (XAI)، به‌گونه‌ای که سیستم نه‌فقط بگوید «این نقطه پرت است»، بلکه مشخص کند «به چه دلیل» و «کدام ویژگی‌ها» بیشترین نقش را داشته‌اند.

نتیجه‌گیری

داده‌های پرت در سری‌های زمانی به‌دلیل وابستگی مشاهدات به یکدیگر، رفتاری پیچیده‌تر از داده‌های مقطعی دارند و می‌توانند روند، سطح، فصلیت و ساختار سری را به‌طور جدی منحرف کنند. انواع مختلف Outlier مانند AO، IO، LS و TC هرکدام اثرات خاصی بر مسیر سری زمانی دارند و تشخیص تفاوت آن‌ها برای جلوگیری از گمراهی مدل‌ها اساسی است.

روش‌های تشخیص Outlier در سری زمانی—from تحلیل بصری و شاخص‌های آماری تا مدل‌های ARIMA و الگوریتم‌های یادگیری ماشین—هرکدام تنها بخشی از مسئله را حل می‌کنند. ترکیب این روش‌ها همراه با تحلیل پسماندها دقیق‌ترین تصویر را ارائه می‌دهد و کمک می‌کند مشخص شود یک نقطه واقعاً خطاست یا نشانه رویدادی مهم در فرآیند.

در نهایت، مدیریت Outlier باید بر اساس ماهیت داده و هدف تحلیل انجام شود: گاهی حذف یا اصلاح لازم است، و گاهی مدل‌سازی صریح آن بهترین راهکار است. آنچه اهمیت دارد این است که Outlierها تنها نویز نیستند؛ آن‌ها پیام‌هایی درباره رفتار واقعی سیستم‌اند، و تحلیل‌گر حرفه‌ای کسی است که بتواند این پیام‌ها را درست تفسیر کند.

آنچه می خوانید