cover

خوشه‌بندی مبتنی بر شبکه(Grid-Based Clustering)چیست؟

1.مقدمه

خوشه‌بندی مبتنی بر شبکه یا Grid-Based Clustering یکی از رویکردهای مهم در یادگیری بدون‌ناظر است که با هدف افزایش سرعت پردازش، کاهش پیچیدگی محاسباتی و مدیریت داده‌های حجیم و چندبعدی توسعه یافته است. در این رویکرد، برخلاف بسیاری از روش‌های کلاسیک خوشه‌بندی که مستقیماً با تک‌تک نقاط داده سروکار دارند، فضای داده ابتدا به مجموعه‌ای از سلول‌های منظم یا نیمه‌منظم تقسیم می‌شود. سپس عملیات خوشه‌بندی به‌جای سطح نقاط، در سطح سلول‌های شبکه انجام می‌گیرد.

ایده اصلی این روش آن است که نقاطی که در یک سلول گرید قرار می‌گیرند، از نظر آماری یا هندسی به‌عنوان یک واحد محلی در نظر گرفته شوند. بنابراین، الگوریتم به‌جای محاسبه مکرر فاصله میان همه نقاط، اطلاعات خلاصه‌شده هر سلول مانند تعداد نقاط، چگالی، میانگین، واریانس یا سایر شاخص‌های آماری را ذخیره و تحلیل می‌کند.

این ویژگی باعث می‌شود که در بسیاری از الگوریتم‌های شبکه‌محور، پیچیدگی زمانی خوشه‌بندی بیش از آنکه به تعداد کل نقاط داده n وابسته باشد، به تعداد سلول‌های شبکه وابسته شود. به همین دلیل، خوشه‌بندی مبتنی بر شبکه یکی از گزینه‌های بسیار مناسب برای تحلیل کلان‌داده‌ها، داده‌های مکانی، داده‌های چندبعدی، داده‌های تصویری، داده‌های جغرافیایی و پایگاه‌های داده بسیار بزرگ محسوب می‌شود.

در این رویکرد، فضای ویژگی‌ها به شکل زیر به سلول‌هایی گسسته تقسیم می‌شود:

G={g1,g2,…,gm}

که در آن:

  • G: کل ساختار شبکه یا گرید
  • gi​: یک سلول مشخص از شبکه
  • m: تعداد کل سلول‌های ایجادشده در فضای داده

سپس برای هر سلول، می‌توان چگالی را به‌صورت ساده زیر تعریف کرد:

که در آن:

  •  (gi) N: تعداد نقاط داده در سلول gi​
  •  (gi)V​ : حجم یا اندازه هندسی سلول
  •  (gi)  Density​: چگالی محلی سلول

در ادامه، سلول‌هایی که چگالی آن‌ها از یک آستانه مشخص بیشتر باشد، به‌عنوان سلول‌های متراکم شناخته می‌شوند و اتصال میان سلول‌های متراکم مجاور، خوشه‌های نهایی را شکل می‌دهد.

2. الگوریتم‌های خوشه‌بندی مبتنی بر شبکه

در ادبیات داده‌کاوی، الگوریتم‌های متعددی برای خوشه‌بندی مبتنی بر شبکه معرفی شده‌اند. برخی از آن‌ها مستقیماً مبتنی بر گرید هستند، برخی با خوشه‌بندی چگالی‌محور ترکیب شده‌اند و برخی دیگر برای داده‌های پُربُعد، زیرفضایی یا جریانی توسعه یافته‌اند.

در ادامه، مهم‌ترین الگوریتم‌های این خانواده معرفی می‌شوند.

فلسفه محاسباتی و مکانیزم عملکرد

این استراتژی با یک ایده انقلابی برای مهار پدیده محاسباتی سنگین نفرین ابعاد (Curse of Dimensionality) در فضاهای بزرگ خلق شد. در این دیدگاه، فضا به جای اسکن نقطه به نقطه، به مجموعه‌ای متناهی از سلول‌ها شبیه به یک جدول یا شبکه (Grid) خرد می‌شود. تمام داده‌های درون یک سلول گرید، عضو یک واحد آماری فرضی یکپارچه هستند؛ در نتیجه، پیچیدگی زمانی فرآیند کاملاً مستقل از تعداد نقاط داده (n) شده و صرفاً به تعداد سلول‌های گرید وابسته است که سرعت پردازش را به شدت بالا می‌برد.

2.۱. الگوریتم (Statistical Information Grid) STING

الگوریتم STING یکی از نخستین و شناخته‌شده‌ترین الگوریتم‌های خوشه‌بندی و تحلیل داده مبتنی بر شبکه است. این روش فضای داده را به سلول‌های مستطیلی در چند سطح سلسله‌مراتبی تقسیم می‌کند و برای هر سلول، اطلاعات آماری مانند تعداد نقاط، میانگین، واریانس، کمینه، بیشینه و نوع توزیع را ذخیره می‌نماید.

STING بیشتر برای داده‌های مکانی و پاسخ سریع به کوئری‌های ناحیه‌ای طراحی شده است. مزیت اصلی آن سرعت بسیار بالا در پردازش داده‌های بزرگ است، زیرا به‌جای بررسی مستقیم همه نقاط، از خلاصه‌های آماری سلول‌ها استفاده می‌کند.

این الگوریتم فضای ویژگی‌ها را به ساختاری چندلایه و سلولی تبدیل می‌کند تا فرآیند کلاسترینگ و پاسخ به کوئری‌ها به صورت آنی (Real-time) انجام شود. این متد روابط داده‌ها را در سطوح مختلف رزولوشن استخراج می‌کند.

گام‌های اجرایی

  1. ساخت گرید سلسله‌مراتب: فضای کل ویژگی‌ها به سلول‌های مستطیلی شکل سلسله‌مراتب در چندین سطح رزولوشن (از کلان به خُرد) تقسیم می‌شود. هر سلول در سطح بالاتر، به چندین سلول فرزند در سطح پایین‌تر تفکیک می‌شود.
  2. محاسبه پارامترهای پیش‌پردازش: پارامترهای آماری پایه‌ای هر سلول (مانند میانگین، انحراف معیار، تعداد نقاط و نوع توزیع) در گام پیش‌پردازش به صورت موازی محاسبه و ذخیره می‌شوند.
  3. فیلترینگ بالا به پایین (Query Processing): در زمان پردازش، یک کوئری از بالاترین سطح شبکه شروع شده و با استفاده از آزمون‌های آماری، سلول‌های مرتبط و پر چگال فیلتر می‌شوند.
  4. شکل‌دهی کلاستر نهایی: سلول‌های متراکم مجاور در پایین‌ترین سطح رزولوشن به یکدیگر متصل شده و توده‌های کلاستر را شکل می‌دهند.

تابع هدف ریاضی

ارزیابی احتمال مرتبط بودن هر سلول شبکه با استفاده از بازه‌های اطمینان آماری و واریانس درون‌سلولی:

معرفی متغیرها

  • n: تعداد نقاط داده واقع در یک سلول خاص.
  • m: میانگین عددی ویژگی‌های نقاط درون آن سلول گرید.
  • s: انحراف معیار داده‌های موجود در سلول.

مزایا و نقاط قوت

  • مستقل بودن فاز اصلی کلاسترینگ از تعداد کل نقاط داده دیتابیس.
  • سازگاری فوق‌العاده عالی با معماری پردازش‌های موازی و توزیع‌شده.

معایب و محدودیت‌ها

  • مرزهای خوشه‌ها همواره موازی با محورهای عمودی یا افقی شبکه گرید هستند و جزئیات هندسی مورب فدا می‌شوند.
  • کیفیت نهایی مدل به شدت به اندازه سلول‌ها در پایین‌ترین سطح رزولوشن وابسته است.

کاربردهای واقعی

  • تحلیل و مدیریت داده‌های مکانی مگا-سایز جغرافیایی و تصاویر ماهواره‌ای.
  • کلاسترینگ دیتابیس‌های چندبعدی در سیستم‌های الگوخوانی آنلاین و موتورهای جستجوی مکانی.

2.۲. الگوریتم WaveCluster

یک الگوریتم خوشه‌بندی مبتنی بر شبکه (Grid-Based) و چگالی‌محور بسیار پیشرفته است که از تئوری ریاضی تبدیل موجک (Wavelet Transformation) برای پردازش فضا استفاده می‌کند. در این روش، فضای داده ابتدا به شبکه‌ای از سلول‌ها تبدیل می‌شود و سپس تعداد نقاط هر سلول به‌عنوان مقدار یک سیگنال چندبعدی در نظر گرفته می‌شود.

این متد با تبدیل مجموعه‌داده به یک سیگنال چندبعدی، نویزها را فیلتر کرده و مرز کلاسترهای متراکم را در سطوح مختلف رزولوشن استخراج می‌نماید. با اعمال تبدیل موجک، نویزها و نوسانات محلی حذف شده و نواحی متراکم تقویت می‌شوند. این روش برای کشف خوشه‌های با شکل پیچیده، حذف نویز و تحلیل چندرزولوشنی بسیار مناسب است.

گام‌های اجرایی

  1. کوانتوم‌سازی فضا (گریدبندی): تقسیم فضای ویژگی‌ها به سلول‌های یک شبکه گرید متمایز و تخصیص نقاط داده به این سلول‌ها.
  2. شکل‌دهی سیگنال داده: شمارش تعداد نقاط درون هر سلول گرید؛ به طوری که کل ساختار شبکه به عنوان یک سیگنال دیجیتال چندبعدی با دامنه‌های متغیر تعریف می‌شود.
  3. اعمال تبدیل موجک: عبور دادن سیگنال حاصله از فیلترهای ریاضی تبدیل موجک (مانند فیلترهای بالاگذر و پایین‌گذر دابیشی یا کلاه مکزیکی). فیلتر پایین‌گذر بخش‌های متراکم (فرکانس‌های پایین/بدنه کلاستر) را تقویت و فیلتر بالاگذر نویزها و نقاط پرت (فرکانس‌های بالا) را به طور کامل حذف می‌کند.
  4. تشخیص جاذب‌ها و خوشه‌بندی: اتصال سلول‌های متراکم هم‌جوار که در فضای موجک جدید دارای پتانسیل چگالی بالایی هستند جهت شکل‌دهی کلاسترهای نهایی.

تابع هدف ریاضی

نگاشت سیگنال شبکه فضا (x) به فضای فرکانسی-مکانی با استفاده از دگرگونی و فیلترینگ توابع موجک گسسته (DWT)

مزایا و نقاط قوت

  • توانایی مطلق در حذف نویزها و داده‌های پرت به دلیل ماهیت فرکانسی فیلترهای بالاگذر موجک.
  • کشف دقیق خوشه‌هایی با اشکال هندسی بسیار پیچیده، مایل، توخالی و تودرتو بدون محدود شدن به مرزهای موازی شبکه.
  • عدم نیاز به تعیین پیش‌فرض تعداد خوشه‌ها توسط کاربر.

معایب و محدودیت‌ها

  • افت شدید کارایی و خطای محاسباتی در فضاهای بسیار چندبعدی (بیش از ۵ یا ۶ بعد) به دلیل افزایش تصاعدی تعداد سلول‌های گرید خالی.
  • حساسیت خروجی به تنظیم اندازه اولیه سلول‌های شبکه گرید و نوع تابع موجک انتخابی.

کاربردهای واقعی

  • پردازش تصاویر راداری و داده‌های حجیم عارضه‌نگاری ماهواره‌ای.
  • کلاسترینگ داده‌های نجومی کلان و الگوهای چندبعدی اینترنت اشیاء (IoT).

.

2.۳. الگوریتم CLIQUE

یک الگوریتم خوشه‌بندی مبتنی بر شبکه (Grid-Based) و چگالی‌محور پیشرفته است که منحصراً برای کشف خوشه‌ها در زیرفضاهای (Subspaces) مجموعه‌داده‌های بسیار چندبعدی (High-Dimensional Data) طراحی شده است. این الگوریتم با ترکیب ایده شبکه‌بندی فضا و تئوری قوانین انجمنی (Apriori)، مشکل پدیده محاسباتی سنگین بختک ابعاد را حل می‌کند.

CLIQUE از اصل Apriori استفاده می‌کند؛ یعنی اگر یک ناحیه در فضای k-بعدی متراکم باشد، تصویر آن در زیرفضاهای (k-1) −بعدی نیز باید متراکم باشد. این خاصیت باعث کاهش قابل توجه فضای جست‌وجو می‌شود.

گام‌های اجرایی

  1. شبکه‌بندی یک‌بعدی (فاز مبنا): ابتدا هر بعد یا ویژگی فضای مسئله به طور مستقل به تعداد مشخصی از فواصل مساوی (سلول) تقسیم شده و سلول‌های متراکم یک‌بعدی شناسایی می‌شوند.
  2. کاهش ابعاد و صعود لایه‌ای (Apriori-like): بر اساس تئوری آپریوری، کلاسترهای متراکم k-بعدی تنها در صورتی می‌توانند وجود داشته باشند که زیرفضاهای (k-1)-بعدی آن‌ها نیز متراکم باشند. الگوریتم با این استراتژی، گام‌به‌گام فضای سلول‌های متراکم را به ابعاد بالاتر توسعه می‌دهد.
  3. شناسایی کلاسترهای زیرفضا: سلول‌های متراکم به هم چسبیده و هم‌جوار در زیرفضاهای نهایی شناسایی شده و به عنوان کلاسترهای فرعی علامت‌گذاری می‌شوند.
  4. تولید عبارات منطقی (Minimal Cover): الگوریتم در نهایت برای هر خوشه کشف‌شده، یک برچسب یا فرمول منطقی خلاصه شده تولید می‌کند تا مرزهای دقیق آن را در زیرفضاهای مختلف توصیف کند.

تابع هدف ریاضی

شناسایی لایه‌ای سلول‌های متراکم چندبعدی (Dk) بر پایه تقاطع سلول‌های متراکم ابعاد پایین‌تر بر اساس تئوری مونوتونیک (Monotonicity property)

مزایا و نقاط قوت

  • توانایی فوق‌العاده و بی‌رقیب در کشف خوشه‌های پنهان در زیرفضاهای مختلف دیتابیس، بدون وابستگی به کل ابعاد فضا.
  • تولید خودکار توصیف منطقی و متنی ساده برای مرزهای هر خوشه که تفسیر خروجی را بسیار آسان می‌کند.
  • مقیاس‌پذیری خطی نسبت به حجم داده‌ها (O(n)).

معایب و محدودیت‌ها

  • افزایش تصاعدی و سنگین بار محاسباتی و زمانی با افزایش تعداد ابعاد مبنایی فضا در صورت پایین بودن آستانه چگالی .
  • کیفیت و دقت کلاسترینگ به شدت به تنظیم هم‌زمان دو هایپرپارامتر حساس  xi و  tau وابسته است.

کاربردهای واقعی

  • داده‌کاوی دیتابیس‌های بسیار چندبعدی پزشکی (مانند ابعاد بیوانفورماتیک و ژنتیک).
  • تحلیل رفتارهای چندبعدی مشتریان در بازارهای کلان مالی و کشف کلاسترهای پنهان تراکنشی.

.

2.۴. الگوریتم OptiGrid

یک الگوریتم خوشه‌بندی پیشرفته مبتنی بر شبکه (Grid-Based) است که برای حل ضعف ساختاری روش‌های سنتی (مانند STING و CLIQUE) در مواجهه با داده‌های چندبعدی ناشی از برش‌های صلب و یکنواخت فضا مهندسی شده است. این متد با ترکیب مفاهیم شبکه و تکنیک‌های پیشرفته کاهش ابعاد، صفحات برش خود را دقیقاً بر روی نواحی با کمترین چگالی (دره‌ها) در فضای چندبعدی قرار می‌دهد تا کلاسترها را با کمترین خطا تفکیک کند.

گام‌های اجرایی

  1. تصویرسازی هندسی (Projection): انتقال و نگاشت نقاط داده بر روی مجموعه‌ای از محورها یا زیرفضاهای بهینه با استفاده از تکنیک‌های ریاضی(مانند تحلیل مؤلفه‌های اصلی PCA –).
  2. محاسبه توابع چگالی زیرفضا: محاسبه توابع تخمین چگالی برای تک‌تک محورهای تصویرشده جهت استخراج توزیع آماری قله‌ها و دره‌ها.
  3. تعیین صفحات برش بهینه (Optimal Cuts): شناسایی دره‌ها (نواحی با چگالی نزدیک به صفر) بر روی هر محور. صفحاتی که از این دره‌ها می‌گذرند به عنوان خطوط جداکننده بهینه انتخاب می‌شوند.
  4. افرازبندی چندبعدی فضا: خرد کردن فضای بزرگ ویژگی‌ها به سلول‌های ناهمگون شبکه بر اساس صفحات برش بهینه انتخاب‌شده.
  5. شکل‌دهی و اتصال کلاسترها: شناسایی سلول‌های متراکم مجاور و ترکیب آن‌ها برای تولید خوشه‌های نهایی و تفکیک داده‌های پرت به عنوان نویز.

تابع هدف ریاضی

بیشینه‌سازی امتیاز کیفیت صفحات برش (P) از طریق یافتن نقاط کمترین چگالی محلی (دره‌ها) بر روی محورهای تصویرشده فضا:

مزایا و نقاط قوت

  • مقاومت عالی در برابر داده‌های پرت و نویزها به دلیل عدم تأثیرگذاری آن‌ها بر مکان صفحات برش بهینه.
  • سرعت و کارایی محاسباتی بسیار بالا در ابعاد بزرگ.

معایب و محدودیت‌ها

  • کیفیت نهایی کلاسترینگ به شدت وابسته به فاز اول یعنی کیفیت تصویرسازی هندسی و یافتن محورهای بهینه زیرفضا است.
  • در صورت عدم وجود دره‌های چگالی واضح در توزیع آماری داده‌ها، الگوریتم در یافتن صفحات برش دچار خطا می‌شود.

کاربردهای واقعی

  • داده‌کاوی دیتابیس‌های چندبعدی تصویربرداری‌های پزشکی و سیگنال‌های حیاتی پیچیده.
  • بخش‌بندی بازارهای مالی و خوشه‌بندی سبد دارایی‌ها با ویژگی‌های چندگانه ساختارنیافته.

.

3.کاربردهای خوشه‌بندی مبتنی بر شبکه

خوشه‌بندی مبتنی بر شبکه به دلیل سرعت بالا، قابلیت خلاصه‌سازی داده‌ها و سازگاری با داده‌های بزرگ، در حوزه‌های متنوعی کاربرد دارد. مهم‌ترین کاربردهای این نوع خوشه‌بندی عبارت‌اند از:

3.1. تحلیل داده‌های مکانی و جغرافیایی

یکی از مهم‌ترین کاربردهای Grid-Based Clustering در تحلیل داده‌های مکانی است. داده‌های مکانی معمولاً شامل حجم عظیمی از مختصات جغرافیایی، نقاط GPS، داده‌های سنجش از دور، تصاویر ماهواره‌ای و داده‌های سیستم‌های اطلاعات جغرافیایی هستند.

در چنین مسائلی، تقسیم فضا به سلول‌های شبکه‌ای باعث می‌شود بتوان نواحی پرتراکم، مناطق داغ، الگوهای فضایی و خوشه‌های جغرافیایی را با سرعت بالا شناسایی کرد.

نمونه کاربردها:

  • شناسایی مناطق پرتردد شهری
  • تحلیل تراکم جمعیت
  • کشف نقاط داغ تصادفات جاده‌ای
  • تحلیل پراکندگی بیماری‌ها در جغرافیای شهری
  • خوشه‌بندی داده‌های GPS خودروها و کاربران موبایل

.

3.2. پردازش تصاویر و داده‌های ماهواره‌ای

در پردازش تصویر، هر تصویر را می‌توان به شبکه‌ای از پیکسل‌ها یا بلوک‌های مکانی تقسیم کرد. روش‌های مبتنی بر شبکه می‌توانند برای بخش‌بندی تصویر، تشخیص الگو، حذف نویز و استخراج نواحی مشابه به کار روند.

به‌ویژه الگوریتم‌هایی مانند WaveCluster که از تبدیل موجک استفاده می‌کنند، در تحلیل تصاویر ماهواره‌ای، راداری و پزشکی بسیار کاربردی هستند.

نمونه کاربردها:

  • بخش‌بندی تصاویر پزشکی
  • تحلیل تصاویر راداری
  • خوشه‌بندی بافت‌های تصویری
  • تشخیص نواحی غیرعادی در تصاویر ماهواره‌ای
  • تحلیل داده‌های سنجش از دور

.

3.3 خوشه‌بندی داده‌های چندبعدی و زیرفضایی

در داده‌های بسیار چندبعدی، بسیاری از خوشه‌ها ممکن است فقط در برخی از ابعاد قابل مشاهده باشند، نه در کل فضای ویژگی‌ها. الگوریتم‌هایی مانند CLIQUE برای همین مسئله طراحی شده‌اند و می‌توانند خوشه‌های پنهان را در زیرفضاهای مختلف کشف کنند.

نمونه کاربردها:

  • داده‌های ژنتیکی و بیوانفورماتیک
  • تحلیل رفتار مشتریان با ویژگی‌های متعدد
  • داده‌های پزشکی چندمتغیره
  • داده‌های مالی چندبعدی

.

3.4. داده‌کاوی در پایگاه‌های داده بسیار بزرگ

در پایگاه‌های داده عظیم، محاسبه فاصله میان همه نقاط یا اجرای الگوریتم‌های تکراری سنگین ممکن است بسیار پرهزینه باشد. روش‌های مبتنی بر شبکه با خلاصه‌سازی داده‌ها در سطح سلول‌ها، امکان پردازش سریع و مقیاس‌پذیر را فراهم می‌کنند.

نمونه کاربردها:

  • تحلیل تراکنش‌های بانکی
  • خوشه‌بندی لاگ‌های وب
  • تحلیل داده‌های فروشگاه‌های آنلاین
  • کشف الگوهای رفتاری کاربران
  • تحلیل داده‌های عملیاتی سازمانی

.

3.5. تحلیل داده‌های جریانی و اینترنت اشیا

در داده‌های جریانی، داده‌ها به‌صورت پیوسته وارد سیستم می‌شوند و ذخیره‌سازی یا پردازش کامل آن‌ها دشوار است. برخی روش‌های شبکه‌محور مانند D-Stream برای خوشه‌بندی داده‌های جریانی طراحی شده‌اند و با به‌روزرسانی چگالی سلول‌ها در طول زمان، تغییرات ساختار داده را دنبال می‌کنند.

نمونه کاربردها:

  • پایش حسگرهای صنعتی
  • تحلیل داده‌های اینترنت اشیا
  • تشخیص ناهنجاری در شبکه‌ها
  • تحلیل ترافیک شهری به‌صورت بلادرنگ
  • پایش سامانه‌های حمل‌ونقل هوشمند

.

3.6. تشخیص ناهنجاری و نقاط پرت

در روش‌های Grid-Based، سلول‌هایی که تراکم بسیار کمی دارند یا در همسایگی نواحی پرتراکم قرار ندارند، می‌توانند به‌عنوان نواحی مشکوک یا نویزی شناسایی شوند. این ویژگی برای تشخیص داده‌های پرت بسیار مفید است.

نمونه کاربردها:

  • تشخیص تقلب مالی
  • شناسایی رخدادهای غیرعادی در شبکه
  • تشخیص رفتارهای غیرمعمول کاربران
  • پایش خطا در حسگرها
  • کنترل کیفیت صنعتی

.

4.مزایای خوشه‌بندی مبتنی بر شبکه

خوشه‌بندی مبتنی بر شبکه دارای مجموعه‌ای از مزایای مهم است که آن را برای بسیاری از مسائل داده‌کاوی و یادگیری ماشین کاربردی می‌سازد.

4.1. سرعت پردازش بسیار بالا

مهم‌ترین مزیت این رویکرد، کاهش وابستگی مستقیم الگوریتم به تعداد نقاط داده است. پس از تبدیل داده‌ها به سلول‌های شبکه، پردازش اصلی روی سلول‌ها انجام می‌شود، نه روی تک‌تک نمونه‌ها.

در حالت کلی، اگر تعداد سلول‌ها برابر با m و تعداد نقاط برابر با n باشد، بسیاری از عملیات‌ها می‌توانند به‌جای وابستگی شدید به n، به ساختار شبکه وابسته شوند:

Complexity≈O(m)

البته در مرحله تخصیص نقاط به سلول‌ها معمولاً هزینه‌ای متناسب با    O(n) وجود دارد، اما پس از آن، تحلیل ساختاری روی فضای خلاصه‌شده انجام می‌شود.

4.2. مناسب برای کلان‌داده‌ها

از آنجا که داده‌ها در سطح سلول‌های گرید خلاصه می‌شوند، این روش‌ها برای مجموعه‌داده‌های بسیار بزرگ بسیار مناسب هستند. ذخیره اطلاعاتی مانند تعداد نقاط، میانگین، واریانس یا چگالی هر سلول می‌تواند حجم محاسبات را به‌شدت کاهش دهد.

4.3. قابلیت اجرای موازی و توزیع‌شده

تقسیم فضا به سلول‌های مستقل، امکان پردازش موازی را به‌صورت طبیعی فراهم می‌کند. هر سلول یا مجموعه‌ای از سلول‌ها می‌تواند به‌صورت مستقل روی پردازنده‌های مختلف، گره‌های محاسباتی یا محیط‌های توزیع‌شده پردازش شود.

این ویژگی باعث می‌شود Grid-Based Clustering برای چارچوب‌هایی مانند:

  • MapReduce
  • Apache Spark
  • پردازش GPU
  • سامانه‌های توزیع‌شده مکانی

بسیار مناسب باشد.

4.4.عدم نیاز به محاسبه کامل ماتریس فاصله

در بسیاری از روش‌های خوشه‌بندی، محاسبه فاصله میان همه نقاط یکی از پرهزینه‌ترین مراحل است. در مقابل، روش‌های شبکه‌محور معمولاً به محاسبه کامل ماتریس فاصله نیاز ندارند و بیشتر بر موقعیت نقاط در سلول‌ها، چگالی سلول‌ها و مجاورت شبکه‌ای تکیه می‌کنند.

4.5.توانایی شناسایی خوشه‌های با شکل دلخواه

برخی الگوریتم‌های شبکه‌محور، به‌ویژه روش‌هایی که با چگالی یا موجک ترکیب می‌شوند، می‌توانند خوشه‌هایی با شکل‌های غیرکروی، نامنظم، توخالی یا پیچیده را شناسایی کنند. برای مثال، WaveCluster در شناسایی ساختارهای هندسی پیچیده عملکرد مطلوبی دارد.

4.6.مناسب برای تحلیل چندرزولوشنی

در الگوریتم‌هایی مانند STING و WaveCluster، امکان بررسی داده‌ها در چند سطح رزولوشن وجود دارد. این قابلیت اجازه می‌دهد ساختارهای کلی در سطح درشت و جزئیات محلی در سطح ریزتر تحلیل شوند.

4.7. قابلیت خلاصه‌سازی آماری داده‌ها

در این روش، هر سلول می‌تواند مجموعه‌ای از شاخص‌های آماری را نگهداری کند؛ مانند:

که در آن:

  • Ni​: تعداد نقاط سلول
  • μi ​: میانگین نقاط در سلول
  • σi ​: انحراف معیار
  • mini​: کمینه مقدار
  • maxi​: بیشینه مقدار

این خلاصه‌سازی آماری برای پاسخ به کوئری‌ها، تحلیل سریع و پردازش بلادرنگ بسیار سودمند است.

.

5.معایب و محدودیت‌های خوشه‌بندی مبتنی بر شبکه

با وجود مزایای قابل توجه، خوشه‌بندی مبتنی بر شبکه محدودیت‌هایی نیز دارد که باید در طراحی و استفاده از آن مورد توجه قرار گیرد.

5.1. حساسیت به اندازه سلول‌ها

یکی از مهم‌ترین چالش‌های این روش، انتخاب اندازه مناسب سلول‌ها یا تعداد تقسیمات در هر بعد است. اگر سلول‌ها بیش از حد بزرگ باشند، جزئیات محلی داده از بین می‌رود و چند خوشه متمایز ممکن است در یک سلول ادغام شوند. اگر سلول‌ها بیش از حد کوچک باشند، تعداد سلول‌های خالی یا کم‌تراکم افزایش می‌یابد و هزینه محاسباتی بالا می‌رود.

به بیان ساده:

  • سلول بزرگ: کاهش دقت، ادغام خوشه‌ها
  • سلول کوچک: افزایش هزینه، پراکندگی بیش از حد، حساسیت به نویز

5.2.مشکل رشد نمایی تعداد سلول‌ها در ابعاد بالا

اگر هر بعد به q بازه تقسیم شود و تعداد ابعاد برابر با d باشد، تعداد کل سلول‌های بالقوه برابر است با:

m = q^d

این رابطه نشان می‌دهد که با افزایش تعداد ابعاد، تعداد سلول‌ها به‌صورت نمایی رشد می‌کند. بنابراین، اگرچه روش‌های Grid-Based برای داده‌های بزرگ مناسب‌اند، اما در فضاهای بسیار پُربُعد ممکن است با مشکل انفجار تعداد سلول‌ها مواجه شوند.

5.3.وابستگی به ساختار محورهای مختصات

در بسیاری از روش‌های شبکه‌محور کلاسیک، مرزهای سلول‌ها موازی محورهای مختصات هستند. این مسئله ممکن است باعث شود خوشه‌هایی که جهت‌گیری مورب، منحنی یا غیرهم‌راستا با محورها دارند، به‌خوبی نمایش داده نشوند.

5.4. کاهش دقت در مرز خوشه‌ها

از آنجا که داده‌ها در سطح سلول خلاصه می‌شوند، اطلاعات دقیق مربوط به موقعیت تک‌تک نقاط ممکن است از بین برود. این موضوع به‌ویژه در مرز میان خوشه‌ها اهمیت دارد، زیرا نقاط نزدیک به مرز ممکن است به‌اشتباه در یک سلول مشترک قرار گیرند یا به خوشه نامناسب نسبت داده شوند.

5.5. نیاز به تنظیم هایپرپارامترها

بسیاری از الگوریتم‌های این خانواده به پارامترهایی مانند موارد زیر وابسته‌اند:

  • تعداد تقسیمات هر بعد
  • اندازه سلول
  • آستانه چگالی
  • سطح رزولوشن
  • نوع تابع موجک
  • مقدار آستانه تراکم
  • تعداد سطوح سلسله‌مراتبی

انتخاب نامناسب این پارامترها می‌تواند کیفیت خوشه‌بندی را به‌شدت تحت تأثیر قرار دهد.

5.6. دشواری در داده‌های با توزیع بسیار نامتوازن

اگر داده‌ها دارای چگالی‌های بسیار متفاوت باشند، یک گرید یکنواخت ممکن است برای همه نواحی مناسب نباشد. در چنین شرایطی، برخی نواحی بیش از حد فشرده و برخی بیش از حد پراکنده نمایش داده می‌شوند. روش‌هایی مانند OptiGrid یا گریدهای تطبیقی برای کاهش این مشکل طراحی شده‌اند.

.

6.نوآوری‌های جدید در خوشه‌بندی مبتنی بر شبکه(Grid-Based Clustering)

خوشه‌بندی مبتنی بر شبکه یا Grid-Based Clustering یکی از رویکردهای مهم در داده‌کاوی و یادگیری بدون‌ناظر است که به‌جای تحلیل مستقیم تک‌تک نقاط داده، فضای ویژگی را به مجموعه‌ای از سلول‌ها یا نواحی گسسته تقسیم می‌کند. سپس خوشه‌ها بر اساس ویژگی‌هایی مانند چگالی، پیوستگی، آمار محلی یا شباهت میان سلول‌ها شناسایی می‌شوند. این رویکرد از ابتدا با هدف افزایش سرعت و مقیاس‌پذیری طراحی شد و در الگوریتم‌هایی مانند STING، WaveCluster، CLIQUE، OptiGrid، MAFIA، ENCLUS و D-Stream توسعه یافت.

با رشد داده‌های عظیم، داده‌های جریانی، داده‌های مکانی ـ زمانی، داده‌های چندمنبعی و داده‌های دارای ابعاد بالا، خوشه‌بندی مبتنی بر شبکه نیز از یک روش ساده تقسیم فضا به سلول‌های ثابت، به چارچوبی انعطاف‌پذیر برای تحلیل داده‌های پیچیده تبدیل شده است. نوآوری‌های جدید این حوزه عمدتاً بر شبکه‌های تطبیقی، پردازش جریانی، مقیاس‌پذیری، یادگیری عمیق، کاهش اثر ابعاد بالا، مدل‌سازی عدم قطعیت، حفظ حریم خصوصی و تفسیرپذیری متمرکز هستند.

.

6.1. شبکه‌های تطبیقی و چندرزولوشنی(Adaptive and Multi-Resolution Grids)

در روش‌های کلاسیک، فضای داده معمولاً به سلول‌هایی با اندازه ثابت تقسیم می‌شود. این کار ساده و سریع است، اما برای داده‌هایی با چگالی نامتوازن مناسب نیست. در بسیاری از مسائل واقعی، بخشی از فضا بسیار پرتراکم و بخشی دیگر بسیار خلوت است. اگر اندازه سلول‌ها بزرگ باشد، ساختارهای محلی از بین می‌روند؛ و اگر اندازه سلول‌ها بسیار کوچک باشد، تعداد زیادی سلول خالی یا کم‌اهمیت ایجاد می‌شود.

در نوآوری‌های جدید، از شبکه‌های تطبیقی استفاده می‌شود. در این روش‌ها، سلول‌ها در نواحی پرتراکم کوچک‌تر و در نواحی کم‌چگال بزرگ‌تر انتخاب می‌شوند. این ایده باعث می‌شود الگوریتم هم دقت محلی بالاتری داشته باشد و هم از افزایش غیرضروری تعداد سلول‌ها جلوگیری کند.

به‌صورت مفهومی، اگر چگالی یک سلول از آستانه مشخصی بیشتر شود، آن سلول به زیرسلول‌های کوچک‌تر تقسیم می‌شود:

و اگر چگالی چند سلول مجاور پایین باشد، می‌توان آن‌ها را ادغام کرد:

در اینجا gi​ یک سلول شبکه، τ آستانه تقسیم و Ƞ  آستانه ادغام است.

این نوآوری برای داده‌های مکانی، تصاویر پزشکی، داده‌های ماهواره‌ای، تحلیل ترافیک شهری و خوشه‌بندی نقاط GPS بسیار ارزشمند است؛ زیرا در این مسائل، تراکم داده‌ها معمولاً در بخش‌های مختلف فضا یکسان نیست.

.

6.2.خوشه‌بندی شبکه‌محور برای داده‌های جریانی(Grid-Based Clustering for Data Streams)

یکی از مهم‌ترین جهت‌گیری‌های جدید در این حوزه، استفاده از گرید برای تحلیل داده‌های جریانی است. در بسیاری از سامانه‌های مدرن، داده‌ها به‌صورت پیوسته تولید می‌شوند؛ مانند داده‌های حسگرهای اینترنت اشیا، تراکنش‌های مالی، لاگ‌های شبکه، موقعیت مکانی خودروها و رفتار کاربران در وب.

در چنین شرایطی، الگوریتم خوشه‌بندی نمی‌تواند همه داده‌ها را ذخیره و چندین بار پردازش کند. بنابراین، روش‌های جدید تلاش می‌کنند با ذخیره خلاصه آماری سلول‌ها، خوشه‌ها را به‌صورت برخط به‌روزرسانی کنند.

در این روش‌ها، چگالی هر سلول معمولاً وابسته به زمان تعریف می‌شود:

که در آن D(g,t) چگالی سلول g در زمان t، ti​ زمان ورود داده xi​، و λ ضریب کاهش زمانی است. مقدار λ بین صفر و یک قرار دارد و باعث می‌شود اثر داده‌های قدیمی به‌تدریج کاهش یابد.

این ایده امکان تشخیص خوشه‌های در حال ظهور، خوشه‌های منقرض‌شده، تغییر مفهوم یا Concept Drift و الگوهای زمانی را فراهم می‌کند. الگوریتم‌هایی مانند D-Stream نمونه‌ای مهم از این جهت‌گیری هستند.

.

6.3. گریدهای پراکنده برای داده‌های پُربُعد(Sparse Grids for High-Dimensional Data)

یکی از چالش‌های اصلی خوشه‌بندی مبتنی بر شبکه، رشد نمایی تعداد سلول‌ها با افزایش ابعاد است. اگر هر بعد به q بازه تقسیم شود و تعداد ابعاد برابر d باشد، تعداد سلول‌های بالقوه برابر خواهد بود با:

این مسئله باعث می‌شود استفاده مستقیم از گرید در داده‌های پُربُعد بسیار پرهزینه شود.

نوآوری‌های جدید برای حل این مشکل از گریدهای پراکنده استفاده می‌کنند. در این روش، به‌جای ذخیره همه سلول‌های ممکن، فقط سلول‌هایی نگهداری می‌شوند که واقعاً حاوی داده یا دارای چگالی معنادار هستند:

که در آن Gactive​ مجموعه سلول‌های فعال و (gi) N​ تعداد نقاط داخل سلول است.

این ایده در کنار روش‌هایی مانند انتخاب ویژگی، کاهش بُعد، projection تصادفی، PCA، UMAP و autoencoderها می‌تواند خوشه‌بندی شبکه‌محور را برای داده‌های ژنتیکی، متنی، مالی، رفتاری و embeddingهای مدل‌های یادگیری عمیق مناسب‌تر کند.

.

6.4.ترکیب با یادگیری عمیق(Deep Grid-Based Clustering)

در داده‌هایی مانند تصویر، متن، صوت و داده‌های زیستی، فضای خام ویژگی‌ها معمولاً برای گریدبندی مناسب نیست. برای مثال، فاصله اقلیدسی میان پیکسل‌های خام تصویر لزوماً نشان‌دهنده شباهت معنایی تصاویر نیست. به همین دلیل، یکی از نوآوری‌های جدید، ترکیب Grid-Based Clustering با یادگیری عمیق است.

در این رویکرد، ابتدا یک مدل عصبی مانند autoencoder، شبکه کانولوشنی، Transformer یا مدل embedding، داده خام را به فضای نهفته منتقل می‌کند:

که در آن xi​ داده خام، fθ ​ مدل یادگیری عمیق و zi​ نمایش نهفته داده است. سپس گریدبندی و خوشه‌بندی در فضای z انجام می‌شود، نه در فضای خام x.

این کار چند مزیت مهم دارد:

  • کاهش اثر نویز و ابعاد بالا؛
  • افزایش معنایی بودن فاصله‌ها؛
  • بهبود کیفیت خوشه‌ها؛
  • امکان تحلیل داده‌های پیچیده مانند تصویر و متن؛
  • ترکیب با یادگیری خودنظارتی و contrastive learning.

این رویکرد به‌ویژه در خوشه‌بندی تصاویر پزشکی، گروه‌بندی اسناد، تحلیل کاربران، داده‌های چندرسانه‌ای و داده‌های زیستی اهمیت دارد.

.

6.5.خوشه‌بندی شبکه‌محور خودنظارتی و تقابلی(Self-Supervised and Contrastive Grid Clustering)

در بسیاری از مسائل واقعی، داده برچسب‌دار کافی وجود ندارد. یادگیری خودنظارتی این امکان را فراهم می‌کند که مدل بدون برچسب انسانی، نمایش‌های مفید و ساختارمند از داده یاد بگیرد. سپس می‌توان گرید را در این فضای آموخته‌شده ساخت.

در یادگیری تقابلی، نمونه‌های مشابه به هم نزدیک و نمونه‌های نامشابه از هم دور می‌شوند. تابع هدف رایج در این حوزه به‌صورت زیر قابل نمایش است:

در این رابطه، zi​ نمایش نمونه اصلی، +^zi​ نمایش مثبت از همان نمونه، sim تابع شباهت و τ پارامتر دما است.

پس از یادگیری نمایش، خوشه‌بندی مبتنی بر شبکه در فضای embedding انجام می‌شود. در نتیجه، سلول‌های گرید نه‌تنها نواحی هندسی، بلکه نواحی معنایی را نمایش می‌دهند. این ایده برای داده‌های عظیم بدون برچسب، مانند تصاویر، متن‌های وب، سیگنال‌ها و داده‌های کاربران بسیار کاربردی است.

.

6.6.خوشه‌بندی شبکه‌محور مکانی ـ زمانی(Spatio-Temporal Grid-Based Clustering)

بخش مهمی از داده‌های مدرن دارای دو جنبه هم‌زمان مکان و زمان هستند. داده‌های GPS، ترافیک شهری، رخدادهای شبکه، داده‌های هواشناسی، انتشار بیماری‌ها و رویدادهای اجتماعی نمونه‌هایی از این نوع داده‌اند.

در خوشه‌بندی شبکه‌محور مکانی ـ زمانی، سلول‌ها فقط در فضای مکانی تعریف نمی‌شوند، بلکه زمان نیز به‌عنوان یک بعد مهم وارد مدل می‌شود:

در این حالت، هر سلول یک ناحیه مکانی و یک بازه زمانی مشخص را نمایش می‌دهد. چگالی سلول نیز می‌تواند به‌صورت زیر تعریف شود:

که در آن (gi) Nتعداد رخدادها، (gi) Vspaceحجم یا مساحت مکانی و  Δti​ طول بازه زمانی است.

این رویکرد برای کشف نقاط داغ پویا، تحلیل ترافیک، پایش بیماری‌ها، تحلیل زلزله، ردیابی جمعیت و پیش‌بینی الگوهای مکانی ـ زمانی بسیار مفید است.

.

6.7.ترکیب گرید با گراف و شبکه‌های همسایگی(Graph-Enhanced Grid-Based Clustering)

در روش‌های کلاسیک، همسایگی سلول‌ها معمولاً بر اساس مجاورت هندسی تعریف می‌شود. اما در بسیاری از مسائل واقعی، ارتباط میان نواحی صرفاً بر اساس فاصله مکانی نیست. برای مثال، در یک شهر، دو منطقه ممکن است از نظر جغرافیایی نزدیک باشند، اما به دلیل ساختار خیابان‌ها یا موانع طبیعی ارتباط کمی داشته باشند.

در نوآوری‌های جدید، سلول‌های گرید به‌عنوان گره‌های یک گراف در نظر گرفته می‌شوند:

که در آن V مجموعه سلول‌های فعال، E یال‌های میان سلول‌ها و W وزن ارتباطات است. وزن یال‌ها می‌تواند بر اساس فاصله، جریان، شباهت، هم‌رخدادی یا شدت تعامل تعریف شود.

چگالی گرافی یک سلول را می‌توان به‌صورت زیر بیان کرد:

این ترکیب باعث می‌شود خوشه‌بندی شبکه‌محور بتواند ساختارهای پیچیده‌تر را مدل کند. کاربردهای مهم آن شامل تحلیل ترافیک شهری، شبکه‌های اجتماعی مکانی، شبکه‌های حسگر، گراف‌های دانش مکانی و سامانه‌های حمل‌ونقل است.

.

6.8. خوشه‌بندی شبکه‌محور مقاوم به نویز و داده پرت(Robust Grid-Based Clustering)

اگرچه Grid-Based Clustering به دلیل خلاصه‌سازی داده‌ها تا حدی نسبت به نویز مقاوم است، اما در داده‌های واقعی، نویز می‌تواند باعث ایجاد سلول‌های پرتراکم کاذب یا اختلال در مرز خوشه‌ها شود. بنابراین، یکی از نوآوری‌های مهم، طراحی روش‌های مقاوم‌تر برای محاسبه چگالی و تشخیص سلول‌های معتبر است.

در روش‌های جدید، به‌جای شمارش ساده نقاط، می‌توان از چگالی وزن‌دار استفاده کرد:

که در آن wj​ وزن اطمینان یا اعتبار نقطه xj​ است. نقاط مشکوک به نویز وزن کمتری می‌گیرند و تأثیر آن‌ها در تشکیل خوشه کاهش می‌یابد.

همچنین می‌توان از روش‌هایی مانند فیلتر موجک، تحلیل پایداری چندرزولوشنی، تشخیص ناهنجاری، حذف سلول‌های کم‌پایداری و تخمین چگالی مقاوم استفاده کرد.

این نوآوری برای داده‌های GPS نویزی، حسگرهای صنعتی، داده‌های پزشکی، امنیت سایبری و تشخیص تقلب کاربرد دارد.

.

6.9.خوشه‌بندی شبکه‌محور مبتنی بر عدم قطعیت(Uncertainty-Aware Grid-Based Clustering)

در بسیاری از سامانه‌ها، مقدار یا موقعیت داده‌ها قطعی نیست. برای مثال، موقعیت GPS دارای خطای اندازه‌گیری است، داده‌های حسگرها نویزی‌اند و برخی داده‌های پزشکی با عدم قطعیت همراه هستند. در این شرایط، اختصاص سخت هر نقطه به یک سلول ممکن است باعث خطا شود.

در روش‌های جدید، هر داده می‌تواند به‌جای یک نقطه قطعی، به‌صورت یک توزیع احتمالی مدل شود. بنابراین، احتمال تعلق داده به سلول‌های مختلف محاسبه می‌شود:

و چگالی احتمالی سلول به‌صورت زیر تعریف می‌شود:

این رویکرد باعث می‌شود نتایج خوشه‌بندی پایدارتر، واقع‌بینانه‌تر و همراه با سطح اطمینان باشند. کاربردهای آن در رباتیک، مکان‌یابی موبایل، نقشه‌برداری، داده‌های سنسوری، پزشکی و تحلیل رویدادهای جغرافیایی بسیار قابل توجه است.

.

6.10.خوشه‌بندی شبکه‌محور چندنمایی و چندمنبعی(Multi-View and Multi-Source Grid-Based Clustering)

داده‌های واقعی اغلب از چند منبع یا چند نوع ویژگی تشکیل می‌شوند. برای مثال، در تحلیل بیماران ممکن است داده‌های آزمایشگاهی، تصویربرداری، سوابق متنی و داده‌های ژنتیکی هم‌زمان وجود داشته باشند. در تحلیل کاربران نیز ممکن است داده‌های رفتاری، مکانی، اجتماعی و تراکنشی در کنار هم بررسی شوند.

در روش‌های جدید، به‌جای ساخت یک گرید واحد روی همه ویژگی‌ها، برای هر نما یا منبع داده یک ساختار شبکه‌ای جداگانه ساخته می‌شود. سپس اطلاعات این گریدها در سطح چگالی، شباهت یا خوشه‌ها ترکیب می‌شود:

که در آن M تعداد نماها، (gi) Dm​ چگالی سلول در نمای m، و αm ​ وزن اهمیت آن نما است.

این نوآوری امکان کشف خوشه‌های پایدارتر، کاهش اثر نویز در یک منبع خاص، و ترکیب هوشمند اطلاعات ناهمگون را فراهم می‌کند.

.

6.11.اجرای موازی، توزیع‌شده و GPU-محور(Parallel, Distributed and GPU-Based Grid Clustering)

یکی از دلایل محبوبیت خوشه‌بندی شبکه‌محور، قابلیت بالای آن برای موازی‌سازی است. محاسبه چگالی سلول‌ها، تخصیص نقاط به سلول‌ها و اتصال سلول‌های متراکم را می‌توان روی چند پردازنده، چند گره محاسباتی یا GPU انجام داد.

در نسخه‌های جدید، از چارچوب‌هایی مانند Spark، MapReduce، CUDA و پردازش ابری برای اجرای مقیاس‌پذیر استفاده می‌شود. راهبردهای رایج شامل:

  • تقسیم داده میان گره‌های پردازشی؛
  • محاسبه موازی چگالی سلول‌ها؛
  • استفاده از hashing برای نگاشت سریع نقاط به سلول‌ها؛
  • ذخیره فقط سلول‌های فعال؛
  • ادغام خوشه‌های مرزی میان پارتیشن‌ها؛
  • اجرای موازی عملیات اتصال سلولی.

این نوآوری باعث شده است Grid-Based Clustering برای داده‌های بسیار بزرگ، تحلیل بلادرنگ و سامانه‌های صنعتی در مقیاس وسیع قابل استفاده باشد.

.

6.12.خوشه‌بندی شبکه‌محور فدرال و حریم‌خصوصی‌محور(Federated and Privacy-Preserving Grid-Based Clustering)

در کاربردهایی مانند پزشکی، بانکداری، اینترنت اشیا و شهر هوشمند، داده‌ها معمولاً میان چند سازمان یا دستگاه توزیع شده‌اند و امکان انتقال داده خام به یک مرکز مشترک وجود ندارد. خوشه‌بندی فدرال و حریم‌خصوصی‌محور اهمیت پیدا می‌کند.

در این رویکرد، هر نهاد محلی فقط خلاصه آماری سلول‌های خود را محاسبه و ارسال می‌کند:

سپس سرور مرکزی خلاصه‌ها را ادغام می‌کند:

در این روش، داده خام منتقل نمی‌شود و خطر افشای اطلاعات کاهش می‌یابد. همچنین می‌توان از روش‌هایی مانند Differential Privacy، Secure Aggregation و رمزنگاری برای افزایش امنیت استفاده کرد.

.

6.13.خودکارسازی انتخاب پارامترهای گرید(Automated Grid Parameter Selection)

یکی از چالش‌های مهم در خوشه‌بندی شبکه‌محور، انتخاب اندازه سلول، تعداد تقسیمات، سطح رزولوشن و آستانه چگالی است. انتخاب دستی این پارامترها می‌تواند نتیجه خوشه‌بندی را به‌شدت تحت تأثیر قرار دهد.

در نوآوری‌های جدید، تلاش می‌شود این پارامترها به‌صورت خودکار و داده‌محور تعیین شوند. برخی معیارهای مورد استفاده عبارت‌اند از:

  • پایداری خوشه‌ها در رزولوشن‌های مختلف؛
  • معیارهای اعتبارسنجی داخلی مانند Silhouette یا Davies-Bouldin؛
  • جست‌وجوی بیزی؛
  • الگوریتم‌های تکاملی؛
  • یادگیری متا؛
  • تحلیل خطای بازسازی چگالی؛
  • مقایسه ساختار خوشه‌ها در چند سطح گرید.

برای مثال، پایداری خوشه‌ها در چند رزولوشن را می‌توان چنین محاسبه کرد:

که در آن Cr​ نتیجه خوشه‌بندی در رزولوشن r و Sim معیار شباهت میان دو خوشه‌بندی است.

.

6.14.خوشه‌بندی شبکه‌محور قابل تفسیر((Interpretable Grid-Based Clustering

یکی از مزایای ذاتی روش‌های Grid-Based، تفسیرپذیری نسبی آن‌هاست. زیرا هر خوشه از مجموعه‌ای از سلول‌های مشخص تشکیل می‌شود و هر سلول نیز با بازه‌هایی روی ویژگی‌ها تعریف شده است.

در نسخه‌های جدید، این ویژگی برای تولید توضیح‌های قابل فهم استفاده می‌شود. یک خوشه را می‌توان به‌صورت اجتماع سلول‌ها نمایش داد:

و سپس آن را با قواعد بازه‌ای توضیح داد:

این قابلیت در کاربردهایی مانند پزشکی، مالی، کنترل کیفیت، داده‌کاوی آموزشی و تحلیل مشتریان اهمیت زیادی دارد؛ زیرا در این حوزه‌ها صرفاً دانستن خوشه‌ها کافی نیست، بلکه باید دلیل شکل‌گیری آن‌ها نیز قابل توضیح باشد.

.

جمع‌بندی

نوآوری‌های جدید در حوزه خوشه‌بندی مبتنی بر شبکه نشان می‌دهند که این رویکرد از یک روش کلاسیک و سریع برای تقسیم فضای داده به سلول‌های ثابت، به یک چارچوب پیشرفته و انعطاف‌پذیر برای تحلیل داده‌های مدرن تبدیل شده است. امروزه Grid-Based Clustering با حوزه‌هایی مانند یادگیری عمیق، یادگیری خودنظارتی، داده‌های جریانی، تحلیل مکانی ـ زمانی، گراف، پردازش توزیع‌شده، حفظ حریم خصوصی، عدم قطعیت و تفسیرپذیری پیوند خورده است.

به‌طور خلاصه، مهم‌ترین مسیرهای نوآوری در این حوزه عبارت‌اند از:

  • شبکه‌های تطبیقی و چندرزولوشنی؛
  • خوشه‌بندی برخط برای داده‌های جریانی؛
  • ترکیب با یادگیری عمیق و embeddingها؛
  • خوشه‌بندی خودنظارتی و تقابلی؛
  • تحلیل مکانی ـ زمانی؛
  • ترکیب گرید با گراف؛
  • مقاومت در برابر نویز و داده پرت؛
  • مدل‌سازی عدم قطعیت؛
  • خوشه‌بندی چندنمایی و چندمنبعی؛
  • اجرای موازی، توزیع‌شده و GPU-محور؛
  • خوشه‌بندی فدرال و حریم‌خصوصی‌محور؛
  • انتخاب خودکار پارامترهای گرید؛
  • و افزایش تفسیرپذیری خوشه‌ها.

بنابراین، آینده خوشه‌بندی مبتنی بر شبکه در جهت تبدیل شدن به یک چارچوب سریع، مقیاس‌پذیر، قابل تفسیر، مقاوم، تطبیقی و مناسب برای داده‌های پیچیده و پویا حرکت می‌کند.

دکتر محمدرضا عاطفی

عضو هیئت علمی دانشگاه
رئیس هیئت مدیره گروه ناب
هم بنیان گذار شرکت دانش بنیان
مشاور شرکت ها و سازمان های بزرگ کشور

آنچه می خوانید

هوش مصنوعی

الگوریتم K-Modes چیست؟

1.چکیده خوشه‌بندی یکی از مهم‌ترین مسائل در داده‌کاوی است که هدف آن گروه‌بندی داده‌ها بر اساس شباهت میان نمونه‌ها است. بسیاری از الگوریتم‌های کلاسیک خوشه‌بندی مانند K-Means برای داده‌های عددی طراحی شده‌اند و در مواجهه با داده‌های طبقه‌ای (Categorical Data) عملکرد مناسبی ندارند. الگوریتم K-Modes به‌عنوان توسعه‌ای از K-Means برای

توضیحات بیشتر »
هوش مصنوعی

خوشه‌بندی مدل‌محور(Model-Based Clustering) چیست؟

  1.مقدمه خوشه‌بندی مدل‌محور رویکردی در یادگیری بدون‌ناظر است که برخلاف روش‌های فاصله‌محور، خوشه‌ها را گروه‌هایی از نقاط نزدیک نمی‌داند، بلکه فرض می‌کند داده‌ها توسط مدل‌های آماری، احتمالاتی یا محاسباتی پنهان تولید شده‌اند. هر خوشه نماینده یک توزیع آماری، مدل مولد یا مؤلفه احتمالاتی است. هدف، یافتن بهترین مدل‌ها برای توضیح

توضیحات بیشتر »
هوش مصنوعی

خوشه‌بندی مبتنی بر شبکه(Grid-Based Clustering)چیست؟

1.مقدمه خوشه‌بندی مبتنی بر شبکه یا Grid-Based Clustering یکی از رویکردهای مهم در یادگیری بدون‌ناظر است که با هدف افزایش سرعت پردازش، کاهش پیچیدگی محاسباتی و مدیریت داده‌های حجیم و چندبعدی توسعه یافته است. در این رویکرد، برخلاف بسیاری از روش‌های کلاسیک خوشه‌بندی که مستقیماً با تک‌تک نقاط داده سروکار

توضیحات بیشتر »