Cover

الگوریتم CLARA چیست؟ آموزش خوشه‌بندی داده‌های بزرگ

1. چکیده

الگوریتم CLARA، مخفف Clustering Large Applications، یکی از روش‌های کلاسیک و مهم در خوشه‌بندی داده‌های بزرگ است که بر پایه الگوریتم k-Medoids و به‌طور مشخص PAM توسعه یافته است. مسئله اصلی این است که PAM با وجود تفسیرپذیری مناسب و مقاومت بهتر در برابر داده‌های پرت، برای مجموعه‌داده‌های بزرگ از نظر زمانی و محاسباتی پرهزینه است. CLARA این محدودیت را با استفاده از نمونه‌گیری تصادفی برطرف می‌کند: به‌جای اجرای مستقیم PAM روی کل داده، چند زیرنمونه از داده انتخاب می‌شود، روی هر زیرنمونه خوشه‌بندی انجام می‌گیرد و سپس کیفیت نتیجه روی کل مجموعه‌داده ارزیابی می‌شود.

 در این مقاله، ما CLARA را از منظر مفهومی، ریاضی و اجرایی بررسی می‌کنیم و نشان می‌دهیم که این الگوریتم چگونه میان کیفیت خوشه‌بندی و مقیاس‌پذیری تعادل برقرار می‌کند. همچنین، مثال‌های عددی، کاربردهای واقعی، مزایا، محدودیت‌ها و تفاوت آن با روش‌هایی مانند k-Means، PAM و CLARANS به‌صورت آموزشی و آکادمیک ارائه می‌شود (Kaufman & Rousseeuw, 1990; Schubert & Rousseeuw, 2021).

2. مقدمه

در بسیاری از درس‌ها و پروژه‌های یادگیری ماشین، وقتی از خوشه‌بندی صحبت می‌کنیم، معمولاً نخستین الگوریتمی که مطرح می‌شود k-Means است. با این حال، در عمل همیشه نمی‌توان فرض کرد که میانگین، نماینده مناسبی برای یک خوشه است. در برخی مسائل، وجود داده‌های پرت، داده‌های غیرعددی، یا نیاز به استفاده از معیارهای فاصله متنوع، ما را به سمت روش‌های مبتنی بر medoid هدایت می‌کند.

در اینجا الگوریتم CLARA اهمیت پیدا می‌کند. این روش برای شرایطی طراحی شده است که داده‌ها زیادند و در عین حال می‌خواهیم مزیت‌های خوشه‌بندی مبتنی بر medoid را حفظ کنیم. CLARA در اصل پاسخی است به یک مسئله عملی: چگونه می‌توان از ایده‌های قوی k-Medoids برای داده‌های بزرگ استفاده کرد، بدون آنکه هزینه محاسباتی روش‌های دقیق‌تر بیش از حد بالا برود؟

در این مقاله، ابتدا مفاهیم پایه مانند medoid، dissimilarity و PAM را مرور می‌کنیم. سپس به مسئله‌ای که CLARA حل می‌کند، مبانی نظری و ریاضی، مراحل اجرای الگوریتم، مثال‌های عددی، کاربردهای واقعی، مزایا، محدودیت‌ها و مقایسه با روش‌های نزدیک می‌پردازیم.

.

3.تعاریف و مفاهیم پایه

خوشه‌بندی چیست؟

خوشه‌بندی (Clustering) یکی از شاخه‌های اصلی یادگیری بدون‌نظارت (Unsupervised Learning) است. در خوشه‌بندی، هدف این است که مجموعه‌ای از نمونه‌ها را به گروه‌هایی تقسیم کنیم که اعضای هر گروه از نظر معیار شباهت یا فاصله، به یکدیگر نزدیک‌تر باشند و با اعضای گروه‌های دیگر تفاوت بیشتری داشته باشند .

Medoid چیست؟

medoid یک نمونه واقعی از داده‌هاست که به‌عنوان نماینده یک خوشه انتخاب می‌شود. اگر در یک خوشه، نقطه‌ای را پیدا کنیم که مجموع فاصله‌اش تا سایر نقاط آن خوشه کمینه باشد، آن نقطه medoid آن خوشه است.

این مفهوم را نباید با centroid اشتباه گرفت:

  • centroid معمولاً میانگین مختصات اعضای خوشه است و ممکن است اصلاً یکی از داده‌های واقعی نباشد.
  • medoid حتماً یکی از نمونه‌های موجود در داده است.

این تفاوت، از نظر تفسیرپذیری و مقاومت در برابر داده‌های پرت اهمیت زیادی دارد.

عدم‌شباهت یا Dissimilarity

در بسیاری از روش‌های خوشه‌بندی، به‌ویژه روش‌های مبتنی بر medoid، آنچه اهمیت دارد یک معیار برای سنجش فاصله یا عدم‌شباهت میان دو نمونه است. بسته به نوع داده، این معیار می‌تواند متفاوت باشد:

  • فاصله اقلیدسی برای داده‌های عددی پیوسته
  • فاصله منهتن برای داده‌های جدولی و بعضی کاربردهای مکانی
  • فاصله همینگ برای داده‌های دودویی
  • معیارهای سفارشی برای داده‌های متنی، رده‌ای یا ترکیبی

بنابراین CLARA به یک نوع داده خاص محدود نیست؛ بلکه تا حد زیادی به مناسب‌بودن معیار فاصله بستگی دارد.

الگوریتم PAM

PAM یا Partitioning Around Medoids یکی از الگوریتم‌های کلاسیک برای حل مسئله k-Medoids است. این الگوریتم با انتخاب اولیه چند medoid شروع می‌کند و سپس با جابه‌جایی میان medoidها و نقاط دیگر، سعی می‌کند هزینه خوشه‌بندی را کاهش دهد. PAM معمولاً کیفیت خوبی دارد، اما برای داده‌های بزرگ بسیار کند می‌شود (Kaufman & Rousseeuw, 1990).

الگوریتم CLARA

CLARA نسخه‌ای مقیاس‌پذیرتر از ایده PAM است. در این روش، به‌جای آنکه PAM روی کل داده اجرا شود، چند نمونه نسبتاً کوچک از داده اصلی انتخاب می‌شود. سپس PAM روی هر نمونه اجرا می‌شود و کیفیت medoidهای حاصل روی کل داده سنجیده می‌شود. بهترین مجموعه medoid در نهایت انتخاب می‌شود.

به زبان ساده، CLARA تلاش می‌کند ساختار خوشه‌ای داده‌های بزرگ را از طریق چند نماینده کوچک‌تر تقریب بزند.

4. مسئله‌ای که این روش حل می‌کند؛ اهمیت و ضرورت

الگوریتم CLARA برای حل یک مسئله کاملاً مشخص طراحی شده است: اجرای خوشه‌بندی مبتنی بر medoid روی مجموعه‌داده‌های بزرگ، بدون تحمل هزینه محاسباتی بسیار زیاد.

روش PAM از نظر مفهومی دقیق و از نظر مقاومت در برابر داده‌های پرت، روش قابل‌اعتمادی است؛ اما وقتی تعداد نمونه‌ها زیاد می‌شود، بررسی جابه‌جایی‌های ممکن میان medoidها و سایر نقاط بسیار پرهزینه خواهد بود. به همین دلیل، استفاده مستقیم از PAM در بسیاری از مسائل واقعی مقیاس‌پذیر نیست.

CLARA این ضرورت را از دل یک مصالحه عملی پاسخ می‌دهد. به‌جای جست‌وجو در کل داده، این الگوریتم چند زیرنمونه از داده اصلی برمی‌دارد، روی آن‌ها PAM را اجرا می‌کند و سپس بهترین راه‌حل را با ارزیابی روی کل داده برمی‌گزیند. بنابراین CLARA نه صرفاً یک الگوریتم سریع‌تر، بلکه راهی برای عملی‌کردن ایده k-Medoids در داده‌های بزرگ است.

اهمیت این مسئله در کاربردهایی روشن می‌شود که در آن‌ها:

  • داده‌ها بزرگ‌اند،
  • میانگین‌گیری نماینده مناسبی برای خوشه نیست،
  • داده‌های پرت وجود دارند،
  • یا معیار فاصله‌ای غیر از فاصله اقلیدسی لازم است.

در چنین شرایطی، CLARA یک راه‌حل میانی و مهندسی‌شده ارائه می‌دهد که میان کیفیت و کارایی تعادل برقرار می‌کند (Schubert & Rousseeuw, 2021).

.

5.مبانی نظری و ریاضی

تابع هدف در k-Medoids و CLARA

پایه نظری CLARA همان تابع هدف k-Medoids است. فرض کنید مجموعه داده شامل n نمونه باشد:

X={x1,x2,…,xn}

و بخواهیم k medoid انتخاب کنیم. اگر مجموعه medoidها را با M نشان دهیم، تابع هزینه به‌صورت زیر تعریف می‌شود:

توضیح نمادها:

  • J(M): هزینه کل خوشه‌بندی
  • X: مجموعه کل داده‌ها
  • xi​: نمونه شماره i
  • M: مجموعه medoidهای انتخاب‌شده
  • m: یک medoid از مجموعه M
  • d(xi​,m) : فاصله یا عدم‌شباهت بین نمونه xix_ixi​ و medoid mmm
  •  Min m∈M ​d(xi​,m)  )فاصله نمونه xi​ تا نزدیک‌ترین medoid

هدف این است که مجموعه‌ای از k medoid پیدا شود که مقدار  (M)J کمینه کند.

فرض پایه این تابع

این فرمول فرض می‌کند که:

  • برای هر جفت نمونه، یک معیار فاصله معتبر قابل تعریف است.
  • تعداد خوشه‌ها، یعنی k، از پیش مشخص شده است.
  • هر نمونه به نزدیک‌ترین medoid نسبت داده می‌شود.

نمونه‌ای از معیار فاصله

برای داده‌های عددی، یکی از معیارهای متداول فاصله اقلیدسی است:

توضیح نمادها:

  •  (xj,xi) d: فاصله بین نمونه‌های xi​ و xj​
  • p: تعداد ویژگی‌ها
  • xir​: مقدار ویژگی rام در نمونه i
  • xjr​: مقدار ویژگی rام در نمونه j

برای داده‌های دودویی یا رده‌ای، ممکن است از فاصله همینگ یا معیارهای دیگر استفاده شود.

ایده نظری CLARA

CLARA مستقیماً تابع هدف را روی کل داده کمینه نمی‌کند. در عوض، با انتخاب یک زیرنمونه SX  با اندازه s، ابتدا medoidها را روی S پیدا می‌کند. سپس کیفیت آن medoidها روی کل مجموعه X سنجیده می‌شود.

اگر medoidهای حاصل از نمونه را با Mt​ نشان دهیم، هزینه ارزیابی روی کل داده چنین است:

توضیح نمادها:

  •  (Mt) Cost: میانگین هزینه خوشه‌بندی برای medoidهای حاصل از نمونه t
  • n: تعداد کل نمونه‌ها
  • Mt​: مجموعه medoidهای به‌دست‌آمده از زیرنمونه t
  •  (xi,m) d: فاصله نمونه xi​ تا medoid m

CLARA این فرایند را چند بار تکرار می‌کند و در نهایت مجموعه medoidهایی را انتخاب می‌کند که کمترین (Mt)Cost را روی کل داده داشته باشند.

نکته تحلیلی

بنابراین CLARA یک روش تقریبی است، نه یک حل دقیق برای مسئله k-Medoids روی کل داده. کیفیت نهایی آن به این بستگی دارد که زیرنمونه‌های انتخاب‌شده تا چه حد ساختار واقعی داده را نمایندگی کنند (Kaufman & Rousseeuw, 1990).

.

6. مراحل گام به گام اجرای الگوریتم

ورودی‌های الگوریتم

برای اجرای CLARA معمولاً این ورودی‌ها را در نظر می‌گیریم:

  • مجموعه‌داده X
  • تعداد خوشه‌ها k
  • اندازه نمونه s
  • تعداد دفعات نمونه‌گیری q
  • معیار فاصله d

خروجی الگوریتم

خروجی شامل سه جزء اصلی است:

  • medoidهای نهایی
  • برچسب خوشه هر نمونه
  • هزینه نهایی خوشه‌بندی

فرایند اجرای CLARA

  • گام 1: انتخاب یک زیرنمونه از داده

از مجموعه‌داده اصلی، یک نمونه تصادفی با اندازه s انتخاب می‌شود. این نمونه باید تا حد ممکن نماینده‌ای از ساختار داده باشد.

  • گام 2: اجرای PAM روی زیرنمونه

الگوریتم PAM روی این زیرنمونه اجرا می‌شود تا k medoid اولیه یا بهینه برای آن زیرنمونه به‌دست آید.

  • گام 3: تعمیم medoidها به کل داده

هر نمونه از کل مجموعه‌داده به نزدیک‌ترین medoid منتسب می‌شود. در این مرحله، خوشه‌بندی صرفاً بر اساس medoidهای حاصل از زیرنمونه انجام می‌شود.

  • گام 4: محاسبه هزینه روی کل داده

برای تمام نقاط داده، فاصله تا نزدیک‌ترین medoid محاسبه می‌شود و میانگین یا مجموع این فاصله‌ها به‌عنوان کیفیت راه‌حل ثبت می‌شود.

  • گام 5: تکرار نمونه‌گیری

مراحل 1 تا 4 به تعداد q بار تکرار می‌شود. در هر تکرار، ممکن است زیرنمونه متفاوتی انتخاب شود و در نتیجه medoidهای متفاوتی به‌دست آید.

  • گام 6: انتخاب بهترین راه‌حل

در پایان، مجموعه medoidهایی انتخاب می‌شود که کمترین هزینه را روی کل داده ایجاد کرده باشد.

معیار توقف

CLARA معمولاً با رسیدن به تعداد از پیش تعیین‌شده‌ای از نمونه‌گیری‌ها متوقف می‌شود. درون هر اجرای PAM نیز توقف زمانی اتفاق می‌افتد که هیچ جابه‌جایی جدیدی باعث کاهش تابع هزینه نشود.

شبه‌کد الگوریتم

Input: X, k, s, q, d
Output: Best medoids and cluster assignments

best_cost = infinity
best_medoids = null

for t = 1 to q:
    S = random_sample(X, size = s)
    M = PAM(S, k)

    cost = 0
    for each point x in X:
        cost += min distance from x to medoids in M

    cost = cost / |X|

    if cost < best_cost:
        best_cost = cost
        best_medoids = M

Assign each point in X to nearest medoid in best_medoids
Return best_medoids and final assignments

منطق تصمیم‌گیری

منطق اصلی CLARA این است که اگر چند زیرنمونه مناسب از داده انتخاب کنیم، دست‌کم یکی از آن‌ها می‌تواند ساختار خوشه‌ای کل داده را به‌خوبی بازتاب دهد. بنابراین به‌جای جست‌وجوی کامل و پرهزینه، از چند جست‌وجوی کوچک‌تر و ارزیابی نهایی روی کل داده استفاده می‌شود.

.

7.مثال‌های عددی

مثال 1: خوشه‌بندی یک‌بعدی ساده

صورت مسئله

می‌خواهیم داده‌های زیر را با دو خوشه دسته‌بندی کنیم:

X={1,2,3,10,11,12}   ,   k=2

فرض کنید CLARA یک زیرنمونه زیر را انتخاب کرده است:

S={1,2,10,11}

معیار فاصله، فاصله مطلق است:

d(xi,xj)=∣xi−xj∣

توضیح نمادها:

  •  xi , xj​: دو نمونه عددی
  • xi​−xj​∣: قدر مطلق اختلاف آن‌ها

داده ورودی

  • داده اصلی: {1,2,3,10,11,12}
  • نمونه: {1,2,10,11}
  • تعداد خوشه‌ها: 2

حل گام‌به‌گام

فرض کنید PAM روی نمونه، medoidهای 2 و 10 را انتخاب کند.

اکنون هر نقطه را به نزدیک‌ترین medoid اختصاص می‌دهیم:

  • 1 به 2 نزدیک‌تر است، فاصله 1
  • 2 به 2، فاصله 0
  • 3 به 2، فاصله 1
  • 10 به 10، فاصله 0
  • 11 به 10، فاصله 1
  • 12 به 10، فاصله 2

پس هزینه کل برابر است با:

J=1+0+1+0+1+2=5

و میانگین هزینه:

Cost=5 / 6≈0.83

پاسخ نهایی

  • خوشه اول: {1,2,3}
  • خوشه دوم: {10,11,12}
  • medoidها: 2 و 10

تفسیر نتیجه

در این مثال، حتی با یک نمونه کوچک، ساختار دو خوشه‌ای داده به‌خوبی حفظ شده است.

.

مثال 2: داده دوبعدی با فاصله منهتن

صورت مسئله

داده‌ها به‌صورت زیر هستند:

A(1,1),B(1,2),C(2,1) ,D(8,8),E(9,8) ,F(8,9)

و می‌خواهیم آن‌ها را در دو خوشه قرار دهیم.

فرض کنید CLARA نمونه زیر را انتخاب می‌کند:

S={A,B,D,E}

فاصله مورد استفاده، فاصله منهتن است:

d(xi,xj)=∣xi1−xj1∣+∣xi2−xj2∣

توضیح نمادها:

  • xi1 ​, xi2: مختصات نمونه i
  • xj1​ ,  xj2: مختصات نمونه j

داده ورودی

  • نقاط:A, B, C, D, E, F
  • تعداد خوشه‌ها: 2

حل گام‌به‌گام

فرض کنید PAM medoidهای B(1,2)   و  D(8,8) را برمی‌گزیند.

فاصله نقاط تا medoidها:

  • A: تا B برابر 1، تا D برابر 14
  • B: تا B برابر 0، تا D برابر 13
  • C: تا B برابر 2، تا D برابر 13
  • D: تا D برابر 0
  • E: تا D برابر 1
  • F: تا D برابر 1

هزینه کل:

J=1+0+2+0+1+1=5

میانگین هزینه:

Cost=5 /6≈0.83

پاسخ نهایی

  • خوشه اول: {A,B,C}
  • خوشه دوم: {D,E,F}

تفسیر نتیجه

چون دو گروه نقطه‌ای به‌صورت فضایی از هم جدا هستند، CLARA با medoidهای واقعی، نماینده‌های قابل‌تفسیر و مناسبی تولید کرده است.

.

مثال 3: داده دودویی با فاصله همینگ

صورت مسئله

داده‌های زیر را در نظر بگیرید:

A(1,1,0) ,B(1,0,0) ,C(0,0,1),D(0,1,1),E(1,1,1)

می‌خواهیم آن‌ها را در دو خوشه قرار دهیم. فرض کنید نمونه انتخابی CLARA چنین باشد:

S={A,B,C,D}

فاصله همینگ:

توضیح نمادها:

  • p: تعداد ویژگی‌ها
  • (⋅)I: تابع شاخص
  • xir​: مقدار ویژگی rام برای نمونه i

داده ورودی

  • پنج بردار دودویی
  • تعداد خوشه‌ها: 2

حل گام‌به‌گام

فرض کنید PAM medoidهای A و C را انتخاب کند.

فاصله‌ها:

  • A3 : C تا  A: 0 ، تا
  • B2: C تا  A: 1   تا
  • C0 :C تا  A: 3   تا
  • D1 : C  تا  A: 2  تا
  • E2 : C تا  A: 1

پس انتساب خوشه‌ها چنین می‌شود:

  • A,B,E در خوشه medoid A
  • C,D در خوشه medoid C

هزینه کل:

J=0+1+0+1+1=3

میانگین هزینه:

Cost=3 / 5=0.6

پاسخ نهایی

  • خوشه اول: {A,B,E}
  • خوشه دوم: {C,D}

تفسیر نتیجه

این مثال نشان می‌دهد CLARA فقط برای داده‌های عددی پیوسته نیست و در صورت تعریف فاصله مناسب، برای داده‌های دودویی نیز کاربرد دارد.

.

مثال 4: اثر نمونه‌گیری بر نتیجه نهایی

صورت مسئله

فرض کنید داده‌ها به‌صورت زیر باشند:

X={1,2,3,20,21,22,50}  ,  k=2

دو زیرنمونه مختلف داریم:

S1={1,2,20,21}

S2={2,3,22,50}

داده ورودی

  • داده اصلی: {1,2,3,20,21,22,50}
  • تعداد خوشه‌ها: 2
  • فاصله: قدر مطلق

حل گام‌به‌گام

برای S1​، فرض کنید medoidها برابر 2 و 21 باشند.

هزینه روی کل داده:

J1=1+0+1+1+0+1+29=33

Cost1=337≈4.71

برای S2​، فرض کنید medoidها برابر 3 و 22 باشند.

J2=2+1+0+2+1+0+28=34

Cost2=34 / 7≈4.86

پاسخ نهایی

چون  Cost< Cost2  ​، راه‌حل اول انتخاب می‌شود؛ یعنی medoidهای 2 و 21.

تفسیر نتیجه

این مثال نشان می‌دهد CLARA به یک نمونه واحد متکی نیست. همین تکرار نمونه‌گیری، احتمال انتخاب راه‌حل بهتر را بیشتر می‌کند؛ هرچند همچنان تضمینی برای جواب بهینه جهانی وجود ندارد.

.

8.کاربردهای واقعی

  • بخش‌بندی مشتریان در بازاریابی و CRM بر اساس رفتار خرید، مراجعات و الگوهای مصرف
  • خوشه‌بندی کاربران وب‌سایت یا اپلیکیشن بر اساس کلیک، مسیر پیمایش و نوع تعامل
  • تحلیل داده‌های پزشکی و زیستی، به‌ویژه زمانی که داده‌ها ترکیبی یا دارای فاصله‌های تخصصی باشند
  • خوشه‌بندی داده‌های مکانی در حمل‌ونقل، مکان‌یابی خدمات و تحلیل شهری
  • گروه‌بندی اسناد، پروفایل‌ها یا اشیایی که میانگین‌گیری روی آن‌ها معنای روشنی ندارد
  • استفاده در داده‌کاوی صنعتی، جایی که PAM برای کل داده بیش از حد پرهزینه است

.

9.مزایا

  • نسبت به PAM برای مجموعه‌داده‌های بزرگ مقیاس‌پذیرتر است
  • از medoid واقعی استفاده می‌کند و بنابراین تفسیرپذیری خوبی دارد
  • نسبت به روش‌های میانگین‌محور، در برابر داده‌های پرت مقاوم‌تر است
  • با معیارهای فاصله متنوع سازگار است
  • برای داده‌های غیرعددی، دودویی یا ترکیبی نیز قابل استفاده است
  • ارزیابی نهایی را روی کل داده انجام می‌دهد، نه فقط روی نمونه

.

10.محدودیت‌ها و معایب

  • کیفیت خروجی به کیفیت نمونه‌گیری وابسته است
  • ممکن است خوشه‌های کوچک یا کم‌تراکم در نمونه‌ها دیده نشوند
  • باید تعداد خوشه‌ها k از قبل تعیین شود
  • انتخاب معیار فاصله نامناسب می‌تواند کل خوشه‌بندی را منحرف کند
  • یک روش تقریبی است و لزوماً بهترین جواب ممکن را پیدا نمی‌کند
  • در داده‌های بسیار پیچیده یا با ساختار خوشه‌ای غیرمعمول، ممکن است عملکرد آن محدود باشد

.

11.مقایسه با روش‌های مشابه

جدول مقایسه‌ای

روشمرکز خوشهمرکز واقعی است؟مناسب برای داده‌های بزرگمقاومت در برابر داده پرتتفسیرپذیریهزینه محاسباتی
k-MeansCentroidخیربلهپایین‌ترمتوسطکم
PAMMedoidبلهمعمولاً خیربالابالازیاد
CLARAMedoidبلهبلهبالابالامتوسط
CLARANSMedoidبلهنسبتاً بلهبالابالامتوسط تا زیاد

تحلیل مقایسه

ما معمولاً این تفاوت را به‌صورت زیر جمع‌بندی می‌کنیم:

  • اگر داده‌ها عددی، نسبتاً تمیز و بزرگ باشند و سرعت مهم‌تر از تفسیرپذیری باشد، k-Means اغلب گزینه مناسبی است.
  • اگر کیفیت medoidمحور و دقت روی کل داده مهم باشد و اندازه داده کوچک یا متوسط باشد، PAM انتخاب خوبی است.
  • اگر بخواهیم از مزایای medoid استفاده کنیم، اما با داده‌های بزرگ سروکار داشته باشیم، CLARA معمولاً گزینه متعادلی است.
  • اگر بخواهیم جست‌وجوی تصادفی‌تری در فضای راه‌حل‌ها داشته باشیم، CLARANS می‌تواند جایگزین قابل بررسی باشد (Schubert & Rousseeuw, 2021).

.

12.نوآوری‌ها و چشم‌انداز آینده

اگرچه CLARA الگوریتمی کلاسیک است، اما ایده اصلی آن هنوز در بسیاری از روش‌های مدرن زنده است: حل تقریبی یک مسئله بزرگ از طریق زیرنمونه‌های نماینده.

چند مسیر مهم برای توسعه آینده این روش عبارت‌اند از:

  • استفاده از نمونه‌گیری هوشمند به‌جای نمونه‌گیری کاملاً تصادفی
  • ترکیب CLARA با روش‌های کاهش بُعد مانند PCA یا UMAP برای داده‌های پُربعد
  • اجرای توزیع‌شده و موازی در محیط‌های کلان‌داده
  • استفاده از معیارهای فاصله یادگرفته‌شده از embeddingها در مسائل جدید
  • ترکیب با معیارهای ارزیابی پایداری خوشه‌ها برای افزایش اعتمادپذیری
  • بهره‌گیری از نسخه‌های سریع‌تر k-Medoids که در پژوهش‌های جدید پیشنهاد شده‌اند (Schubert & Rousseeuw, 2021)

به همین دلیل، CLARA فقط یک الگوریتم آموزشی نیست؛ بلکه بخشی از یک خانواده مهم از روش‌های مقیاس‌پذیر خوشه‌بندی است.

.

13.جمع‌بندی

در این مقاله، ما الگوریتم CLARA را به‌عنوان یک روش خوشه‌بندی مناسب برای داده‌های بزرگ بررسی کردیم. این الگوریتم بر پایه k-Medoids و PAM ساخته شده، اما با استفاده از نمونه‌گیری، هزینه محاسباتی را کاهش می‌دهد و در عین حال تلاش می‌کند کیفیت خوشه‌بندی را حفظ کند.

نکته کلیدی این است که CLARA برای مسائلی مناسب است که در آن‌ها استفاده از medoid بر centroid ترجیح دارد؛ به‌ویژه زمانی که داده‌های پرت وجود دارند، داده‌ها صرفاً عددی نیستند، یا می‌خواهیم از یک معیار فاصله اختصاصی استفاده کنیم. در مقابل، باید توجه داشت که کیفیت آن به نماینده‌بودن نمونه‌ها وابسته است و مانند هر روش تقریبی، تضمین بهینگی جهانی ندارد.

اگر بخواهم یک توصیه آموزشی و عملی ارائه کنیم، آن این است که CLARA را نه صرفاً به‌عنوان نسخه‌ای سریع‌تر از PAM، بلکه به‌عنوان راهکاری برای ایجاد تعادل میان کیفیت، تفسیرپذیری و مقیاس‌پذیری در خوشه‌بندی در نظر بگیریم.

.

14.منابع

Kaufman, L., & Rousseeuw, P. J. (1990). Finding groups in data: An introduction to cluster analysis. John Wiley & Sons.

Rousseeuw, P. J. (1987). Silhouettes: A graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics, 20, 53-65. https://doi.org/10.1016/0377-0427(87)90125-7

Schubert, E., & Rousseeuw, P. J. (2021). Fast and eager k-medoids clustering: O(k) runtime improvement of the PAM, CLARA, and CLARANS algorithms. Information Systems, 101, 101804. https://doi.org/10.1016/j.is.2021.101804

scikit-learn-extra developers. (n.d.). KMedoids: scikit-learn-extra documentation. https://scikit-learn-extra.readthedocs.io

دکتر محمدرضا عاطفی

عضو هیئت علمی دانشگاه
رئیس هیئت مدیره گروه ناب
هم بنیان گذار شرکت دانش بنیان
مشاور شرکت ها و سازمان های بزرگ کشور

آنچه می خوانید

هوش مصنوعی

الگوریتم CLARANS چیست؟ خوشه‌بندی تصادفی داده‌های بزرگ

  1.چکیده الگوریتم CLARANS که مخفف ِClustering Large Applications based on Randomized Search است، یکی از روش‌های مهم خوشه‌بندی مبتنی بر medoid به شمار می‌رود که برای بهبود مقیاس‌پذیری و کیفیت جست‌وجو در داده‌های نسبتاً بزرگ طراحی شده است. این روش را می‌توان حلقه‌ای میان PAM و CLARA دانست: از

توضیحات بیشتر »
هوش مصنوعی

الگوریتم CLARA چیست؟ آموزش خوشه‌بندی داده‌های بزرگ

1. چکیده الگوریتم CLARA، مخفف Clustering Large Applications، یکی از روش‌های کلاسیک و مهم در خوشه‌بندی داده‌های بزرگ است که بر پایه الگوریتم k-Medoids و به‌طور مشخص PAM توسعه یافته است. مسئله اصلی این است که PAM با وجود تفسیرپذیری مناسب و مقاومت بهتر در برابر داده‌های پرت، برای مجموعه‌داده‌های

توضیحات بیشتر »
هوش مصنوعی

کاربرد سنسور دمای IC در مخابرات، تجهیزات پزشکی و سیستم‌های صنعتی:بخش دوم

پیشنهاد میکنیم ابتدا مقاله سنسورهای دمای IC در کاربردهای صنعتی: عملکرد، نصب و ملاحظات عملیاتی:بخش اول را مطالعه کنید سپس این مقاله را مطالعه کنید. . 6.2. کاربرد سنسورهای دمای IC در صنعت مخابرات 1.6.2.  دستگاه‌ها و محیط‌های کاربردی:     تجهیزات فعال شبکه (Active Network Equipment):     روترها، سوئیچ‌ها، فایروال‌ها:

توضیحات بیشتر »