تابع فعال‌سازی (Activation Function) چیست؟

دکتر محمدرضا عاطفی
دسامبر 29, 2025

مقدمه

شبکه‌های عصبی بدون توابع فعال‌سازی، چیزی فراتر از یک مدل خطی ساده نخواهند بود. آنچه به شبکه عصبی توانایی یادگیری الگوهای پیچیده و غیرخطی را می‌دهد، تابع فعال‌سازی (Activation Function) است؛ مفهومی کلیدی که نقش تعیین‌کننده‌ای در قدرت، سرعت و پایداری یادگیری مدل دارد.

توابع فعال‌سازی مشخص می‌کنند که خروجی هر نورون چگونه به لایه بعدی منتقل شود و آیا یک نورون «فعال» شود یا خیر. انتخاب نادرست این توابع می‌تواند باعث مشکلاتی مانند ناپدید شدن گرادیان، همگرایی ضعیف یا عملکرد نامطلوب مدل شود. در حالی که انتخاب درست آن‌ها می‌تواند یادگیری شبکه را به‌طور چشمگیری بهبود دهد.

در این مقاله، به‌صورت جامع با توابع فعال‌سازی در شبکه‌های عصبی آشنا می‌شویم. منطق عملکرد آن‌ها را بررسی می‌کنیم و پرکاربردترین توابع را با مثال‌های واقعی معرفی خواهیم کرد. هدف این است که پس از مطالعه این مطلب، بتوانید با دیدی آگاهانه‌تر و مسئله‌محور، تابع فعال‌سازی مناسب را برای هر مدل انتخاب کنید.

تعریف تابع فعال‌سازی

به زبان ساده، یک تابع فعال‌سازی تصمیم می‌گیرد که آیا یک نورون باید فعال شود یا خیر. این یعنی تابع با استفاده از عملیات ریاضی ساده، تشخیص می‌دهد که آیا ورودیِ یک نورون در فرآیند پیش‌بینی شبکه اهمیت دارد یا باید نادیده گرفته شود.

نقش اصلی این تابع، استخراج خروجی از مجموعه‌ای از مقادیر ورودی است که به یک گره (Node) یا یک لایه تزریق شده‌اند.

گره (Node) چیست؟

برای درک بهتر، بیایید یک لایه به عقب برگردیم. اگر شبکه عصبی را با مغز انسان مقایسه کنیم، هر گره در واقع نسخه‌ای شبیه‌سازی شده از یک نورون است. این گره، مجموعه‌ای از سیگنال‌های ورودی را دریافت می‌کند که می‌توان آن‌ها را معادل محرک‌های بیرونی در بدن انسان دانست.

بسته به ماهیت و شدت این سیگنال‌های ورودی، مغز آن‌ها را پردازش کرده و تصمیم می‌گیرد که آیا نورون باید فعال (شلیک) شود یا خیر. در دنیای یادگیری عمیق نیز، این دقیقاً وظیفه‌ای است که بر عهده تابع فعال‌سازی قرار دارد؛ به همین دلیل است که اغلب در شبکه‌های عصبی مصنوعی از آن به عنوان تابع انتقال (Transfer Function) نیز یاد می‌شود.

نقش اولیه و حیاتی تابع فعال‌سازی، تبدیل مجموع وزن‌دار ورودی‌های یک گره به یک مقدار خروجی مشخص است تا این مقدار به لایه پنهان بعدی فرستاده شده و یا به عنوان خروجی نهایی سیستم ارائه شود.

ساختار و اجزای اصلی معماری شبکه عصبی

یک شبکه عصبی از نورون‌های به‌هم‌پیوسته تشکیل شده است که هر کدام با سه مشخصه اصلی شناخته می‌شوند: وزن (Weight)، بایاس (Bias) و تابع فعال‌سازی. (Activation Function) این شبکه به طور کلی از سه لایه اصلی تشکیل شده است:

۱. لایه ورودی (Input Layer)

این لایه دروازه ورود داده‌های خام از دنیای بیرون به داخل سیستم است.

بدون محاسبات: در این لایه هیچ‌گونه پردازش یا محاسبات ریاضی انجام نمی‌شود.
انتقال‌دهنده: گره‌های این لایه صرفاً نقش واسطه را دارند و اطلاعات (ویژگی‌ها یا همان Features) را به لایه پنهان پاس می‌دهند.

۲. لایه‌های پنهان (Hidden Layers)

همان‌طور که از نامشان پیداست، گره‌های این لایه از دید کاربر پنهان هستند و انتزاع اصلی شبکه را تشکیل می‌دهند.

قلب محاسبات: تمامی محاسبات پیچیده ریاضی بر روی ویژگی‌های ورودی در این لایه انجام می‌شود.
انتقال نتایج: پس از انجام پردازش، لایه پنهان نتایج را برای تصمیم‌گیری نهایی به لایه خروجی منتقل می‌کند.

۳. لایه خروجی (Output Layer)

این آخرین لایه شبکه است که وظیفه ارائه نتیجه نهایی را بر عهده دارد.

تبلور یادگیری: این لایه تمامی اطلاعات یاد گرفته شده توسط لایه‌های پنهان را جمع‌آوری کرده و مقدار نهایی (پیش‌بینی) را تحویل می‌دهد.

وزن‌ها و بایاس‌ها چطور کار می‌کنند؟

برای اینکه لایه‌ها بتوانند با هم ارتباط برقرار کنند، از دو فاکتور استفاده می‌کنند:

وزن(W): نشان‌دهنده اهمیت یک ویژگی ورودی است. هرچه وزن بیشتر باشد، آن ورودی تاثیر بیشتری بر خروجی دارد.
بایاس(b): به مدل اجازه می‌دهد تا انعطاف‌پذیری بیشتری داشته باشد و منحنی‌های یادگیری را جابه‌جا کند تا با داده‌ها بهتر منطبق شود.

انتشار رو به جلو (Feedforward Propagation)

در این مرحله، اطلاعات فقط در یک جهت حرکت می‌کنند: از لایه ورودی به سمت لایه‌های پنهان و در نهایت به لایه خروجی.

نقش تابع فعال‌سازی: در فرآیند انتشار رو به جلو، تابع فعال‌سازی مانند یک دروازه ریاضی عمل می‌کند که بین ورودیِ تغذیه‌کننده نورون فعلی و خروجیِ ارسالی به لایه بعدی قرار می‌گیرد.
تصمیم‌گیری: این تابع تصمیم می‌گیرد که آیا اطلاعات دریافتی به قدری مهم هستند که به مرحله بعد منتقل شوند یا خیر.
خروجی نهایی: نتیجه این مسیر، پیش‌بینی مدل است (مثلاً تشخیص اینکه عکس متعلق به یک گربه است).

انتشار رو به عقب (Backpropagation)

این مرحله جایی است که یادگیری واقعی اتفاق می‌افتد. پس از اینکه مدل پیش‌بینی خود را انجام داد، آن را با واقعیت مقایسه می‌کند.

محاسبه خطا: تفاوت بین پیش‌بینی و واقعیت، مقدار خطا را مشخص می‌کند.
حرکت معکوس: اطلاعات خطا از لایه خروجی به سمت لایه‌های عقب حرکت می‌کنند تا شبکه بفهمد کدام نورون‌ها و وزن‌ها در ایجاد این خطا نقش داشته‌اند.
اصلاح پارامترها: با استفاده از محاسبات مشتق (گرادیان)، وزن‌ها و بایاس‌ها اصلاح می‌شوند تا در تکرار بعدی، خطا کمتر شود.

آیا می‌توانیم بدون تابع فعال‌سازی کار را انجام دهیم؟

ممکن است این سوال هوشمندانه به ذهن شما هم خطور کرده باشد: استفاده از تابع فعال‌سازی در هر لایه، یک مرحله اضافی و محاسباتی به فرآیند انتشار رو به جلو (Forward Propagation) اضافه می‌کند. اگر این کار باعث افزایش پیچیدگی می‌شود. آیا می‌توانیم به سادگی آن را حذف کنیم؟

بیایید با هم سناریویی را تصور کنیم که در آن شبکه‌های عصبی فاقد هرگونه تابع فعال‌سازی هستند. در این حالت، هر نورون فقط یک تبدیل خطی (Linear Transformation) روی ورودی‌ها انجام می‌دهد (یعنی ضرب در وزن‌ها و جمع با بایاس).

اگرچه این کار باعث ساده‌تر شدن محاسبات ریاضی می‌شود، اما یک مشکل بزرگ پیش می‌آید. این شبکه بسیار ضعیف خواهد بود و هرگز توانایی یادگیری الگوهای پیچیده و پنهان در داده‌ها را نخواهد داشت. در واقع، یک شبکه عصبی بدون تابع فعال‌سازی، چیزی نیست جز یک مدل رگرسیون خطی ساده.

به همین دلیل است که ما از تبدیل‌های غیرخطی استفاده می‌کنیم؛ این جادوی غیرخطی بودن دقیقاً توسط همین توابع فعال‌سازی به شبکه تزریق می‌شود.

چرا وجود توابع فعال‌سازی غیرخطی حیاتی است؟

برای درک بهتر، بیایید فرآیند یادگیری ماشین را به چند مرحله ساده تقسیم کنیم تا ببینیم چرا غیرخطی بودن ستون فقرات هوش مصنوعی است:

۱. پردازش لایه به لایه داده‌ها

شبکه‌های عصبی داده‌ها را لایه به لایه پردازش می‌کنند. در هر لایه، یک مجموع وزن‌دار از ورودی‌ها محاسبه شده و با یک عدد بایاس جمع می‌شود.

۲. بن‌بستِ محدودیت خطی

اگر تمام لایه‌ها از توابع فعال‌سازی خطی (y = mx + b) استفاده کنند، هر چقدر هم که لایه‌های بیشتری روی هم بچینید، خروجی نهایی باز هم یک تابع خطی خواهد بود. مهم نیست شبکه شما چقدر عمیق باشد، خروجی همچنان مثل یک خط صاف عمل می‌کند و نمی‌تواند منحنی‌های پیچیده را مدل‌سازی کند.

۳. معرفی دنیای غیرخطی

توابع فعال‌سازی غیرخطی دقیقاً بعد از مرحله محاسبات خطی در هر لایه وارد عمل می‌شوند. این توابع، داده‌های خطی و خشک را به شکلی انعطاف‌پذیر و منحنی تغییر می‌دهند (مثلاً تابع سیگموئید خروجی را به شکل یک منحنی S در می‌آورد).

۴. یادگیری الگوهای فوق‌پیچیده

به لطف این تبدیل‌های غیرخطی، شبکه می‌تواند الگوهایی را یاد بگیرد که با هیچ خط صافی قابل توصیف نیستند. تصور کنید به جای روی هم چیدن خط‌کش‌های صاف، بخواهید با استفاده از اشکال منحنی و منعطف، یک تصویر پیچیده را خلق کنید.

۵. فراتر از جداسازی ساده

این ویژگی به شبکه اجازه می‌دهد تا از مرزهای ساده (مثل رگرسیون لجستیک) فراتر برود. حالا سیستم می‌تواند روابط درهم‌تنیده و ظریف بین ویژگی‌های مختلف داده را کشف کند.

۶. زیربنای ماموریت‌های دشوار

در نهایت، همین توابع غیرخطی هستند که به عنوان بلوک‌های سازنده عمل می‌کنند و به شبکه‌های عصبی قدرت می‌دهند تا وظایف سنگینی مثل تشخیص چهره، پردازش زبان طبیعی (NLP) و بسیاری از تکنولوژی‌های مدرن را به سرانجام برسانند.

بررسی ۳ دسته اصلی توابع فعال‌سازی در شبکه‌های عصبی

پس از درک مفاهیم پایه، نوبت به شناخت محبوب‌ترین و پرکاربردترین توابع فعال‌سازی می‌رسد که رفتار لایه‌های شبکه را تعیین می‌کنند.

۱. تابع پله‌ای دوگانه (Binary Step Function)

۲. تابع فعال‌سازی خطی (Linear Activation Function)

۳. توابع فعال‌سازی غیرخطی (Non-Linear Activation Functions)

تابع پله‌ای دوگانه (Binary Step Function)

تعریف و مفهوم

تابع پله‌ای دوگانه بر اساس یک مقدار آستانه (Threshold) تصمیم می‌گیرد که آیا یک نورون باید فعال شود یا خیر. ورودی تغذیه شده به تابع با این آستانه مقایسه می‌شود؛ اگر ورودی بزرگتر از آستانه باشد، نورون فعال شده و در غیر این صورت غیرفعال می‌ماند و سیگنالی به لایه بعدی نمی‌فرستد.

فرمول ریاضی

مزایا:

سادگی بسیار زیاد در پیاده‌سازی محاسباتی.
خروجی قطعی (صفر یا یک) که برای تصمیم‌گیری‌های بله/خیر ساده عالی است.

معایب:

عدم پشتیبانی از خروجی‌های چندگانه: برای مسائل طبقه‌بندی چندکلاسه (Multi-class) قابل استفاده نیست.
مشکل گرادیان صفر: مشتق این تابع صفر است، که باعث متوقف شدن فرآیند انتشار رو به عقب (Backpropagation) می‌شود.

کاربرد و مثال

کاربرد: پرسپترون‌های اولیه و مدارهای منطقی ساده.
مثال: سیستمی که فقط باید تشخیص دهد آیا فشار مخزن از حد مجاز عبور کرده است یا خیر.

تابع فعال‌سازی خطی (Linear Activation Function)

تعریف و مفهوم

این تابع که با نام‌های “بدون فعال‌سازی“ یا “تابع همانی” (Identity Function) نیز شناخته می‌شود، خروجی را دقیقاً متناسب با ورودی تولید می‌کند. این تابع هیچ تغییری روی مجموع وزن‌دار ورودی‌ها انجام نمی‌دهد و همان مقداری را که دریافت کرده، بیرون می‌دهد.

فرمول ریاضی

مزایا:

ایده‌آل برای مسائل رگرسیون که خروجی می‌تواند هر عدد حقیقی باشد.

معایب:

مشکل در Backpropagation: مشتق این تابع یک عدد ثابت است و هیچ رابطه‌ای با ورودی x ندارد، بنابراین یادگیری پیچیده ممکن نیست.
فروپاشی لایه‌ها: استفاده از این تابع باعث می‌شود تمام لایه‌های شبکه در یک لایه ادغام شوند؛ یعنی خروجی لایه آخر همچنان یک تابع خطی از لایه اول خواهد بود و عمق شبکه بی‌معنا می‌شود.

کاربرد و مثال

کاربرد: لایه خروجی در مسائل پیش‌بینی عددی (رگرسیون).
مثال: پیش‌بینی قیمت مسکن بر اساس متراژ و ویژگی‌های بنا.

توابع فعال‌سازی غیرخطی (Non-Linear Activation Functions)

تعریف و مفهوم

توابع خطی در واقع فقط یک مدل رگرسیون خطی ساده هستند و قدرت ایجاد نگاشت‌های پیچیده بین ورودی و خروجی را ندارند. توابع غیرخطی برای حل محدودیت‌های مدل‌های خطی معرفی شده‌اند و به شبکه اجازه می‌دهند الگوهای درهم‌تنیده را یاد بگیرد.

چرا توابع غیرخطی ضروری هستند؟

امکان انتشار رو به عقب: چون مشتق این توابع با ورودی در ارتباط است، می‌توان به عقب برگشت و فهمید کدام وزن‌ها نیاز به اصلاح دارند تا پیش‌بینی بهتری حاصل شود.
امکان چیدمان لایه‌ها : این توابع اجازه می‌دهند چندین لایه نورون روی هم قرار گیرند، زیرا خروجی اکنون یک ترکیب غیرخطی از ورودی‌هایی است که از چندین لایه عبور کرده‌اند. هر خروجی را می‌توان به عنوان یک محاسبه عملکردی در شبکه عصبی نمایش داد.

انواع توابع غیرخطی

در ادامه، به بررسی ۱۰ تابع غیرخطی مختلف و ویژگی‌های آن‌ها خواهیم پرداخت که شامل مواردی چون Sigmoid، Tanh، ReLU و نسخه‌های پیشرفته‌تر آن‌ها می‌شود.

۱. تابع فعال‌سازی سیگموئید یا لجستیک (Sigmoid / Logistic)

۲. تابع تانژانت هیپربولیک (Tanh)

۳. تابع ReLU (واحد اصلاح‌شده خطی)

۴. تابع Leaky ReLU

۵. تابع (PReLU) Parametric ReLU

۶. تابع واحد خطی نمایی (ELU)

۷. تابع سافت‌مکس (Softmax)

۸. تابع سویش (Swish)

۹. تابع واحد خطی خطای گاوسی (GELU)

۱۰. تابع واحد خطی نمایی مقیاس‌شده (SELU)

۱. تابع فعال‌سازی سیگموئید یا لجستیک (Sigmoid / Logistic)

تعریف و مفهوم

تابع سیگموئید یکی از کلاسیک‌ترین توابع فعال‌سازی است که هر عدد حقیقی را به عنوان ورودی دریافت کرده و خروجی آن را دقیقا در بازه ۰ تا ۱ قرار می‌دهد. در این تابع، هرچه ورودی بزرگتر (مثبت‌تر) باشد، خروجی به ۱.۰ نزدیک‌تر می‌شود و هرچه ورودی کوچکتر (منفی‌تر) باشد، خروجی به ۰.۰ متمایل خواهد بود.

فرمول ریاضی

این تابع با نماد σ (x) نشان داده می‌شود و فرمول آن به شرح زیر است:

چرا سیگموئید بسیار محبوب است؟

پیش‌بینی احتمال: این تابع برای مدل‌هایی که نیاز به پیش‌بینی احتمال به عنوان خروجی دارند، بهترین انتخاب است؛ چرا که احتمال همیشه بین ۰ و ۱ تعریف می‌شود.
گرادیان نرم(S-Shape): این تابع مشتق‌پذیر است و یک گرادیان هموار ایجاد می‌کند که مانع از پرش‌های ناگهانی در مقادیر خروجی می‌شود. این ویژگی در نمودار به صورت یک منحنی S شکل ظاهر می‌شود.

مزایا:

درک شهودی بالا برای مسائل طبقه‌بندی دوگانه. (Binary Classification)
ایده‌آل برای لایه‌های خروجی که نیاز به خروجی احتمالی دارند.

معایب و محدودیت‌ها:

مشکل محو شدن گرادیان: مشتق این تابع برابر است با f'(x) = σ (x)(1- σ (x)) . همان‌طور که در نمودار مشخص است، مقادیر گرادیان فقط در بازه ۳– تا ۳ قابل توجه هستند و در خارج از این بازه، نمودار بسیار تخت می‌شود. این یعنی برای مقادیر بزرگتر از ۳ یا کوچکتر از ۳-، گرادیان به صفر نزدیک شده، یادگیری شبکه متوقف می‌شود و شبکه دچار مشکل محو شدن گرادیان می‌گردد.
عدم تقارن حول صفر: خروجی این تابع حول صفر متقارن نیست؛ بنابراین خروجی تمام نورون‌ها همواره دارای یک علامت (مثبت) خواهد بود. این موضوع آموزش شبکه عصبی را دشوارتر و ناپایدارتر می‌کند.

کاربرد و مطالعه موردی

کاربرد: لایه نهایی در مدل‌های تشخیص هرزنامه (Spam Detection) یا تشخیص بیماری (بله/خیر).
مثال: در یک سیستم تشخیص تقلب بانکی، تابع سیگموئید مشخص می‌کند که احتمال “تقلب” بودن یک تراکنش چند درصد است (مثلاً ۰.۸۵ یا ۸۵٪).

۲. تابع تانژانت هیپربولیک (Tanh)

تعریف و مفهوم

تابع Tanh شباهت بسیار زیادی به تابع سیگموئید دارد و همان منحنی S شکل را نمایش می‌دهد، با این تفاوت که بازه خروجی آن بین ۱– تا ۱ است. در این تابع، هرچه ورودی بزرگتر (مثبت‌تر) باشد، خروجی به ۱.۰ نزدیک‌تر می‌شود و هرچه ورودی کوچکتر (منفی‌تر) باشد، خروجی به ۱.۰– متمایل خواهد بود.

فرمول ریاضی

مزایا:

تمرکز حول صفر: خروجی این تابع حول صفر متمرکز است؛ بنابراین می‌توان خروجی‌ها را به راحتی به گروه‌های به شدت منفی، خنثی و به شدت مثبت نگاشت کرد.
مناسب برای لایه‌های پنهان: به دلیل بازه ۱- تا ۱، میانگین خروجی لایه‌های پنهان به صفر نزدیک می‌شود که باعث مرکزیت داده‌ها (Data Centering) و تسهیل یادگیری در لایه‌های بعدی می‌گردد.
برتری بر سیگموئید: اگرچه هر دو با مشکل محو شدن گرادیان روبرو هستند، اما به دلیل مرکزیت حول صفر و عدم محدودیت جهت حرکت گرادیان‌ها، در عمل Tanh همیشه بر سیگموئید ترجیح داده می‌شود.

معایب:

محو شدن گرادیان: مشابه سیگموئید، در مقادیر بسیار بزرگ یا بسیار کوچک ورودی، نمودار تخت شده و گرادیان به صفر نزدیک می‌شود که مانع یادگیری شبکه می‌گردد.
شیب تند: گرادیان Tanh نسبت به سیگموئید بسیار تندتر است که می‌تواند در برخی موارد محاسبات را حساس‌تر کند.

کاربرد و مثال

کاربرد: لایه‌های پنهان در شبکه‌های عصبی کم‌عمق و مدل‌های پردازش زبان طبیعی قدیمی.
مثال: در تحلیل عواطف (Sentiment Analysis)، Tanh می‌تواند به خوبی تمایز بین جملات منفی (۱-) و مثبت (۱+) را نشان دهد.

۳. تابع ReLU (واحد اصلاح‌شده خطی)

تعریف و مفهوم

ReLU مخفف Rectified Linear Unit است. با وجود ظاهر خطی، این تابع دارای مشتق بوده و اجازه انتشار رو به عقب را می‌دهد، در حالی که از نظر محاسباتی بسیار بهینه است. ویژگی کلیدی ReLU این است که همه نورون‌ها را همزمان فعال نمی‌کند؛ نورون‌ها تنها زمانی فعال می‌شوند که خروجی بزرگتر از صفر باشد.

فرمول ریاضی

مزایا:

بهینگی محاسباتی: به دلیل فعال‌سازی تعداد محدودی از نورون‌ها، این تابع نسبت به Tanh و سیگموئید بسیار سریع‌تر اجرا می‌شود.
همگرایی سریع: به دلیل ماهیت خطی و غیر-اشباع (در ناحیه مثبت)، سرعت رسیدن به کمینه تابع هزینه (Global Minimum) را افزایش می‌دهد.

معایب:

مشکل مرگ نورون‌ها: در ناحیه منفی نمودار، مقدار گرادیان صفر می‌شود. این موضوع باعث می‌شود در طول Backpropagation، وزن‌ها و بایاس‌های برخی نورون‌ها هرگز آپدیت نشوند و نورون عملاً بمیرد.
کاهش توانایی برازش: تبدیل فوری تمام مقادیر منفی به صفر، توانایی مدل برای یادگیری الگوهای پیچیده از داده‌های منفی را کاهش می‌دهد.

۴. تابع Leaky ReLU

تعریف و مفهوم

Leaky ReLU نسخه بهبود یافته‌ای از ReLU است که برای حل مشکل مرگ نورون‌ها طراحی شده است. این تابع در ناحیه منفی، به جای صفر مطلق، یک شیب مثبت بسیار کوچک دارد.

فرمول ریاضی

مزایا:

حل مشکل نورون‌های مرده: با ایجاد یک گرادیان غیرصفر در ناحیه منفی، اجازه می‌دهد وزن‌ها حتی برای ورودی‌های منفی نیز به‌روزرسانی شوند.
پشتیبانی از Backpropagation: تمامی مزایای ReLU را دارد و علاوه بر آن فرآیند یادگیری را در ناحیه منفی نیز ممکن می‌سازد.

معایب:

عدم ثبات در ناحیه منفی: پیش‌بینی‌ها برای مقادیر منفی ممکن است همیشه پایدار یا سازگار نباشند.
یادگیری زمان‌بر: گرادیان کوچک در ناحیه منفی می‌تواند فرآیند یادگیری پارامترها را طولانی کند.

۵. تابع (PReLU) Parametric ReLU

تعریف و مفهوم

Parametric ReLU نوع دیگری از مشتقات ReLU است که هدف آن حل مشکل گرادیان صفر در نیمه منفی محور است. در این تابع، شیب ناحیه منفی یک عدد ثابت نیست، بلکه به عنوان یک پارامتر به نام a در نظر گرفته می‌شود.

فرمول ریاضی

مزایا:

یادگیری پارامتریک: از طریق Backpropagation، شبکه خودش یاد می‌گیرد که بهترین مقدار برای شیب ناحیه منفی (a) چقدر باشد.
جبران شکست Leaky ReLU: زمانی که Leaky ReLU در حل مشکل نورون‌های مرده شکست می‌خورد و اطلاعات به خوبی منتقل نمی‌شود، PReLU وارد عمل می‌شود.

معایب:

عملکرد متغیر: بسته به مقدار یاد گرفته شده برای پارامتر a، ممکن است عملکرد تابع در مسائل مختلف کاملاً متفاوت باشد.

نکته کاربردی: برای ساخت معتبرترین مدل‌های یادگیری ماشین، همیشه داده‌های خود را به سه دسته آموزش (Train)، اعتبارسنجی (Validation) و تست (Test) تقسیم کنید.

۶. تابع واحد خطی نمایی (ELU)

تعریف و مفهوم

ELU یکی از مشتقات قدرتمند ReLU است که بخش منفی تابع را اصلاح می‌کند. برخلاف Leaky ReLU که از خط صاف در ناحیه منفی استفاده می‌کند، ELU یک منحنی لگاریتمی را برای تعریف مقادیر منفی به کار می‌گیرد. فرمول ریاضی

مزایا:

نرم بودن(Smoothness): برخلاف ReLU که در نقطه صفر تغییر ناگهانی دارد، ELU به آرامی و به شکل نرم به مقدار -α نزدیک می‌شود.
حل مشکل مرگ ReLU: با استفاده از منحنی لگاریتمی در ناحیه منفی، از غیرفعال شدن نورون‌ها جلوگیری کرده و به شبکه کمک می‌کند وزن‌ها را در مسیر درست هدایت کند.

معایب:

هزینه محاسباتی: به دلیل وجود عملیات نمایی (e^x)، زمان محاسبات نسبت به مدل‌های ساده‌تر افزایش می‌یابد.
عدم یادگیری آلفا: مقدار α در این تابع ثابت است و مانند PReLU یاد گرفته نمی‌شود.
خطر انفجار گرادیان: در برخی معماری‌ها ممکن است باعث بروز مشکل انفجار گرادیان شود.

۷. تابع سافت‌مکس (Softmax)

تعریف و مفهوم

تابع Softmax را می‌توان ترکیبی از چندین تابع سیگموئید دانست که برای محاسبه احتمالات نسبی در مسائل چندکلاسه به کار می‌رود. در حالی که سیگموئید احتمال یک کلاس را بین ۰ و ۱ می‌دهد، Softmax احتمال هر کلاس را به گونه‌ای محاسبه می‌کند که مجموع احتمالات تمام کلاس‌ها برابر با ۱ شود.

فرمول ریاضی

کاربرد اصلی: لایه آخر شبکه‌های عصبی برای طبقه‌بندی چندگانه (Multi-class Classification).

۸. تابع سویش (Swish)

تعریف و مفهوم

این تابع یک تابع فعال‌سازی خود-دروازه‌بان (Self-gated) است که توسط محققان گوگل توسعه یافته است Swish. در شبکه‌های عمیق و حوزه‌های چالش‌برانگیزی مثل تشخیص تصویر، عملکردی مشابه یا حتی بهتر از ReLU از خود نشان داده است.

مزایا و ویژگی‌ها

ساختار ریاضی: از پایین محدود و از بالا نامحدود است؛ یعنی با میل کردن x به سمت منفی بینهایت به یک مقدار ثابت می‌رسد و با میل کردن به مثبت بینهایت، خروجی نیز بینهایت می‌شود.
خمیدگی نرم: برخلاف ReLU که در نقطه صفر تغییر جهت ناگهانی دارد، Swish به آرامی از صفر به سمت مقادیر منفی خم شده و دوباره بالا می‌آید.
حفظ الگوهای منفی: مقادیر منفی کوچک که در ReLU حذف می‌شدند، در Swish حفظ می‌شوند تا الگوهای پنهان داده‌ها بهتر استخراج شوند.

۹. تابع واحد خطی خطای گاوسی (GELU)

تعریف و مفهوم

تابع GELU با مدل‌های تراز اول دنیا مثل BERT، RoBERTa و ALBERT سازگار است. این تابع با ترکیب ویژگی‌های Dropout (حذف تصادفی)، Zoneout و ReLU ایجاد شده است.

مکانیسم عملکرد

در این تابع، ورودی نورون (x) در مقدار احتمالی توزیع نرمال استاندارد ضرب می‌شود. از آنجایی که ورودی نورون‌ها (به ویژه با Batch Normalization) معمولاً از توزیع نرمال پیروی می‌کنند، این انتخاب بسیار هوشمندانه است.

برتری: عملکرد GELU در حوزه‌های بینایی ماشین و پردازش زبان طبیعی (NLP) بهتر از ReLU و ELU ارزیابی شده است.

۱۰. تابع واحد خطی نمایی مقیاس‌شده (SELU)

تعریف و مفهوم

SELU در شبکه‌های خود-نرمال‌شونده تعریف شده است و وظیفه نرمال‌سازی داخلی را بر عهده دارد؛ یعنی هر لایه میانگین و واریانس لایه قبلی را حفظ می‌کند.

مزایا و ویژگی‌ها

نرمال‌سازی خودکار: SELU با تنظیم میانگین و واریانس از طریق مقادیر مثبت و منفی، فرآیند نرمال‌سازی را انجام می‌دهد که در ReLU به دلیل عدم تولید خروجی منفی غیرممکن بود.
سرعت همگرایی: نرمال‌سازی داخلی بسیار سریع‌تر از نرمال‌سازی خارجی است و باعث می‌شود شبکه زودتر به نتیجه برسد.
نکته: این تابع نسبتاً جدید است و هنوز پتانسیل‌های آن در معماری‌هایی مثل CNN و RNN در حال بررسی بیشتر است.

راهنمای گام‌به‌گام انتخاب تابع فعال‌سازی

به عنوان یک قاعده کلی ، همیشه کار خود را با تابع ReLU شروع کنید. اگر پس از آموزش متوجه شدید که ReLU نتایج بهینه‌ای ارائه نمی‌دهد، می‌توانید به سراغ سایر توابع بروید.

۱. قوانین طلایی برای لایه‌های پنهان (Hidden Layers)

قلمرو اختصاصی ReLU: تابع فعال‌سازی ReLU فقط باید در لایه‌های پنهان استفاده شود.
خط قرمز سیگموئید و: Tanh از توابع Sigmoid/Logistic و Tanh در لایه‌های پنهان استفاده نکنید. این توابع مدل شما را در برابر مشکلاتی مانند محو شدن گرادیان (Vanishing Gradients) در طول آموزش بسیار حساس و آسیب‌پذیر می‌کنند.
شبکه‌های بسیار عمیق: اگر شبکه عصبی شما دارای عمق بیش از ۴۰ لایه است، تابع Swish انتخاب بهتری خواهد بود.

۲. انتخاب بر اساس نوع مسئله (لایه خروجی)

نوع پیش‌بینی شما تعیین می‌کند که در لایه آخر از چه تابعی استفاده کنید:

نوع مسئله پیش‌بینی	تابع فعال‌سازی لایه خروجی
رگرسیون (تخمین عدد)	خطی (Linear)
طبقه‌بندی دوگانه (بله/خیر)	سیگموئید / لجستیک (Sigmoid)
طبقه‌بندی چندکلاسه (یک از چند)	سافت‌مکس (Softmax)
طبقه‌بندی چندبرچسبی (چند از چند)	سیگموئید (Sigmoid)

۳. انتخاب بر اساس معماری شبکه عصبی

معماری انتخابی شما نیز در تعیین تابع لایه‌های پنهان نقش دارد:

شبکه‌های عصبی پیچشی(CNN): برای پردازش تصویر، تابع ReLU انتخاب اول و استاندارد است.
شبکه‌های عصبی برگشتی(RNN): برای داده‌های سری زمانی و متنی، معمولاً از توابع Tanh و یا Sigmoid استفاده می‌شود.

جمع بندی

توابع فعال‌سازی یکی از اجزای حیاتی شبکه‌های عصبی هستند که امکان یادگیری روابط غیرخطی را فراهم می‌کنند و مستقیماً بر کیفیت و پایداری آموزش مدل اثر می‌گذارند. همان‌طور که دیدیم، هر تابع فعال‌سازی رفتار متفاوتی دارد و برای نوع خاصی از مسئله، معماری شبکه یا لایه خروجی مناسب‌تر است.

در این مقاله بررسی کردیم که چرا توابعی مانند ReLU و خانواده آن در لایه‌های پنهان محبوب‌اند، چرا Softmax برای مسائل چندکلاسه انتخاب منطقی‌تری است و چرا توابع قدیمی‌تری مانند Sigmoid در برخی شرایط با محدودیت‌هایی مواجه می‌شوند. این مقایسه نشان داد که هیچ تابع فعال‌سازی به‌طور مطلق بهترین انتخاب نیست و تصمیم‌گیری باید بر اساس نوع داده و هدف مسئله انجام شود.

در نهایت، شناخت درست توابع فعال‌سازی به شما کمک می‌کند شبکه‌های عصبی را نه به‌صورت آزمون‌وخطا، بلکه با درک عمیق طراحی کنید. این آگاهی، گامی مهم در مسیر حرفه‌ای شدن در یادگیری ماشین و یادگیری عمیق است و پایه‌ای محکم برای درک مباحث پیشرفته‌تری مانند گرادیان کاهشی، پس‌انتشار و بهینه‌سازی مدل‌ها فراهم می‌کند.