激活函數是什麼?——用故事和比喻講解
故事比喻︰門衛老張的篩選機制
想象一個大型科技公司的總部大樓,每天有很多人想進公司。但並不是所有人都能進去,只有符合某些條件的員工才能進入工作,而其他人要被攔在門外。
這座大樓的門口站著一個門衛——老張。他的任務是檢查進來的人,決定誰能進,誰不能進。他的決策規則就像神經網絡中的“激活函數”!
第一種情況︰老張完全放行恆等函數)
有一天,老張心情很好,他決定︰“今天所有人都能進!”
? 不管是正式員工、游客,還是快遞小哥,只要有人過來,老張就讓他們進大樓。
? 這就像是“線性函數”或“恆等函數”identity function),沒有任何篩選,數據怎麼進來,就怎麼傳遞出去。
問題︰
? 如果門口有太多人,會導致辦公樓人滿為患,甚至干擾員工工作信息過載)。
? 這種情況下,神經網絡可能無法學習復雜的特征,因為它沒有任何“過濾”或“激活”機制。
第二種情況︰老張只讓合格員工進reu 激活函數)
第二天,公司老板告訴老張︰“從現在開始,只有正式員工能進,其他人一律不準進!”
? 于是,如果有人出示正式員工證,老張就讓他進去。
? 但如果是游客、閑雜人等,老張直接搖頭︰“不行,回去吧!”
這就像reu修正線性單元)激活函數︰
? 如果輸入是正數正式員工),就直接通過,傳遞給下一層神經網絡。
? 如果輸入是負數閑雜人等),直接變成 0,相當于拒絕進入。
優點︰
? 過濾掉無用信息負數變成 0,相當于屏蔽了一些干擾)。
? 計算簡單,速度快,不會引入復雜的計算。
問題︰
? 萬一是一個優秀但沒證件的實習生呢? 他可能也被老張攔在門外了reu 會把所有負數信息直接清零)。<oid 激活函數)
有一天,老張覺得︰“或許我不該這麼絕對,可能有些游客也是未來的潛在客戶,不該完全拒之門外。”
于是,他制定了一套打分系統︰
? 正式員工高分)︰直接進!
? 游客中等分)︰可以進去看看,但不能隨意走動。
? 陌生人低分)︰抱歉,不能進!<oid 激活函數,它的輸出介于 0 到 1 之間,相當于一種概率衡量︰
? 高于 0.5 的人高分)︰大概率被接受。
? 低于 0.5 的人低分)︰大概率被拒絕。
優點︰
? 可以平滑地過濾數據,避免“全進或全不進”這樣極端的情況。
? 適用于二分類問題比如郵件是垃圾郵件還是正常郵件)。
問題︰
? 計算比較復雜,不像 reu 那麼直接。
? 當數據過大或過小時,變化很小,容易導致梯度消失學習速度變慢)。<ax 激活函數)
有一天,老板告訴老張︰“我們公司不僅有正式員工,還有不同的部門,比如工程部、市場部、財務部。你不能只區分‘進’或‘不進’,而是要把人分到不同的部門。”
于是,老張開發了一套更加高級的評分系統,不僅判斷某人是否能進,還會計算他屬于哪個部門的概率。
? 如果一個人穿著工程師制服,90 可能屬于工程部,10 可能屬于市場部。
? 如果一個人拿著營銷資料,80 可能屬于市場部,20 可能屬于工程部。
? 每個人都按照最高概率歸類到相應部門。<ax 激活函數,它的作用是︰
? 把所有的可能性轉換成概率分布所有概率加起來是 1)。
? 適用于多分類問題比如識別一張圖片是“貓”、“狗”還是“兔子”)。
優點︰
? 適合多類別分類,可以告訴你“最有可能”是哪一類。
問題︰
? 計算量比 reu 大一點,但在分類任務中是最合適的。
總結︰不同激活函數的角色
激活函數 比喻 適用場景 優點 問題
恆等函數identity) 老張不篩選,所有人都能進 線性回歸 簡單直接 不能處理復雜問題
reu 老張只讓正式員工進,其他人全拒 深度學習、n 計算簡單,效率高 負數全部變 0,信息可能丟失<oid 老張給每個人打分,決定能不能進 二分類問題垃圾郵件分類) 平滑過渡,輸出 01 概率 容易梯度消失<ax 老張不但決定誰進,還要分部門 多分類問題圖像識別) 適合多分類問題 計算比 reu 復雜
結論︰激活函數=智能篩選機制
? 激活函數的作用就像門衛老張,決定哪些信息能進入下一層,哪些要被拒絕。
<oid、softax 各有千秋。
? 深度學習的關鍵就是如何聰明地使用這些篩選機制,讓神經網絡學得更快、更準確!
你更喜歡哪個“門衛策略”呢?如果你是老張,你會怎麼設計你的篩選規則?
喜歡職場小聰明請大家收藏︰()職場小聰明書更新速度全網最快。