Quina diferència hi ha entre la normalització d'abandonament i lot? http://arxiv.org/pdf/1502.03167.pdf


Resposta 1:

L’abandonament generalment és una tècnica de regularització. Introdueix el soroll en una xarxa neuronal per forçar la xarxa neuronal a aprendre a generalitzar prou bé com per fer front al soroll. (Es tracta d'una gran simplificació i l'abandonament suposa molt més que una solidesa al soroll)

La normalització per lots és principalment una tècnica per millorar l’optimització.

Com a efecte secundari, la normalització per lots passa a introduir cert soroll a la xarxa, de manera que pot regularitzar una mica el model.

Quan teniu un gran conjunt de dades, és important optimitzar-lo bé, i no tan important per regularitzar bé, de manera que la normalització per lots és més important per a conjunts de dades grans. Per descomptat, podeu fer servir la normalització i l'abandonament per lots alhora - ho faig per a alguns dels meus GAN d'aquest treball: [1606.03498] Tècniques millorades per a entrenaments GAN


Resposta 2:

Els dos mètodes són mètodes de "regularització mitjançant formació". La regularització típica està explícita en la funció objectiu (els exemples serien termes de regularització L1 i L2).

L’abandonament funciona perquè el procés crea múltiples conjunts implícits que comparteixen pesos. La idea és que per cada entrenament s’elimini de forma aleatòria més del 50% de les neurones. De manera eficaç, de moment teniu un subconjunt de la xarxa neuronal original que genera inferències i actualitza els seus pesos. Tan eficaç, teniu moltes més xarxes neuronals treballant com a conjunt per acabar amb la classificació.

La normalització per lots és diferent pel fet que normalitzeu les entrades de forma dinàmica per part mínima. La investigació indica que, quan s’elimina l’abandonament mentre s’utilitza la normalització per lots, l’efecte és un aprenentatge molt més ràpid sense pèrdua de generalització. Sembla que la investigació s'ha realitzat en l'arquitectura inicial de Google.

Per respondre la pregunta, utilitzeu la normalització per lots en arquitectures Inception en lloc de DropOut. La meva intuïció és que Inception ja té molts canvis en el pes, com a conseqüència de la seva òptima estructura. Per tant, els beneficis de generalització de DropOut tenen rendiments disminuïdors.

Quant a la pregunta de "Per què la BN proporciona una bona generalització?" Aquesta és una altra pregunta.