Quina diferència hi ha entre la descendència i la propagació de l'esquena en l'aprenentatge profund? No són el mateix?


Resposta 1:

La resposta breu és NO.

El descens de gradients utilitza la propagació endarrerida.

———————

El descens de gradient és un algorisme d’optimització introductòria senzill, fàcil d’utilitzar i de primer ordre, molt eficaç per a l’optimització convexa, segueix sent una opció popular per a la majoria d’optimitzadors, inclosa la funció de costos de les xarxes neuronals profundes.

Crèdit d'imatge: Intel·ligència de màquines en automatització de disseny.

Els algorismes d’optimització de la funció de cost neuràlgic profund de la xarxa neuronal requereixen un mètode per quantificar i propagar els errors retrocedits trobats durant cada iteració d’algorisme d’optimització com el Gradient Descent. L’algoritme de propagació posterior calcula errors de gradient per a la baixada de gradient per continuar el procés d’entrenament.

Gràcies.


Resposta 2:

Estimat amic,

Permet veure a la part inferior de la figura una xarxa de dues capes

La primera fila és la propagació Endavant i la segona fila, la propagació enrere.

Propagació endavant:

A la Propagació endavant, proporcionem l'entrada x cada calaix de nueron calcula dues funcions

una és la multiplicació lineal, és a dir, Z = W * X + b i,

La segona és la funció d’activació a = relu (z), podem utilitzar diferents funcions d’activació.

llavors es reenviarà a través de totes les capes i obtindrem la sortida prevista.

Propagació del darrere:

La propagació posterior és una tècnica per reduir la pèrdua i.e (actual o / p-prevista o / p)

actualitzant els paràmetres pes, biaix mitjançant un algorisme anomenat Gradientdescent.

Així doncs, tècnicament els dos es diferencien en la propagació del darrere utilitzant l'algorisme de Gradient Descent. Que podeu veure a la figura superior de la segona fila.

Es tracta d’una propietat d’assignació de crèdit que significa la raó d’una sortida errònia no només degut a la capa final, sinó també a la capa anterior, és per això que calculem els gradients de cada capa amb pèrdua (L).

Els passos següents:

A la segona fila de l'última columna, diferenciarem parcialment la pèrdua (L) amb la secció [2]

però un [2] depèn de z [2] ...

de nou z [2] depèn del pes w [1], l’activació a [1] i el biaix b (1), de manera que calcularem els gradients de a [1], w [1], b [1] wrt Pèrdua (L )

A continuació, utilitzant l'algorisme GD actualitzarem el pes i el biaix d'aquesta capa

però de nou un [1] depèn del càlcul de z [1] .... El procediment anterior es repetirà fins a la primera capa.

Finalment ...!

Així es continuarà (propagant) Endarrere i.e. Propagació enrere.

per què va?

Per fer reduir la pèrdua

Com?

Calcular tots els degradats de paràmetres w.r.t L i actualitzar-los mitjançant l'algoritme de descens de gradients

Espero que us ajudi


Resposta 3:

No, no ho són. La backpropagation és l'algorisme que s'utilitza per calcular el gradient de la funció de pèrdua respecte als paràmetres de la xarxa neuronal. El descens de gradient és l’algoritme d’optimització que s’utilitza per trobar paràmetres que minimitzin la funció de pèrdua. Hi ha altres algoritmes d’optimització (com Adam o AdaDelta) que també es basen en la backpropagation per rebre el gradient.


Resposta 4:

No, no ho són. La backpropagation és l'algorisme que s'utilitza per calcular el gradient de la funció de pèrdua respecte als paràmetres de la xarxa neuronal. El descens de gradient és l’algoritme d’optimització que s’utilitza per trobar paràmetres que minimitzin la funció de pèrdua. Hi ha altres algoritmes d’optimització (com Adam o AdaDelta) que també es basen en la backpropagation per rebre el gradient.