Discussione:
matrice hessiana
Aggiungi Risposta
Ronie
2018-10-24 18:47:37 UTC
Rispondi
Permalink
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2

saltando alcuni passaggi

perchè si passa da derivata a matrice?
ngs
2018-10-26 15:16:51 UTC
Rispondi
Permalink
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.

Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
Vogliamo determinare due cose:
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
Per es.:
t=0: p + 0v = p
t=1: p + 1v = p + v = p + (q-p) = q
t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2 [punto medio]

Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.

Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).

Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
= f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
Si potrebbe dire che t influenza f "a diamante":
f
/ \
x+ta y+tb
\ /
t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
(influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
= d(x+ta)/dt * df(x+ta)/d(x+ta)
= a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.

E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
g'(t) = f_1 a + f_2 b
(le prime volte, almeno).

L'espressione sopra può essere riscritta come
g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
= (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).

Ora calcoliamo g''(t), indicando (f_1)_1 con f_11, ecc...:
g''(t) = g'(t)
= d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
= ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
= ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
= f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
[f_11 f_12]
[f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
g''(t) = [a b] H(x+ta, y+tb) [a b]^T
= v^T H(x+ta, y+tb) v
= v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!

Kiuhnm
Ronie
2018-10-27 11:27:35 UTC
Rispondi
Permalink
Post by ngs
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
  t=0:   p + 0v = p
  t=1:   p + 1v = p + v = p + (q-p) = q
  t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2    [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
  g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
        = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
         f
       /   \
    x+ta   y+tb
       \   /
         t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
  (influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
  influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
       = d(x+ta)/dt * df(x+ta)/d(x+ta)
       = a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
  g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
  g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
  g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
        = (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
  g''(t) = g'(t)
    = d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
    = ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
    = ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
      ( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
    = f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
      f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
  [f_11 f_12]
  [f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
  g''(t) = [a b] H(x+ta, y+tb) [a b]^T
    = v^T H(x+ta, y+tb) v
    = v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm
e per fortuna che era semplice ;P
Wakinian Tanka
2018-10-27 12:31:28 UTC
Rispondi
Permalink
Post by Ronie
Post by ngs
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
  t=0:   p + 0v = p
  t=1:   p + 1v = p + v = p + (q-p) = q
  t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2    [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
  g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
        = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
         f
       /   \
    x+ta   y+tb
       \   /
         t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
  (influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
  influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
       = d(x+ta)/dt * df(x+ta)/d(x+ta)
       = a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
  g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
  g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
  g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
        = (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
  g''(t) = g'(t)
    = d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
    = ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
    = ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
      ( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
    = f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
      f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
  [f_11 f_12]
  [f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
  g''(t) = [a b] H(x+ta, y+tb) [a b]^T
    = v^T H(x+ta, y+tb) v
    = v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm
e per fortuna che era semplice ;P
Ma la domanda no.
Il prodotto tra la complessita' della domanda e quella della risposta e' una costante e vale 137.

--
Wakinian Tanka
Ronie
2018-10-30 14:31:44 UTC
Rispondi
Permalink
Post by Wakinian Tanka
Post by Ronie
Post by ngs
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
  t=0:   p + 0v = p
  t=1:   p + 1v = p + v = p + (q-p) = q
  t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2    [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
  g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
        = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
         f
       /   \
    x+ta   y+tb
       \   /
         t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
  (influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
  influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
       = d(x+ta)/dt * df(x+ta)/d(x+ta)
       = a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
  g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
  g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
  g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
        = (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
  g''(t) = g'(t)
    = d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
    = ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
    = ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
      ( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
    = f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
      f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
  [f_11 f_12]
  [f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
  g''(t) = [a b] H(x+ta, y+tb) [a b]^T
    = v^T H(x+ta, y+tb) v
    = v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm
e per fortuna che era semplice ;P
Ma la domanda no.
Il prodotto tra la complessita' della domanda e quella della risposta e' una costante e vale 137.
--
Wakinian Tanka
non ho capito ... perchè è una costante e vale 137?
Wakinian Tanka
2018-10-30 16:38:55 UTC
Rispondi
Permalink
Post by Ronie
Post by Wakinian Tanka
Post by Ronie
Post by ngs
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
  t=0:   p + 0v = p
  t=1:   p + 1v = p + v = p + (q-p) = q
  t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2    [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
  g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
        = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
         f
       /   \
    x+ta   y+tb
       \   /
         t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
  (influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
  influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
       = d(x+ta)/dt * df(x+ta)/d(x+ta)
       = a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
  g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
  g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
  g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
        = (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
  g''(t) = g'(t)
    = d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
    = ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
    = ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
      ( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
    = f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
      f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
  [f_11 f_12]
  [f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
  g''(t) = [a b] H(x+ta, y+tb) [a b]^T
    = v^T H(x+ta, y+tb) v
    = v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm
e per fortuna che era semplice ;P
Ma la domanda no.
Il prodotto tra la complessita' della domanda e quella della risposta e'
una costante e vale 137.
non ho capito ... perchè è una costante e vale 137?
La tua domanda e' estremamente semplice (troppo) quindi di complessità quasi nulla, pertanto la risposta dovrebbe essere estremamente complessa, troppo lunga da scrivere qui.
Il 137 viene fuori dalla costante di accoppiamento elettromagnetico (costante di struttura fine, che vale circa 1/137) in quanto la complessità e' in relazione all'accoppiamento tra i circuiti elettrici neuronali.
:-)

--
Wakinian Tanka
Ronie
2018-10-31 10:18:24 UTC
Rispondi
Permalink
Post by Wakinian Tanka
Post by Ronie
Post by Wakinian Tanka
Post by Ronie
Post by ngs
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
  t=0:   p + 0v = p
  t=1:   p + 1v = p + v = p + (q-p) = q
  t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2    [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
  g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
        = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
         f
       /   \
    x+ta   y+tb
       \   /
         t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
  (influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
  influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
       = d(x+ta)/dt * df(x+ta)/d(x+ta)
       = a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
  g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
  g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
  g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
        = (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
  g''(t) = g'(t)
    = d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
    = ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
    = ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
      ( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
    = f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
      f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
  [f_11 f_12]
  [f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
  g''(t) = [a b] H(x+ta, y+tb) [a b]^T
    = v^T H(x+ta, y+tb) v
    = v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm
e per fortuna che era semplice ;P
Ma la domanda no.
Il prodotto tra la complessita' della domanda e quella della risposta e'
una costante e vale 137.
non ho capito ... perchè è una costante e vale 137?
La tua domanda e' estremamente semplice (troppo) quindi di complessità quasi nulla, pertanto la risposta dovrebbe essere estremamente complessa, troppo lunga da scrivere qui.
Il 137 viene fuori dalla costante di accoppiamento elettromagnetico (costante di struttura fine, che vale circa 1/137) in quanto la complessità e' in relazione all'accoppiamento tra i circuiti elettrici neuronali.
:-)
--
Wakinian Tanka
ma vaffanculo.
sai che le persone di merda meritano tutte di fare una brutta fine ?!!!???
lo sai ??!?!??!
Wakinian Tanka
2018-10-31 16:04:07 UTC
Rispondi
Permalink
Post by Ronie
Post by Wakinian Tanka
Post by Ronie
Post by Wakinian Tanka
Post by Ronie
Post by ngs
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
  t=0:   p + 0v = p
  t=1:   p + 1v = p + v = p + (q-p) = q
  t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2    [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
  g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
        = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
         f
       /   \
    x+ta   y+tb
       \   /
         t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
  (influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
  influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
       = d(x+ta)/dt * df(x+ta)/d(x+ta)
       = a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
  g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
  g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
  g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
        = (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
  g''(t) = g'(t)
    = d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
    = ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
    = ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
      ( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
    = f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
      f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
  [f_11 f_12]
  [f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
  g''(t) = [a b] H(x+ta, y+tb) [a b]^T
    = v^T H(x+ta, y+tb) v
    = v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm
e per fortuna che era semplice ;P
Ma la domanda no.
Il prodotto tra la complessita' della domanda e quella della risposta e'
una costante e vale 137.
non ho capito ... perchè è una costante e vale 137?
La tua domanda e' estremamente semplice (troppo) quindi di complessità quasi nulla, pertanto la risposta dovrebbe essere estremamente complessa, troppo lunga da scrivere qui.
Il 137 viene fuori dalla costante di accoppiamento elettromagnetico (costante di struttura fine, che vale circa 1/137) in quanto la complessità e' in relazione all'accoppiamento tra i circuiti elettrici neuronali.
:-)
ma vaffanculo.
sai che le persone di merda meritano tutte di fare una brutta fine ?!!!???
lo sai ??!?!??!
Spero sinceramente per te che non sia cosi', in fondo mi dispiacerebbe.

--
Wakinian Tanka
Gino Di Ruberto IK8QQM - K8QQM
2018-10-31 16:23:26 UTC
Rispondi
Permalink
Post by Wakinian Tanka
Post by Ronie
ma vaffanculo.
sai che le persone di merda meritano tutte di fare una brutta fine ?!!!???
lo sai ??!?!??!
Spero sinceramente per te che non sia cosi', in fondo mi dispiacerebbe.
A me no.
--
Gino Di Ruberto, IK8QQM
(american callsign K8QQM),
ID DMR: 2228273
Ronie
2018-10-31 10:19:45 UTC
Rispondi
Permalink
Post by Wakinian Tanka
Post by Ronie
Post by Wakinian Tanka
Post by Ronie
Post by ngs
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
  t=0:   p + 0v = p
  t=1:   p + 1v = p + v = p + (q-p) = q
  t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2    [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
  g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
        = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
         f
       /   \
    x+ta   y+tb
       \   /
         t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
  (influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
  influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
       = d(x+ta)/dt * df(x+ta)/d(x+ta)
       = a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
  g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
  g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
  g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
        = (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
  g''(t) = g'(t)
    = d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
    = ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
    = ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
      ( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
    = f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
      f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
  [f_11 f_12]
  [f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
  g''(t) = [a b] H(x+ta, y+tb) [a b]^T
    = v^T H(x+ta, y+tb) v
    = v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm
e per fortuna che era semplice ;P
Ma la domanda no.
Il prodotto tra la complessita' della domanda e quella della risposta e'
una costante e vale 137.
non ho capito ... perchè è una costante e vale 137?
La tua domanda e' estremamente semplice (troppo) quindi di complessità quasi nulla, pertanto la risposta dovrebbe essere estremamente complessa, troppo lunga da scrivere qui.
Il 137 viene fuori dalla costante di accoppiamento elettromagnetico (costante di struttura fine, che vale circa 1/137) in quanto la complessità e' in relazione all'accoppiamento tra i circuiti elettrici neuronali.
:-)
--
Wakinian Tanka
ma allora se è troppo grande,perchè solo 137?
ngs
2018-10-27 14:06:50 UTC
Rispondi
Permalink
Post by Ronie
e per fortuna che era semplice ;P
Tipo:
- Come faccio a sostituire l'hard disk del mio PC?
- Semplice: apri il PC, quindi...
- Ah no, no, lascia perdere, pensavo fosse più semplice :(

Kiuhnm
Ronie
2018-11-08 12:13:22 UTC
Rispondi
Permalink
Post by ngs
Post by Ronie
perchè data la funzione f : R^n->R
con ad esempio f(x,y)=x^2 - y^2
saltando alcuni passaggi
perchè si passa da derivata a matrice?
Proverò a spiegarlo in termini semplici, visto che mi serve una pausa
dal Flanders.
Consideriamo una funzione f:R^2->R derivabile. Tale funzione prende due
numeri reali x,y e ne restituisce un terzo. Immagina di avere un tavolo
e di appoggiarci sopra un paesaggio collinare in miniatura che copra
tutto il tavolo. Possiamo immaginare che le coordinate x,y indichino un
punto del tavolo e che f(x,y) sia l'altitudine del paesaggio nel punto
direttamente sopra al punto (x,y) del tavolo. Adesso immaginiamo di
essere una persona in miniatura che si trovi nel punto (x,y) del paesaggio.
1. la pendenza del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
2. la curvatura del paesaggio vicino a (x,y) in tutte le direzioni (una
per volta!)
Per indicare una direzione ci serve un secondo punto, diciamo (x',y'),
diverso da (x,y). In realtà è più comodo considerare il vettore
spostamento da (x,y) a (x',y'), cioè v = (x'-x, y'-y) che possiamo
rappresentare graficamente come una freccia da (x,y) a (x',y').
Se definiamo p = (x,y) e q = (x',y'), allora tutti i punti su tale
freccia hanno posizione p + t(q-p) = p + tv per un qualche numero reale
t in [0,1].
  t=0:   p + 0v = p
  t=1:   p + 1v = p + v = p + (q-p) = q
  t=0.5: p + 0.5v = p + 0.5q - 0.5p = (p + q)/2    [punto medio]
Adesso immaginiamo di essere nel punto p = (x,y) e di guardare in
direzione v = (a,b). Immaginiamo che il paesaggio esista solo lungo la
direzione v, cioè in ogni punto p + tv, con t numero reale.
Avendo fissato p e v, ci siamo ricondotti al caso unidimensionale.
Definiamo g(t) = f(p + tv) per comodità. Se t è in metri, allora
possiamo dire che g(0) è la nostra altitudine nel punto p, mentre g(t) è
l'altitudine alla quale ci troveremo dopo esserci spostati di t metri in
direzione v a partire da p.
Adesso possiamo trattare g come una qualsiasi funzione derivabile da R a
R, con la complicazione che è definita mediante f.
g(t) = f(p + tv) = f((x,y) + t(a,b)) = f(x + ta, y + tb).
fin qui ci arrivo a fatica ... poi più.
non capisco perchè i punti sulla freccia/vettore sono uguali a p + tv
ma il vettore è nel piano (x,y) giusto,non nello spazio/paesaggio collinare?
Post by ngs
Indichiamo la derivata di f rispetto al suo primo argomento, x+ta, con
f_1 e indichiamo con f_2 quella rispetto al secondo. Allora
  g'(t) = f_1(x+ta, y+tb) (x+ta)' + f_2(x+ta, y+tb) (y+tb)'
        = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
         f
       /   \
    x+ta   y+tb
       \   /
         t
t influenza f sia passando per x+ta che per y+tb. In generale,
l'influenza totale di t su f si ottiene considerando tutti i percorsi da
t a f e sommando le loro influenze. Sempre in generale, l'influenza di
un cammino a->b->c è data da
  (influeza di a su b) * (influenza di b su c).
Infine, l'influenza di a su b è la derivata di b rispetto ad a.
Nel nostro caso si ha
  influenza(t->x+ta->f) = influenza(t->x+ta) * influenza(x+ta->f)
       = d(x+ta)/dt * df(x+ta)/d(x+ta)
       = a * f_1
Idem per il secondo cammino e poi si sommano le influenze ottenendo
l'espressione sopra.
E' importante notare che f_1 è ancora valutata in (x+ta, y+tb) quindi è
meglio scrivere
  g'(t) = f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b
anziché semplicemente
  g'(t) = f_1 a + f_2 b
(le prime volte, almeno).
L'espressione sopra può essere riscritta come
  g'(t) = [f_1(x+ta, y+tb) f_2(x+ta, y+tb)]^T [a b]
        = (grad f)^T v
dove il gradiente è valutato in (x+ta, y+tb).
In parole, il gradiente (il vettore delle derivate parziali, come
possiamo vedere) è tutto ciò che ci occorre per poter calcolare la
derivata in qualsiasi direzione v.
Siccome il gradiente è scritto in funzione di (x+ta, y+tb), ponendo t=0
troviamo il gradiente valutato in p = (x,y).
  g''(t) = g'(t)
    = d( f_1(x+ta, y+tb) a + f_2(x+ta, y+tb) b ) / dt
    = ( d/dt f_1(x+ta, y+tb) ) a + ( d/dt f_2(x+ta, y+tb) ) b
    = ( f_11(x+ta, y+tb) a + f_12(x+ta, y+tb) b ) a +
      ( f_21(x+ta, y+tb) a + f_22(x+ta, y+tb) b ) b
    = f_11(x+ta, y+tb) aa + f_12(x+ta, y+tb) ba +
      f_21(x+ta, y+tb) ab + f_22(x+ta, y+tb) bb
Se indichiamo con H(x+ta, y+tb) la matrice
  [f_11 f_12]
  [f_21 f_22]
i cui componenti sono valutati in (x+ta, y+tb),
allora l'espressione sopra diventa
  g''(t) = [a b] H(x+ta, y+tb) [a b]^T
    = v^T H(x+ta, y+tb) v
    = v^T H(p+tv) v
e si vede chiaramente che l'hessiana, cioè la matrice delle derivate
seconde, è tutto ciò che ci serve per poter determinare la curvatura in
p (ponendo t=0) lungo la direzione v, per qualunque p e v. Notiamo che v
può essere un vettore qualsiasi purché non nullo. Di solito, però, lo si
sceglie unitario cioè di lunghezza 1 in modo che grad(p)^T v sia
effettivamente la pendenza della retta tangente alla curva f ristretta
alla direzione v.
Notiamo anche che visto che il gradiente ci dà la pendenza in qualsiasi
direzione, ci dà in effetti l'intero piano tangente al paesaggio nel
punto p (per t=0). Infatti, le rette tangenti nelle varie direzioni sono
"ritagliate" dal piano stesso!
Kiuhnm
Loading...