Küsimus:
Miks on keskmine ruutviga empiirilise jaotuse ja Gaussi mudeli rist entroopia?
Mufei Li
2017-07-02 20:54:47 UTC
view on stackexchange narkive permalink

Punktis 5.5, Deep Learning (autorid Ian Goodfellow, Yoshua Bengio ja Aaron Courville) öeldakse, et

Iga negatiivsest log-tõenäosusest koosnev kaotus on rist-entroopia õppekomplekti poolt määratletud empiirilise jaotuse ja mudeli järgi määratletud tõenäosusjaotuse vahel.Näiteks keskmine ruutviga on rist-entroopia empiirilise jaotuse ja Gaussi mudeli vahel.

Ma ei saa aru, miks nad on samaväärsed ja autorid ei laienda seda teemat.

Kaks vastused:
whuber
2017-07-02 21:11:33 UTC
view on stackexchange narkive permalink

Olgu andmete väärtuseks $ \ mathbf {x} = (x_1, \ ldots, x_n) $. Kirjutage empiirilise jaotuse jaoks $ F (\ mathbf {x}) $. Definitsiooni kohaselt on mis tahes funktsiooni $ f $ jaoks

$$ \ mathbb {E} _ {F (\ mathbf {x})} [f (X)] = \ frac {1} {n} \ sum_ {i = 1} ^ nf (x_i). $ $

Laske mudeli $ M $ tihedus $ e ^ {f (x)} $, kus $ f $ on määratletud mudeli toel. $ F (\ mathbf {x}) $ ja $ M $ rist-entroopia on määratletud järgmiselt:

$$ H (F (\ mathbf {x}), M) = - \ mathbb {E} _ {F (\ mathbf {x})} [\ log (e ^ {f (X)}] = - \ mathbb {E} _ {F (\ mathbf {x})} [f (X)] = - \ frac {1} {n} \ summa_ {i = 1} ^ nf (x_i). \ silt {1 } $$

Eeldades, et $ x $ on lihtne juhuslik valim, on selle negatiivne logi tõenäosus

$$ - \ log (L (\ mathbf {x})) = - \ log \ prod_ {i = 1} ^ ne ^ {f (x_i)} = - \ sum_ {i = 1} ^ nf ( x_i) \ tag {2} $$

logaritmide omaduste tõttu (need muudavad tooted summadeks). Avaldis $ (2) $ on konstantne $ n $ korda väljend $ (1) $. Kuna kahjumi funktsioone kasutatakse statistikas ainult nende võrdlemisel, pole vahet, kas üks on (positiivne) konstant teisest. Selles mõttes on negatiivne logitõenäosus tsitaadis rist-entroopia.


Tsitaadi teise väite õigustamiseks on vaja natuke rohkem fantaasiat. Seos ruutveaga on selge, sest "Gaussi mudeli" puhul, mis ennustab väärtusi $ p (x) $ punktides $ x $, on $ f $ väärtus sellises punktis

$$ f (x; p, \ sigma) = - \ frac {1} {2} \ left (\ log (2 \ pi \ sigma ^ 2) + \ frac {(xp (x)) ^ 2 } {\ sigma ^ 2} \ paremal), $$

mis on ruuduviga $ (xp (x)) ^ 2 $ , kuid muudeti skaalaga $ 1 / (2 \ sigma ^ 2) $ ja nihutati funktsiooni $ \ sigma $ abil. Üks pakkumise korrektseks muutmiseks on eeldada, et see ei pea dollarit \ sigma $ "mudeli" osaks - $ \ sigma $ tuleb määrata kuidagi andmetest sõltumatult. Sel juhul on keskmise ruuduvea vahelised erinevused proportsionaalsed risti-entroopiate või log-tõenäosuste vaheliste erinevustega , muutes mudeli sobitamise eesmärgil kõik kolm samaväärseks.

(Tavaliselt sobib $ \ sigma = \ sigma (x) $ siiski modelleerimisprotsessi osaks, sel juhul ei oleks tsitaat päris õige.)

+1 kahe soovitusega - võib kasutada $ g () $ asemel $ f () $, et vältida segiajamist $ F () $ -ga.Teine on $ \ sigma ^ 2 $ hinnanguline väärtus $ k \ sum_ {i = 1} ^ n \ vasak (x_i - p (x_i) \ right) ^ 2 $.Selle ühendamisel ja liitmisel saate $ - \ frac {1} {2} \ log \ left [\ sum_ {i = 1} ^ n \ left (x_i - p (x_i) \ right) ^ 2 \paremal] + h (k) $.Sarnaselt AIC-tüüpi valemiga ...
@probabilityislogic Valin paari $ F $ ja $ f $, kuna need * esindavad * tihedalt seotud koguseid.
Tere, ma arvan, et seda kohaldatakse ainult lineaarse jaotuse korral.Mittelineaarsete levitamisprobleemide korral võime arvata, et MSE-d saab endiselt kasutada kulude funktsioonina, eks?
Kilian Batzner
2017-12-10 05:45:21 UTC
view on stackexchange narkive permalink

Sügava õppimise raamatu lugejate jaoks lisan suurepärase vastuvõetud vastuse juurde, et autorid selgitavad oma väidet üksikasjalikult jaotises 5.5.1, nimelt Example: Linear Regression as Maximum Likelihood.

Seal loetlevad nad täpselt aktsepteeritud vastuses mainitud piirangu:

$ p (y | x) = \ mathcal {N} \ suur (y; \ hat {y} (x; w), \ sigma ^ 2 \ suur) $.Funktsioon $ \ hat {y} (x; w) $ annab Gaussi keskmise prognoosi.Selles näites eeldame, et dispersioon on fikseeritud kasutaja valitud konstantsele $ \ sigma ^ 2 $.

Seejärel näitavad nad, et MSE minimeerimine vastab maksimaalse tõenäosuse hinnangule ja seega empiirilise jaotuse ja $ p (y | x) $ vahelise rist-entroopia minimeerimisele.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 3.0-litsentsi eest, mille all seda levitatakse.
Loading...