Küsimus:
Kas närvivõrgud õpivad funktsiooni või tõenäosustiheduse funktsiooni?
sdiabr
2018-05-21 23:17:29 UTC
view on stackexchange narkive permalink

Küsimus võib tunduda veidi kummaline, sest statistiline järeldus ja närvivõrgud on mulle uued.

Kui närvivõrkude kasutamisel klassifitseerimisprobleemides ütleme, et tahame õppida funktsiooni $ f ^ * $, mis kaardistab sisendite $ x $ ruumi väljundite $ y $ ruumidesse:

$$ f ^ * (x; \ theta) = y $$

Kas sobitame parameetrid ($ \ theta $) mittelineaarse funktsiooni modelleerimiseks või tõenäosustiheduse funktsiooni modelleerimiseks?

Ma ei tea, kuidas küsimust paremini kirjutada.Olen mitu korda lugenud mõlemat asja (tõenäosustiheduse funktsioon või lihtsalt niisama toimimine), seega segadust.

Kolm vastused:
Skander H.
2018-05-21 23:46:33 UTC
view on stackexchange narkive permalink

Rangelt võttes sobivad närvivõrgud mittelineaarsele funktsioonile.

Neid saab tõlgendada tõenäosustiheduse funktsiooni sobitamisena, kui valitakse sobivad aktiveerimisfunktsioonid ja peetakse kinni teatud tingimustest (väärtused peavad olema positiivsed ja $ \ leq $ 1 jne ...).Kuid see on küsimus selles, kuidas otsustate nende väljundit tõlgendada, mitte selles, mida nad tegelikult teevad.Kapoti all on nad endiselt mittelineaarsed funktsioonihindajad, mille valite rakendamiseks PDF-i hindamise konkreetsele probleemile.

Okey @Alex, aitäh.Nii et kui meil on näiteks binaarne klassifikatsiooniprobleem ja väljundkiht on sigmoid, millele rakendame (0,5) künnise, nii et väljundiprognoosiks saab kas 0 või 1, siis modelleerime tõenäosustiheduse funktsiooni?Midagi P taolist (y = {0,1} | x)
@sdiabr tegelikult te * ei kasutaks künnist, kui soovite, et võrk simuleeriks pdf-i - kuna pdf-il võib olla muid väärtusi peale 1 ja 0. Lävendiga saab sellest sirgjooneline klassifikaator.
Õige viis seda vaadata on see, et läviväärtuste määramine on probleem, mis on väljaspool võrku õpitut.Selle eristuse mittejärgimine põhjustab ML-i rakendamisel reaalses maailmas palju probleeme.
Jah, okei, ma saan aru.Nii et unustades künnist, siis ma modelleeriksin pdf-i?Ma arvan, et ajasin lävendiga segi, sest lugesin midagi Bernouilli jaotuse modelleerimise kohta.Kuid ilma läveta on see juba Bernoilli?Kui meil on ainult üks sigmoidse aktiveerimisfunktsiooniga väljundsõlm, mis väljastaks 0 või 1 tõenäosusega p või (1-p)
Jah, sain jälle segadusse, aitäh @CagdasOzgenc.Proovime uuesti: Kasutades väljundkihis sigmoidfunktsiooni, modelleerime otse pdf-faili, eks?mis tahes jaotust järgides võib see õppida.
Jah, see on õige.Kasutate võrku jaotuse (sageli Bernoulli) parameetrite õppimiseks, maksimeerides tavaliselt selle jaotuspere logi tõenäosust.
Te ei õpi siiski tundmatute koefitsientide tõenäosuse jaotust, seega ei õpi ka tagumist ennustavat jaotust.
Mida sa mõtled @BrashEquilibrium?.Nagu Matthew ütles, õpib võrk tõenäosusjaotuse parameetreid Y-ga (X-i kaardistamine Y-ga).Ma ei saa aru, mida mõtlete selle all, et "te ei õpi tagumist ennustavat jaotust", kas pole see õpitud tõenäosusjaotus Y-le?
Cagdas Ozgenc
2018-05-22 09:47:37 UTC
view on stackexchange narkive permalink

Üldiselt ei kasutata neuronivõrke täielike tõenäosustiheduste modelleerimiseks. Nende eesmärk on lihtsalt jaotuse keskmise modelleerimine (või deterministlikus olukorras lihtsalt mittelineaarne funktsioon). Sellegipoolest on neuronivõrkude kaudu väga tõenäoline tiheduse modelleerimine võimalik.

Üks lihtne viis seda teha on näiteks Gaussi juhtumi korral keskmisest ühest väljundist ja dispersioonist teisest võrgu väljundist eraldamine ning seejärel $ -log N minimeerimine (y | x; \ mu, \ sigma) $ funktsioon treeningprotsessi osana tavalise ruudu vea asemel. See on maksimaalse tõenäosusega protseduur närvivõrgu jaoks.

Kui olete selle võrgu alati välja õpetanud, ühendate sisendina väärtuse $ x $, annab see teile $ \ mu $ ja $ \ sigma $, seejärel võite ühendada kogu kolmiku $ y, \ mu, \ sigma $ tiheduseni $ f (y | x) \ sim N (\ mu, \ sigma) $, et saada tiheduse väärtus iga soovitud $ y $ jaoks. Selles etapis saate domeeni reaalse kadumise funktsiooni põhjal valida, millist $ y $ väärtust kasutada. Üks asi, mida tuleks meeles pidada, on see, et $ \ mu $ jaoks peaks väljundi aktiveerimine olema piiramatu, et saaksite emiteerida $ - \ inf $ kuni $ + \ inf $, samas kui $ \ sigma $ peaks olema ainult positiivne aktiveerimine.

Üldiselt, välja arvatud juhul, kui see on deterministlik funktsioon, mida me järgime, on närvivõrkudes kasutatav tavaline ruudukahjumiga treening üsna sama protseduur, mida ma eespool kirjeldasin. Kapoti all eeldatakse kaudselt $ Gaussi $ jaotust, hoolimata sellest, et $ \ sigma $ peaks hoolima, ja kui uurite hoolikalt $ -log N (y | x; \ mu, \ sigma) $, annab see teile avaldise ruutu kaotuse kohta ( Gaussi maksimaalse tõenäosuse hinnangu kaotajafunktsioon). Selles stsenaariumis olete aga oma meele järgi $ y $ väärtuse asemel alati uue $ x $ väärtuse andmise korral alati $ \ mu $ kiirgamine.

Klassifitseerimiseks on väljundiks $ Bernoulli $ jaotus $ Gaussian $ asemel, millel on üks parameeter.Nagu teises vastuses täpsustatud, on see parameeter vahemikus $ 0 $ kuni $ 1 $, nii et väljundi aktiveerimine peaks olema vastav.See võib olla logistiline funktsioon või midagi muud, mis saavutab sama eesmärgi.

Keerukam lähenemine on piiskopi segutiheduse võrgud.Selle kohta saate lugeda siin sageli viidatud artiklist:

https://publications.aston.ac.uk/373/1/NCRG_94_004.pdf

Tahtsite tsiteerida piiskopi MDN-e ... see on ka üks teine viis, kuidas saada närvivõrgud pdf-ide väljastamiseks, mis on loomulikult Bayesi paradigma.Kirjutan sellele vastuse.
Veel üks lõbus paber segu tiheduse võrkude kohta, mida kasutatakse surfamistingimuste ennustamiseks: https://icml.cc/Conferences/2005/proceedings/papers/015_Predicting_CarneyEtAl.pdf
Kas "kogu triplett y, μ, σ" tuleks muuta "kogu triplett x, μ, σ"?
@moh nr.x on antud ja seda ei kuvata tiheduses.
Aksakal
2018-05-22 22:30:42 UTC
view on stackexchange narkive permalink

Minu eriarvamus on see, et enamikus muljetavaldavates praktilistes rakendustes (näiteks nendes, kus neid meedias kõige rohkem kajastatakse) pole see funktsioon ega tõenäosus. Nad viivad ellu stohhastilisi otsuseid.

Pealtnäha näib, et NN lihtsalt sobib funktsiooniga, järjekorda viite universaalne lähendamine . Mõnel juhul, kui kasutatakse teatud aktiveerimisfunktsioone ja konkreetseid eeldusi, näiteks Gaussi tõrkeid, või kui loete referaate Bayesi võrkudes, näib, et NN suudab tekitada tõenäosusjaotusi.

See kõik on aga lihtsalt muide. Mida NN kavatseb teha, on otsuste langetamine. Kui autot juhib tehisintellekt, ei püüa selle NN arvutada tõenäosust, et tal on objekt ees, arvestades, et on tõenäosuse arvutamiseks, et tegemist on inimesega. Samuti ei arvuta see mitmesuguste objektide andurite sisendite kaardistamist. Ei, NN peaks kogu sisendi põhjal tegema otsuse külili juhtimiseks või läbisõidu jätkamiseks. See pole tõenäosuse arvutamine, vaid autole öeldu, mida teha.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 4.0-litsentsi eest, mille all seda levitatakse.
Loading...