Küsimus:
Ristkinnitamine lihtsas inglise keeles?
Shane
2010-08-18 18:11:19 UTC
view on stackexchange narkive permalink

Kuidas kirjeldaksite ristkinnitamist kellelegi, kellel pole andmeanalüüsi tausta?

See küsimus aitab teil segadust tekitada saidinime ettepanekus: http://meta.stats.stackexchange.com/questions/21/what-should-our-site-be-called-what-should-our-domain- nimi-olema / 53 # 53.
Viis vastused:
#1
+57
user28
2010-08-18 18:38:30 UTC
view on stackexchange narkive permalink

Mõelge järgmisele olukorrale:

Ma tahan metroo kätte saada, et minna oma kontorisse. Minu plaan on võtta auto, parkida metroo juurde ja sõita siis rongiga minu kabinetti. Minu eesmärk on jõuda rongile iga päev kell 8.15, et saaksin õigeks ajaks oma kontorisse jõuda. Pean otsustama järgmise: (a) kellaaeg, millal pean kodust lahkuma, ja (b) marsruut, mille abil sõidan jaama.

Eespool Näiteks on mul kaks parameetrit (st kodust väljumise aeg ja marsruut jaama jõudmiseks) ja ma pean valima need parameetrid nii, et jõuaksin jaama kella 8.15-ks.

Ülaltoodud probleemi lahendamiseks võin esmaspäeval, kolmapäeval ja reedel proovida erinevaid parameetrite komplekte (st erinevat väljumisaja ja marsruudi kombinatsiooni), et näha, milline kombinatsioon on 'parim. Idee on see, et kui olen leidnud parima kombinatsiooni, saan seda iga päev kasutada, et oma eesmärk saavutada.

Ülekinnitamise probleem

Probleem ülaltoodud lähenemisviisi puhul on see, et ma võin üle käia, mis tähendab sisuliselt seda, et parim tuvastatud kombinatsioon võib mõnes mõttes olla ainulaadne esmaspäeval, reedel ja reedel ning see kombinatsioon ei pruugi teisipäeval ja teisipäeval toimida. Ülepaigaldamine võib juhtuda, kui kasutan aegade ja marsruutide parimat kombinatsiooni otsides mõnda aspekti liiklusolukorrast E / R / R, mida teisipäeval ja teisipäeval ei esine. üleküllastamisele: ristkinnitamine

Ristvalideerimine on üks lahendus üleliigse paigaldamise jaoks. Idee on selles, et kui oleme kindlaks teinud oma parameetrite parima kombinatsiooni (meie aeg ja marsruut), siis testime selle parameetrite komplekti toimimist teises kontekstis. Seetõttu võiksime testida ka teisipäeval ja neljapäeval, et tagada, et meie valikud töötaksid ka nendel päevadel.

Analoogia laiendamine statistikale

Statistikas on meil sarnane probleem. Tundmatute parameetrite hindamiseks, mida me ei tea, kasutame sageli piiratud kogust andmeid. Kui me sobime üle, töötavad meie parameetrite prognoosid olemasolevate andmete jaoks väga hästi, kuid mitte nii hästi, kui me neid teises kontekstis kasutame. Seega aitab ristkinnitamine ülaltoodud probleemide vältimist, osutades meile teatud kindlustunnet, et parameetrite hinnangud pole ainult nende andmete hindamiseks kasutatud andmed.

Ristvalideerimine pole muidugi täiuslik. Tulles tagasi metroo näite juurde, võib juhtuda, et isegi pärast ristkinnitamist ei pruugi meie parim parameetrivalik töötada erinevate probleemide tõttu (nt ehitus, liiklusmahu muutused ajas jne). / p>

Tehniliselt on see kinnitusvalideerimine, kuid võib ette kujutada metroo näite laiendamist ristvalideerimise kontekstile. Kui see aitab, kirjutan näite ja ülejäänud teksti uuesti ristkinnitamise jaoks.
@srikant..sõnana ülepakutav sõna vihjab mulle, et midagi on "liiga" tehtud tähendusega .. rohkem kui vaja ... nii et mis on liiga tehtud? Kas see pole muutujaid? Mul on kahju, et olen seda terminit mitu korda kuulnud, ja võtaksin selle võimaluse teiega kurssi viia.
Ma arvan, et seda vastust parandaks voltide mõiste lisamine, mis on võti sellele, kuidas CV erineb pidamise testimisest.Näites (kasutades lühendit M esmaspäeval, T teisipäeva, ..., R neljapäeva, ...): Nii et vaadake TWRF-i parima kombinatsiooni saamiseks ja vaadake, kuidas see töötab M-l, siis MWRF-il ja kuidas seetöötab T-l jne. Nii et iga päeva kasutatakse probleemi osana neli korda ja ühe korra probleemi kontrollimiseks, kuid mitte kunagi probleemi ja kontrollina samas voorus.
#2
+44
Shane
2010-08-18 18:20:29 UTC
view on stackexchange narkive permalink

Ma arvan, et seda saab kõige paremini kirjeldada järgmise pildiga (sel juhul on k-kordne ristkinnitus):

alt text

Ristkinnitamine on tehnika, mida kasutatakse ennustusmudelis ülereguleerimise eest kaitsmiseks, eriti juhul, kui andmete hulk võib olla piiratud. Ristvalideerimisel teete andmetest kindla arvu voldid (või partitsioonid), käivitate analüüsi igal klapil ja keskmistate kogu veahinnangu.

Tundub, et antud saidil on mujal arutletud, et k-kordne ristvalideerimine on vaid üks ristkinnitamise tüüp ja selle kirjeldamine ei tee üldist ülesannet ristvalideerimise kirjeldamiseks.
@drknexus: See on õiglane, kuid mainin, et see on k-kordne ja tahtsin selle selgitamiseks pakkuda protsessi visualiseerimist.
Kiire selgitus: kas nfold = 4 tähendab testikomplekti puhul 25%;nkordne = 5 tähendab testikomplekti puhul 20%;nfold = 10 tähendab testikomplekti puhul 10% ja nii edasi: nfold = n tähendab, et testikomplekti läheb 100 / n protsenti?
#3
+10
Andre Holzner
2010-08-19 00:09:38 UTC
view on stackexchange narkive permalink

"Vältige treeningandmete õppimist peast, veendudes, et koolitatud mudel toimib sõltumatute andmete korral hästi."

See on pigem CV motivatsioon kui CV enda kirjeldus.
#4
+6
user88
2010-08-18 20:14:02 UTC
view on stackexchange narkive permalink

Oletame, et uurite mõnda protsessi; olete kogunud mõned seda kirjeldavad andmed ja olete loonud mudeli (kas statistiline või ML, pole oluline). Aga nüüd, kuidas hinnata, kas see on ok? Tõenäoliselt sobib see kahtlaselt hästi andmetega, millele see ehitati, nii et keegi ei usu, et teie mudel on teie arvates nii suurepärane.
Esimene idee on eraldada oma andmete alamhulk ja kasutada seda mudeli koostamise testimiseks oma meetodi järgi ülejäänud andmetele. Nüüd on tulemus kindlasti üleliigne, sellegipoolest (eriti väikeste komplektide puhul) oleks võinud (mitte) vedada ja testimiseks joonistada (vähem) lihtsamaid juhtumeid, muutes selle ennustamise (raskemaks) lihtsamaks ... Ka teie täpsus / vea / headuse hinnang on mudelite võrdlemiseks / optimeerimiseks kasutu, kuna te ei tea selle jaotusest tõenäoliselt midagi.
Kui teil on kahtlusi, kasutage toorest jõudu, nii et korrake ülaltoodud protsessi, koguge vähe hinnanguid täpsuse / vea / headuse ja keskmise kohta neid - ja nii saate ristvalideerimise. Parema hinnangu hulgas saate ka histogrammi, et saaksite jaotust ligikaudselt hinnata või teha mõned mitteparameetrilised testid.
Ja see on kõik; katse-rongi jaotamise üksikasjad on erinevate CV-tüüpide põhjuseks, välja arvatud harvad juhud ja väikesed tugevuse erinevused, on need pigem samaväärsed. Tõepoolest, see on tohutu eelis, sest see muudab selle kuulikindlaks meetodiks; seda on väga raske petta.

#5
+3
ebony1
2010-08-20 02:50:48 UTC
view on stackexchange narkive permalink

Kuna teil pole koolituse ajal juurdepääsu testiandmetele ja soovite, et teie mudel töötaks nähtamatute testiandmetega hästi, siis teesklete, et teil on juurdepääs mõnele testiandmele, valides korduvalt Väike osa treeningandmetest, hoidke seda komplekti mudeli koolitamise ajal ja käsitlege seejärel hoitud komplekti testandmete puhverserverina (ja valige mudeli parameetrid, mis annavad parima tulemuse hoitud andmete osas). Loodate, et valides treeningandmetest juhuslikult erinevaid alamhulki, võite panna need välja nägema nagu testiandmed (keskmises käitumises) ja seetõttu on õpitud mudeli parameetrid head ka testiandmetele (st teie mudelile) üldistab hästi nähtamatute andmete korral).



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...