Küsimus:
Statistiline järeldus, kui valim on populatsioon
pbneau
2010-09-13 23:35:24 UTC
view on stackexchange narkive permalink

Kujutage ette, et peate tegema aruande nende testide arvu kohta, kes igal aastal teatud testi sooritavad. Sihtpopulatsiooni spetsiifilisuse tõttu näib olevat üsna keeruline järeldada täheldatud edukuse protsenti näiteks laiemale elanikkonnale. Nii võite kaaluda, et need andmed esindavad kogu populatsiooni.

Kas testide tulemused näitavad, et meeste ja naiste osakaal on erinev? Kas täheldatud ja teoreetiliste proportsioonide võrdluskatse tundub õige, kuna arvestate tervet populatsiooni (ja mitte valimit)?

Viis vastused:
#1
+32
ars
2010-09-14 00:30:10 UTC
view on stackexchange narkive permalink

Selle kohta võib olla erinevaid arvamusi, kuid käsitleksin populatsiooni andmeid valimina ja eeldaksin hüpoteetilist populatsiooni, seejärel teeksin järeldusi tavapärasel viisil. Üks võimalus sellele mõelda on see, et kogutud andmete eest vastutab andmete aluseks olev andmete genereerimise protsess, "populatsiooni" jaotus.

Teie konkreetsel juhul võib see olla veelgi mõttekam, kuna teil on tulevikus kohordid. Siis on teie elanikkond tõesti kohordid, kes teevad testi ka tulevikus. Sel viisil võiksite arvestada ajapõhiste variatsioonidega, kui teil on andmeid üle aasta, või proovida varjatud tegureid arvesse võtta oma vea mudeli kaudu. Lühidalt, saate välja töötada rikkama mudeli, millel on suurem selgitusvõime.

Just sattusin sellele postitusele A Gelmanilt, * Kuidas erineb statistiline analüüs kogu populatsiooni, mitte valimi analüüsimisel? *, Http://j.mp/cZ1WSI. Hea lähtepunkt lahknevate arvamuste osas "superpopulatsiooni" kontseptsiooni kohta.
@chl: huvitav - tuletab mulle meelde, et Gelman pidas oma ANOVA-teemalises dokumendis arutelu piiratud / ülipopulatsiooni järelduste võrreldavuse fikseeritud / juhuslike efektidega [http://www.stat.columbia.edu/~gelman/research/published /econanova3.pdf].
+1 Ma tulin selle juurde uuesti (google'i kaudu) tagasi. Ma arvan, et teie vastus on täpne.
#2
+26
Joris Meys
2010-09-14 01:12:57 UTC
view on stackexchange narkive permalink

Kui olete tõesti positiivne, on teil kogu elanikkond, pole isegi vaja statistikasse minna. Siis teate täpselt, kui suur erinevus on, ja pole mingit põhjust seda enam testida. Klassikaline viga on statistilise olulisuse kasutamine "asjakohase" olulisusena. Kui valisite populatsiooni, on erinevus selles, mis see on.

Teiselt poolt, kui sõnastate oma hüpoteesi ümber, võib kandidaate vaadelda võimalike kandidaatide valimina, mis võimaldaks statistilisi teste teha . Sel juhul testiksite üldiselt, kas mees ja naine erinevad käimasoleval testil.

Nagu ars ütles, võite kasutada mitme aasta katseid ja lisada juhusliku tegurina aja. Aga kui teie huvi on nende kandidaatide erinevuste vastu selles konkreetses testis, ei saa te üldistust kasutada ja testimine on mõttetu.

#3
+17
Brett
2010-09-14 23:15:21 UTC
view on stackexchange narkive permalink

Traditsiooniliselt õpetatakse statistilist järeldust tõenäosusvalimite ja valimisvea olemuse kontekstis. See mudel on olulisuse testi aluseks. Süstemaatiliste juhusest kõrvalekaldumiste modelleerimiseks on aga ka teisi viise ja selgub, et meie parameetrilised (valimipõhised) testid kipuvad olema nende alternatiivide heaks ligikaudseks.

Hüpoteeside parameetrilised testid põhinevad tõenäolise vea hinnangute andmisel valimiteoorial. Kui populatsioonist võetakse kindla suurusega valim, on valimi süstemaatilise olemuse tundmine testimise ja usaldusvahemike jaoks mõttekas. Populatsiooni korral pole valimiteooria lihtsalt asjakohane ja testid pole traditsioonilises mõttes mõttekad. Järeldamisest pole kasu, pole midagi järeldada, on lihtsalt asi ... näitaja ise.

Mõned saavad sellest mööda, pöördudes ülipopulatsioonide poole, mida praegune loendus esindab. Ma leian, et need pöördumised pole veenvad - parameetrilised testid lähtuvad tõenäosuse valimist ja selle omadustest. Konkreetse aja populatsioon võib olla ajas ja kohas suurema populatsiooni valim. Ma ei näe siiski mingit võimalust, et võiks õigustatult väita, et see on juhuslik (või üldisemalt tõenäosuse mis tahes vormis) valim. Ilma tõenäosusvalimita ei kehti valimiteooria ja testimise traditsiooniline loogika. Võite sama hästi testida mugavusvalimi põhjal.

On selge, et populatsiooni kasutamisel testimise aktsepteerimiseks peame proovivõtuprotseduurides nende testide alusest loobuma. Üks viis seda teha on tuvastada meie valimiteoreetiliste testide - nagu t, Z ja F - ja juhuslikkuse protseduuride tihe seos. Randomiseerimiskatsed põhinevad käes oleval valimil. Kui kogun andmed meeste ja naiste sissetulekute kohta, tõenäosusemudel ja meie veahinnangute alus on tegelike andmete väärtuste korduv juhuslik jaotamine. Võiksin võrrelda rühmade vahelisi täheldatud erinevusi jaotusega, mis põhineb sellel randomiseerimisel. (Teeme seda muide kogu aeg katsetes, kus populatsiooni mudeli juhuslik valimine on harva asjakohane).

Nüüd selgub, et valimiteoreetilised testid on sageli head randomiseerimise lähendused testid. Nii et lõppkokkuvõttes arvan, et populatsioonide testid on selles raamistikus kasulikud ja mõttekad ning võivad aidata eristada süsteemset variatsioonist - nagu valimipõhiste testide puhul. Sinna jõudmiseks kasutatav loogika on veidi erinev, kuid see ei mõjuta testide praktilist tähendust ja kasutamist eriti. Muidugi võib olla parem kasutada lihtsalt randomiseerimise ja permutatsiooni teste, tingimusel et need on kogu meie tänapäevase arvutusvõimsusega hõlpsasti kättesaadavad.

+1 mõistliku arutelu jaoks; paar punkti siiski. Järeldavad masinad ei ole populatsioonianalüüsiks saadaval, kuid paljudel modelleerimisjuhtudel küsiksin ma, kas kellelgi on alustuseks * rahvastikuandmeid - sageli pole auke torkida väga keeruline. Nii et see pole * alati * üleskutse superpopulatsioonile kui vahend järelduste tegemiseks. "Superpopulatsiooni" asemel on parem viis eeldada andmete genereerimise protsessi, mille tulemuseks on näiteks kõnealuste kohortide aasta-aastalt test. Seal tekib stohhastiline komponent.
Ma arvan, et siin ei ole mingeid lahkarvamusi, välja arvatud populatsioonianalüüsi jaoks tuletatud järeldusmasinate puudumine. Randomiseerimistestid on rakendatavad populatsioonidele ja võivad mõistlikult testida, kas andmete genereerimise protsess on tõenäoliselt tingitud juhuslikust genereerimisprotsessist või süsteemsest genereerimisprotsessist. Nad ei eelda juhuslikku valimit ja on pigem otsene juhuse ja süsteemse varieerimise test. Meie traditsioonilised testid seisavad nende jaoks üsna hästi.
See vastab tõele: "järeldusmasinate puudumine". Minu poolt hooletu sõnastus, eriti kuna mulle meeldis teie vastuses juhuslikkuse testide kohta välja toodud punkt.
vabandust. Mul on raskusi aru saamisega, kuidas ma permutatsioone arvutaksin ja milliseid järeldusi nende jaoks teha saan.
Kas alglaadimine pole sobiv alternatiiv?Kuidas ei võimalda alglaadimine lahendada vajadust teha üks või teine neist eeldustest?
#4
+4
dca
2016-06-19 22:43:18 UTC
view on stackexchange narkive permalink

Oletame, et tulemused näitavad, et kandidaadid erinevad sooliselt. Näiteks testide sooritanute osakaal on järgmine: 40% naisi ja 60% mehi. Ilmselgelt öeldes on 40% erinev kui 60%. Nüüd on oluline otsustada: 1) teie huvipakkuv elanikkond; 2) kuidas on teie tähelepanekud seotud huvipakkuva populatsiooniga. Siin on mõned üksikasjad nende kahe teema kohta:

  1. Kui teie huvipakkuv populatsioon on just teie täheldatud kandidaadid (nt 100 kandidaati, kes 2016. aastal ülikooli kandideerisid), ei pea statistilise olulisuse testidest aru andma. Selle põhjuseks on asjaolu, et teie huvipakkuvast populatsioonist võeti täielikult valim ... kõik, mis teid huvitab, on 100 kandidaati, kelle kohta teil on täielikud andmed. See tähendab, et 60% on täielik punkt, mis erineb 40% -st. Selline küsimus, millele see vastus on, kas 100-aastases elanikkonnas oli programmis rakendatavaid soolisi erinevusi? See on kirjeldav küsimus ja vastus on jaatav.

  2. Siiski on paljud olulised küsimused selle kohta, mis juhtub erinevates seadetes. See tähendab, et paljud teadlased soovivad välja mõelda mineviku suundumusi, mis aitaksid meil tulevikku ennustada (ja siis seda planeerida). Sellekohane oleks näiteks küsimus: kui tõenäoline, et kandidaatide tulevased testid on soost lähtuvalt tõenäoliselt erinevad? Huvipakkuv populatsioon on siis laiem kui ülaltoodud stsenaariumi nr 1 puhul. Siinkohal on oluline esitada järgmine küsimus: kas teie täheldatud andmed esindavad tõenäoliselt tuleviku suundumusi? See on järeldav küsimus ja originaalse plakati esitatud teabe põhjal on vastus: me ei tea.

Kokkuvõttes sõltub see, millisest statistikast teatate selle küsimuse tüübi kohta, millele soovite vastata.

Põhiteaduste kavandamisele mõtlemine võib olla kõige kasulikum (proovige siin: http://www.socialresearchmethods.net/kb/design.php). Superpopulatsioonide mõtlemine võib olla abiks, kui soovite täpsemat teavet (siin võib olla artikkel: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1).

#5
+2
James
2010-09-14 19:58:43 UTC
view on stackexchange narkive permalink

Kui peate seda, mida mõõdate, on juhuslik protsess, siis jah, statistilised testid on asjakohased. Võtame näiteks kümme korda mündi ümber, et näha, kas see on õiglane. Saate 6 pead ja 4 saba - mida te järeldate?

Ma ei saa tegelikult aru, kuidas on mündi viskamise küsimuses tehtud järeldus seotud esitatud küsimusega. Võib-olla saaksite selles küsimuses veidi laiendada? Statistilised testid näivad olevat asjakohased, kuivõrd need aitavad järeldada täheldatud tulemusi suuremale populatsioonile, olgu see siis võrdlus- või üldpopulatsioon. Siinkohal näib olevat küsimus: Arvestades, et valim on fikseeritud aja jooksul (siin, üks aasta) testi sooritanute populatsiooni lähedal, siis kas klassikaline järeldus on õige viis võimaliku erinevuse kohta üksikisiku tasandil otsuse langetamiseks?
@chl Jah, kuid tundub, et OP üritab järeldada edu tõenäosust. Testides võrreldakse täheldatud proportsioone teoreetilise jaotusega, et teha kindlaks, kas antud usaldustaseme puhul on erinevusi. Testite mis tahes vormis juhuslikkust, mitte ainult vigade juhuslikkuse valimist.


See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...