Küsimus:
Kas normaalsuse testimine on „sisuliselt kasutu”?
shabbychef
2010-09-08 22:47:22 UTC
view on stackexchange narkive permalink

Üks endine kolleeg vaidles mulle kunagi järgmiselt:

Rakendame tavaliselt normaalsustestid protsesside tulemustele, mis nullis loovad juhuslikud muutujad, mis on asümptootiliselt või peaaegu normaalne (asümptootiliselt sõltuv osa sõltub mingist kogusest, mida me ei saa suureks muuta); Odava mälu, suurandmete ja kiirete protsessorite ajastul peaksid normaalsustestid alati lükkama suurte (kuigi mitte meeletult suurte) proovide normaaljaotuse nulli. Ja perversselt tuleks normaalsuse teste kasutada ainult väikeste proovide puhul, kui neil on eeldatavasti väiksem võimsus ja I tüübi määra üle vähem kontrolli.

Kas see on õige argument? Kas see on tuntud argument? Kas "hägusama" nullhüpoteesi kui normaalsuse jaoks on hästi teada teste?

Viide: ma ei arva, et see oleks pidanud olema kogukonna wiki.
Ma polnud kindel, kas on olemas „õige vastus” ...
See http://meta.stats.stackexchange.com/questions/290/what-is-community-wiki
Teatud mõttes kehtib see kõigi piiratud arvu parameetrite testimise kohta. Kui $ k $ on fikseeritud (parameetrite arv, millel test on karastatud) ja $ n $ kasvab piirideta, murrab mis tahes erinevus kahe rühma vahel (ükskõik kui väike) alati mingil hetkel nulli. Tegelikult on see argument bayesi testide kasuks.
Minu jaoks pole see õige argument. Igatahes peate enne vastuse andmist asju veidi vormistama. Võib juhtuda, et te eksite ja te ei pruugi, kuid nüüd pole teil midagi muud kui intuitsioon: minu jaoks peaks lause "Odava mälu, suurandmete ja kiirete protsessorite ajastul peaksid normaalsustestid alati normaalse nulli tagasi lükkama". vajab täpsustusi :) Ma arvan, et kui proovite formaalsemat täpsust anda, on vastus lihtne.
Teema "Kas suured andmekogumid ei ole hüpoteeside testimiseks sobivad" arutleb selle küsimuse üldistamise üle. (http://stats.stackexchange.com/questions/2516/are-large-data-sets-inappropriate-for-hypothesis-testing)
"normaaljaotuse nulli tagasilükkamine" vajab enne küsimusele vastuse andmist täpsustatud ja õiget selgitust.Pealegi on erinevus suure valimi (versus väike valim) ja termini vahel: suured valimid.Valimi n-suuruse ja statistika k-valimi teooria vahel on erinevus.Olgem selle osas selged.
Kuusteist vastused:
#1
+244
Joris Meys
2010-09-09 03:23:19 UTC
view on stackexchange narkive permalink

See pole argument. See on (natuke kindlalt öeldud) tõsiasi, et ametlikud normaalsuse testid lükkavad alati tagasi tohutu valimi suuruse, millega me täna koostööd teeme. On isegi lihtne tõestada, et kui n muutub suureks, toob ka kõige väiksem kõrvalekalle täiuslikust normaalsusest märkimisväärse tulemuse. Ja kuna igal andmekogumil on teatud määral juhuslikkust, ei ole ükski andmekogum täiesti normaalselt jaotatud valim. Kuid rakendatud statistikas pole küsimus selles, kas andmed / jäägid on täiesti normaalsed, vaid piisavalt normaalsed, et eeldused kehtiksid.

Lubage mul illustreerida Shapiro-Wilki testiga. Allolev kood koostab jaotuste komplekti, mis läheneb normaalsusele, kuid pole täiesti normaalne. Järgmisena testime funktsiooniga shapiro.test , kas nende peaaegu normaalsete jaotuste proov erineb normaalsusest. R-s:

  x <- replicate (100, {# genereerib 100 erinevat testi igal jaotusel c (shapiro.test (rnorm (10) + c (1,0,2,0,1)) $ p.väärtus, # $ shapiro.test (rnorm (100) + c (1,0,2,0,1)) $ p.väärtus, # $ shapiro .test (rnorm (1000) + c (1,0,2,0,1)) $ p.väärtus, # $ shapiro.test (rnorm (5000) + c (1,0,2,0,1)) $ p.value) # $} # rnorm annab juhusliku loosi normaaljaotusest) rownames (x) <- c ("n10", "n100", "n1000", "n5000") ridaMeans (x<0.05) # oluliste kõrvalekallete osakaal n10 n100 n1000 n5000 0,04 0,04 0,20 0,87 

Viimane rida kontrollib, milline simulatsioonide osa iga valimi suuruse jaoks erineb oluliselt normaalsusest. Nii et 87% juhtudest erineb 5000 vaatluse valim Shapiro-Wilksi sõnul oluliselt normaalsusest. Kuid kui näete qq-graafikuid, ei otsustaks te kunagi normaalsusest kõrvalekaldumist. Allpool näete näitena ühe juhusliku valimi komplekti qq-jooniseid

alt text

p-väärtustega

  n10 n100 n1000 n5000 0,760 0,681 0,164 0,007  
see on hea! Ma löön endale laksu, et ma ise katseid ei teinud ...
Vahemärkusena võib öelda, et keskne piirteoreem muudab formaalse normaalsuse kontrolli tarbetuks paljudel juhtudel, kui n on suur.
jah, tegelik küsimus pole selles, kas andmeid jaotatakse tegelikult normaalselt, vaid kas need on piisavalt normaalsed, et normaalsuse aluseks olev eeldus oleks analüüsi praktilise eesmärgi jaoks mõistlik ja ma oleksin arvanud, et CLT-põhine argument on tavaliselt [sic] selleks piisav.
+1: suurepärane vastus, väga intuitiivne. Võib-olla natuke teemaväline, kuid kuidas saaks teise meetodi rakendada ilma qq-graafikuteta (visualiseerimise puudumise tõttu)? Milliseid loogilisi samme p-väärtuste saamiseks siin tehakse?
@posdef: need on ainult shapiro-wilksi testi p-väärtused, mis näitavad, et need on vastuolus qq-graafikutega.
@joris: Arvan, et võis tekkida vääritimõistmine; Shapiro-Wilks annab p_ {n5000} = 0,87, teine ​​arvutus annab p_ {n5000} = 0,007. Või olen ma millestki valesti aru saanud?
Tõepoolest. 0,87 on andmekogumite osakaal, mis annavad kõrvalekalde normaalsusest, see tähendab, et 87% peaaegu normaalsest jaotusest pärit andmekogumites on Shapiro-Wilksi p-väärtus väiksem kui 0,05. Teine osa on vaid näide mõnest andmekogumist, mis seda illustreerib.
@joris: Ma näen, aitäh, et selle minu jaoks sirgendasid :)
See on veel üks näide sellest, miks p-väärtused peavad valimi suurenedes alla liikuma. 0.05 ei ole suurandmete maailmas piisavalt range. Ainult minu uudishimu - mis juhtub, kui määrate väärtuse sõltuma valimi suurusest?
Vau aitäh vastuse eest! Kuidas joonistasite qq-joonised?
@maximus funktsiooniga `qqnorm`in R
@joris-meys keskne piirteoreem ei aita, kui pole teada populatsiooni standardhälvet. Juhusliku muutuja väga väikesed häired võivad moonutada valimi dispersiooni ja muuta teststatistika jaotuse väga kaugeks $ t $ jaotusest, nagu näitas Rand Wilcox.
** Näib, et see vastus ei lahenda küsimust: ** see lihtsalt näitab, et SW-test ei saavuta oma nominaalset usaldustaset ja seega tuvastatakse selles testis (või vähemalt selle R-rakenduses) viga. . Kuid see on ka kõik - see ei mõjuta normaalsuse testimise kasulikkuse ulatust üldiselt. Esialgne väide, et normaalsuse testid lükkavad alati tagasi suured valimid, on lihtsalt vale.
@whuber See vastus käsitleb küsimust. Küsimuse kogu mõte on "peaaegu" normaalsuses "peaaegu". S-W testib, kui suur on tõenäosus, et proov võetakse normaaljaotusest. Kuna minu konstrueeritud jaotused pole ** tahtlikult ** normaalsed, võiksite eeldada, et S-W test teeb lubadust: lükkab null tagasi. Kogu mõte on selles, et see tagasilükkamine on suurtes proovides mõttetu, kuna kõrvalekalle normaalsusest ei too seal võimu kadu. Nii et test on õige, kuid mõttetu, nagu näitavad QQplotid
@FrankHarrell Ma ei näe teie mõtet. Rand Wilcox rääkis valimi suurusest 30 ja rohkem. Küsimus on väga suurte proovide kohta. 30 pole isegi suur. 5000, see on suur (ja tegelikult mitte nii suur). Tehes matemaatikat Rand Wilcox tegi, järgib keskmise variatsioon khi-ruudu jaotust 5000 valimi korral isegi siis, kui see pärineb üsna viltu jaotusest.
Minu jaoks piisab asjaolust, et sageli ei saa me valimi põhjal öelda, kas seda valimit saab normaalsust eeldava meetodiga adekvaatselt analüüsida. Ja Wilcox toob näiteid, kus mittenormaalsus (normaaljaotuse saastumine teise suurema jaotusega normaaljaotusega) on nii märkamatu, et te ei näe seda tihedusfunktsioonis, kuid pisike mittenormaalsus põhjustab testides olulist moonutust "tööomadused. Teine küsimus, millega enamik statistikuid pole tegelenud, on see, et standardhälve ei pruugi asümmeetriaga tähendada.
See fakt on tõsi, kuid sellel puudub CLT suhtes sallivus. CLT on üsna spetsiifiline selle kohta, millistel tingimustel lähenemine kehtib. Viskad erinevaid asju samasse kuhja. Jah, Wilcox toob need näited. Ei, ta ei räägi suurtest valimitest ega CLT-i vabastamisest, kaugeltki mitte. Ta juhib õigustatult tähelepanu sellele, et inimesed unustavad CLT tingimused. Nõustun teiega, et erinevuste testimine valimi suurusega 5000 ei ole mõistlik, märkimata, mis on minimaalne asjakohane erinevus. Kuid see on hoopis teine ​​teema.
Olin toetunud teie kirjutatule ja saanud valesti aru, mida mõtlesite "peaaegu-normaalse" levitamise all. Nüüd näen - aga * ainult * koodi lugedes ja seda hoolikalt testides -, et simuleerite kolmest tavalisest tavalisest jaotusest vahenditega $ 0, $ 1, $ ja 2 $ ning ühendate tulemused $ 2: 2: 1 $ suhe. Kas te ei lootaks *, et hea normaalsuse test lükkab antud juhul nullid tagasi? Mida olete tõhusalt demonstreerinud, on see, et QQ proovitükid ei ole selliste segude tuvastamisel eriti head, see on kõik!
Mitte üks jaotus reaalses elus pole täiesti normaalne. Nii et piisavalt suurte proovide korral peaks kogu normaalsuse test nulli tagasi lükkama. Nii et jah, SW teeb seda, mida ta peab tegema. Kuid rakendusstatistika jaoks on see väärtusetu. Kui valimi suurus on 5000 ja peaaegu normaalne jaotus, pole mõtet minna näiteks Wilcoxoni juurde. Ja see oli OP märkus: kas on otstarbekas testida normaalsust suurte valimisuuruste korral? Vastus: ei. Miks? kuna tuvastate (õigesti) kõrvalekalde, mis pole teie analüüsi jaoks oluline. Nagu osutasid QQ proovitükid
Btw, QQ graafikud ei ole mõeldud selliste segude tuvastamiseks. Need on graafilised tööriistad, mis annavad teile õiglase ettekujutuse sellest, kas te kaotate võimu või mitte, isegi konkreetsete testide kasutamisel kallutatud hinnanguid. See on nende jaoks kõik. 99% praktilise teaduse statistikaküsimustest on see enam kui piisav.
Ma ei ole sinuga nõus; Ma vaidlustan vaid (leebelt), et need olulised punktid, mille olete hiljuti nendes kommentaarides välja toonud, ei ilmunud teie vastuses.
@whuber Võite vabalt värskendada :) muidu värskendan seda, kui leian natuke rohkem aega. Terviseks.
@JorisMeys Kas võiksite viidata mulle paberile või tõestusele, et "kui n saab suureks, viib ka kõige väiksem kõrvalekalle täiuslikust normaalsusest märkimisväärse tulemuse"?:)
@Milos Isegi originaaldokumentides viitas autor statistikale juba tundlikuna isegi väikeste proovide korral (n <20).See on sama 1965. aasta paberi järgi tundlik ka kõrvaliste näitajate suhtes.Samuti pidage meeles, et W-statistikal on maksimaalselt 1 (mis näitab täiuslikku normaalsust) ja vaadake W kriitilisi väärtusi nulli tagasilükkamiseks.Kui n = 10, on see 0,84.Kui n = 50, on see 0,947.Niisiis, kui n = 50, on oluliselt väiksem kõrvalekalle.Kui n = 5000, on isegi W väärtus 0,999 väga oluline.See on põhistatistika.
Seda näidet võiks kasutada argumendina, et sellise "normaalsuse testi" ebaõnnestumine peaks olema argument regressiooni või muude klassifitseerimismeetodite rakendamiseks (selle asemel, et teisendust kohe rakendada).
@JorisMeys Täname illustreeriva vastuse eest.Teie postitus illustreerib probleemi selgelt, kuid mis on lahendus?Kas on olemas "peaaegu normaalne" test?Midagi kontseptuaalselt nagu TOST-i samaväärsustesti?Olen silmitsi selle täpse probleemiga, kus ülevaataja, kes küsib normaalsuse eelduse põhjendamist - QQ-graafikud näevad head välja, kuid test on märkimisväärne valimi suure suuruse tõttu.
@thc Kasutage selle õigustamiseks lihtsalt QQ-graafikut.Ja kui valimi suurus on piisavalt suur, annab keskne piirteoreem teile normaalsuse eelduse juba paljudel juhtudel.
Keskne piirteoreem võib mõnikord olla kasulik testi taset vaadates, kuid see ei aita võimsusel;üldiselt ei kipu suhteline efektiivsus (võrreldes kõige võimsama võimaliku testiga) valimi suurusega suurenema.
#2
+179
Harvey Motulsky
2010-09-09 07:35:31 UTC
view on stackexchange narkive permalink

Mõeldes sellele, kas normaalsuse testimine on „sisuliselt kasutu”, tuleb kõigepealt mõelda, milleks see peaks kasulik olema. Paljud inimesed (noh ... vähemalt paljud teadlased) saavad normaalsuse testi vastustest valesti aru.

Küsimus, mida normaalsus testib, vastab: kas on veenvaid tõendeid Gaussi ideaalist kõrvalekaldumise kohta? Mõõdukalt suurte reaalsete andmekogumite korral on vastus peaaegu alati jah.

Teadlased ootavad sageli normaalsuse testi vastust: kas andmed kalduvad piisavalt Gaussi ideaalist kõrvale, et "keelata" Gaussi jaotust eeldava testi kasutamine? Teadlased soovivad, et kohtunik oleks normaalsuse test, mis otsustab, millal tavapärastest (ANOVA jne) testidest loobuda, ja analüüsib selle asemel teisendatud andmeid või kasutab auastmepõhist mitteparameetrilist testi või uuesti proovivõtmise või alglaadimise meetodit. Selleks pole normaalsustestid eriti kasulikud.

Hea ja informatiivse vastuse saamiseks +1. Minu arvates on kasulik näha head selgitust levinud arusaamatuste kohta (mida olen ka ise kogenud: http://stats.stackexchange.com/questions/7022/parameter-estimation-for-normal-distribution-in-java) . Mida ma igatsen, on alternatiivne lahendus sellele tavalisele arusaamatusele. Pean silmas, et kui normaalsustestid on vale tee, siis kuidas kontrollida, kas normaalne lähend on vastuvõetav / õigustatud?
See ei asenda analüütiku (või noh, teadlase / teadlase) (üldist) mõistust. Ja kogemus (õpitud proovides ja nähes: milliseid järeldusi saan, kui eeldan, et see on normaalne? Mis vahe on, kui mitte?). Graafika on teie parimad sõbrad.
Mulle meeldib see paber, mis teeb teie välja toodud mõttest: Micceri, T. (1989).Ükssarvik, tavaline kõver ja muud ebatõenäolised olendid.Psühholoogiline bülletään, 105 (1), 156–166.
Graafika vaatamine on suurepärane, kuid mis siis, kui neid on käsitsi uurimiseks liiga palju?Kas suudame sõnastada mõistlikud statistilised protseduurid, et juhtida tähelepanu võimalikele probleemidele?Pean silmas selliseid olukordi nagu A / B eksperimentaatorid suures ulatuses: http://www.exp-platform.com/Pages/SevenRulesofThumbforWebSiteExperimenters.aspx.
#3
+127
MånsT
2012-06-08 13:57:33 UTC
view on stackexchange narkive permalink

Ma arvan, et normaalsuse testid võivad olla kasulikud graafiliste uuringute kaaslastena. Neid tuleb siiski õigesti kasutada. Minu arvates tähendab see seda, et paljusid populaarseid teste, nagu Shapiro-Wilk, Anderson-Darling ja Jarque-Bera teste, ei tohiks kunagi kasutada.

Enne kui selgitan oma seisukohta , lubage mul teha mõned märkused:

  • hiljutises huvitavas artiklis Rochon jt. uuris Shapiro-Wilki testi mõju kahe prooviga t-testile. Normaalsuse testimise kaheastmeline protseduur enne näiteks t-testi läbiviimist ei ole probleemideta. Ja jällegi pole ka normaalsuse graafilise uurimise kaheastmeline protseduur tugev > enne t-testi tegemist. Erinevus seisneb selles, et viimase mõju on palju keerulisem uurida (kuna see nõuaks statistikult normaalsuse graafilist uurimist 100 000 dollarit $ või nii mitu korda ...).
  • Kasulik on mittestandardsuse kvantifitseerimine , näiteks valimi viltuse arvutamine, isegi kui te ei soovi ametlikku testi teha.
  • Mitmemõõtmelist normaalsust võib olla raske graafiliselt hinnata ja lähenemine asümptootiliste jaotustega võib mitme muutuja statistika puhul olla aeglane. Normaalsuse testid on seetõttu mitmemõõtmelises keskkonnas kasulikumad.
  • Normaalsuse testid on ehk eriti kasulikud praktikutele, kes kasutavad statistikat musta kasti meetodite komplektina . Kui normaalsus lükatakse tagasi, peaks spetsialist muretsema ja normaalsuse eeldusel põhineva standardprotseduuri läbiviimise asemel kaaluma mitteparameetrilise protseduuri kasutamist, teisenduse rakendamist või kogenud statistikuga konsulteerimist.
  • Nagu teised on välja toonud, kui $ n $ on piisavalt suur, säästab CLT tavaliselt päeva. Mis aga on "piisavalt suur", on erinevates jaotusklassides erinev.

(Minu definitsioonis) on normaalsuse test suunatud alternatiivide klassi vastu, kui see on tundlik selle alternatiivide suhtes. klass, kuid pole tundlik teiste klasside alternatiivide suhtes. Tüüpilised näited on testid, mis on suunatud viltu või kurtootiliste alternatiivide poole. Lihtsamad näited kasutavad testi statistikana valimi vildakust ja kurtoosi.

Normaalsuse suunatud teste eelistatakse väidetavalt sageli koondtestidele (näiteks Shapiro-Wilk ja Jarque-Bera testid), kuna see on tavaline, et konkreetse järeldusprotseduuri puhul on mureks ainult mõned mittestandardsuse tüübid .

Vaatleme näiteks õpilase t-testi. Oletame, et meil on k.a. proov jaotusest, mille kalduvus on $ \ gamma = \ frac {E (X- \ mu) ^ 3} {\ sigma ^ 3} $ ja (liigne) kurtoos $ \ kappa = \ frac {E (X- \ mu) ^ 4} {\ sigma ^ 4} -3. $ Kui $ X $ on keskmise sümmeetriline, $ \ gamma = 0 $ . Nii $ \ gamma $ kui ka $ \ kappa $ on normaaljaotuse jaoks 0.

Korrektsuse eelduste kohaselt saame teststatistika $ T_n $ cdf-le järgmise asümptootilise laienduse: $$ P (T_n \ leq x) = \ Phi (x) + n ^ {- 1/2} \ frac {1} {6} gamma (2x ^ 2 + 1) \ phi (x) -n ^ {- 1} x \ Big (\ frac {1} {12} \ kappa (x ^ 2-3) - \ frac {1} {18} \ gamma ^ 2 (x ^ 4 + 2x ^ 2- 3) - \ frac {1} {4} (x ^ 2 + 3) \ suur) \ phi (x) + o (n ^ {- 1}), $$

kus $ \ Phi (\ cdot) $ on cdf ja $ \ phi (\ cdot) $ on standardse normaaljaotuse pdf.

$ \ gamma $ ilmub esmakordselt jaotises $ n ^ {- 1/2} $ span> term, samas kui $ \ kappa $ ilmub terminis $ n ^ {- 1} $ . $ T_n $ asümptootiline jõudlus on palju tundlikum normaalsusest kõrvalekaldumise suhtes viltuse kujul kui kurtoosi kujul.

Simulatsioonide abil saab veenduda, et see kehtib ka väikeste $ n $ puhul. Seega on üliõpilase t-test vildakuse suhtes tundlik, kuid raskete sabade suhtes suhteliselt vastupidav ja enne t-testi rakendamist on mõistlik kasutada normaalsuse testi, mis on suunatud viltuse alternatiivide poole.

rusikareeglina ( mitte loodusseadus) on järeldus vahendite suhtes kaldu ja variatsioonide järeldamine kurtoosi suhtes.

Suunatud normaalsuse testi kasutamisel on eelis saada suurem jõud "ohtlike" alternatiivide vastu ja väiksem võimsus vähem "" ohtlike "alternatiivide vastu, mis tähendab, et me lükkame normaalsuse vähem tagasi kõrvalekallete tõttu normaalsus, mis ei mõjuta meie järeldusmenetluse toimimist. Mittenormaalsus on kvantifitseeritud viisil, mis on konkreetse probleemi jaoks asjakohane. Seda pole alati graafiliselt lihtne teha.

Kui $ n $ suureneb, muutuvad viltusus ja kurtoos vähem tähtsaks - ning suunatud testid tuvastavad tõenäoliselt, kas need kogused erinevad 0-st isegi väikese summa võrra. Sellistel juhtudel tundub mõistlik näiteks testida, kas $ | \ gamma | \ leq 1 $ või (vaadates ülaltoodud laienduse esimest terminit) $$ | n ^ {- 1/2} \ frac {1} {6} \ gamma (2z _ {\ alpha / 2} ^ 2 + 1) \ phi (z _ {\ alfa / 2}) | \ leq 0.01 $$ , mitte seda, kas $ \ gamma = 0 $ . See hoolitseb mõnede probleemide eest, millega me muidu silmitsi seisame, kui $ n $ suureneb.

Nüüd on see suurepärane vastus!
"on tavaline, et konkreetse järeldusmenetluse puhul on murettekitavad ainult mõned mittestandardsuse tüübid."- muidugi peaks siis kasutama testi, mis on suunatud seda tüüpi normaalsusele.Kuid see, et keegi kasutab normaalsuse testi, tähendab seda, et ta hoolib normaalsuse * kõikidest aspektidest.Küsimus on: kas sel juhul on normaalsuse test hea valik.
Konkreetsete testide eelduste piisavuse test on muutumas tavaliseks, mis eemaldab õnneks osa oletustest.
@Carl: Kas saate lisada mõned viited / näited selle kohta?
@kjetilbhalvorsen See oli kaks aastat tagasi ja ma ei mäleta nüüd, mida ma siis silmas pidasin.Niisiis, kui soovite seda teavet, võite teie, mina või keegi seda otsida või tuletada paremini, kuidas sellist saab kriimustada.
Tundub, et sellel vastusel on kaks vastust.Esialgne vastus on üks statistikute sõnul, et "paljusid populaarseid teste ... ei tohiks kunagi kasutada".Postituse raames on mittestatistidele kaudne teine vastus, et need testid on "eriti kasulikud praktikutele, kes kasutavad statistikat musta kasti meetodite komplektina" ja "normaalsuse testid on mitmemõõtmelised.seade. "Kas ma saan õigesti aru?
#4
+60
dsimcha
2010-09-18 07:32:42 UTC
view on stackexchange narkive permalink

IMHO normaalsuse testid on absoluutselt kasutud järgmistel põhjustel:

  1. Väikeste valimite korral on hea võimalus, et populatsiooni tegelik jaotus on sisuliselt ebatavaline, kuid normaalsuse test ei ole selle kättesaamiseks võimas.

  2. Suurte proovide puhul on sellised asjad nagu T-test ja ANOVA normaalsuse suhtes üsna tugevad.

  3. Normaalselt jaotunud populatsiooni idee on nagunii lihtsalt mugav matemaatiline lähendus. Ühelgi statistiliselt statistiliselt käsitletud kogusel ei olnud usutavat jaotust kõigi reaalarvude toel. Näiteks ei saa inimestel olla negatiivset pikkust. Millelgi ei saa olla negatiivset ega rohkemat massi, kui on universumis. Seetõttu on ohutu öelda, et miski pole täpselt reaalses maailmas levinud.

Elektrilise potentsiaali erinevus on näide reaalsest kogusest, mis võib olla negatiivne.
-1
@dsimcha - leian, et see on tõesti ülevaatlik ja kasulik vastus.
@dsimcha,, $ t $ -test ja ANOVA ei ole normaalsuse suhtes tugevad. Vt Rand Wilcoxi artikleid.
@dsimcha "mudel on vale".Kas KÕIK mudelid pole siiski "valed"?
Sellegipoolest, kui muutsite oma andmeid (x- \ mu) / sigma abil, saate alati lubada negatiivseid väärtusi normaalsust rikkumata, kas pole?
#5
+31
Frank Harrell
2013-08-01 16:52:06 UTC
view on stackexchange narkive permalink

Ma arvan, et normaalsuse eelkontroll (mis hõlmab graafilisi graafilisi mitteametlikke hindamisi) laseb asjast mööda.

  1. Selle lähenemisviisi kasutajad eeldavad, et normaalsuse hindamisel on tegelikult jõud, mis on lähedal 1,0.
  2. Mitteparameetriliste testide, nagu Wilcoxon, Spearman ja Kruskal-Wallis, efektiivsus on 0,95, kui normaalsus kehtib.
  3. Punkti 2. silmas pidades saab eelnevalt määratleda mitteparameetrilise kasutamise testida, kas on isegi võimalus, et andmed ei pruugi tuleneda normaalsest jaotusest.
  4. Ordinaalse kumulatiivse tõenäosuse mudelid (selle klassi liige on proportsionaalse koefitsiendi mudel) üldistavad mitteparameetrilised standardtestid. Tavamudelid on $ Y $ suhtes täiesti muutumatud, on tugevad, võimsad ja võimaldavad hinnata kvantiile ja keskmist dollarit $.
pange tähele, et efektiivsus 0,95 on * asümptootiline *: FWIW arvan, et tüüpilise piiratud valimi suuruse korral on efektiivsus palju madalam ... (kuigi ma pole tõepoolest näinud, et seda oleks uuritud ega oleks ka ise proovinud uurida)
Olen uurinud väikeste proovide suhtelist efektiivsust paljude tavaliste testide jaoks;väikese valimi suhteline kasutegur on tavaliselt madalam kui ARE, kuid tavapärase valimi suuruse korral tavaliselt mitte väga palju;ARE on üldiselt üsna kasulik juhend.
#6
+17
Emil Friedman
2013-11-27 02:18:47 UTC
view on stackexchange narkive permalink

Enne kui soovite küsida, kas test või mis tahes normaalsuse kontrollimine on "kasulik", peate vastama küsimuse taga olevale küsimusele: "Miks te küsite?"

Näiteks kui ainult soovite seada usaldushäire andmete kogumi keskmise ümber, võivad normaalsusest kõrvalekalded olla olulised või mitte, sõltuvalt sellest, kui palju teil andmeid on ja kui suured lahkuminekud on. Normaalsusest kõrvalekaldumine võib siiski olla ülioluline, kui soovite prognoosida, milline on tulevaste vaatluste või valimite populatsiooni kõige äärmuslikum väärtus.

#7
+13
Henrik
2010-09-09 13:59:39 UTC
view on stackexchange narkive permalink

Lubage mul lisada üks väike asi:
Normaalsuse testi sooritamine alfa-viga arvesse võtmata suurendab teie alfa-vea esinemise üldist tõenäosust.

Te ei tohi kunagi unustada, et iga täiendav test teeb seda seni, kuni te ei kontrolli alfavigade kogunemist. Seega on veel üks hea põhjus normaalsuse testimise lõpetamiseks.

Eeldan, et peate silmas olukorda, kus kõigepealt tehakse normaalsuse test ja seejärel kasutatakse selle testi tulemust, et otsustada, milline test järgmisena sooritada.
Ma viitan normaalsuse testide üldisele kasulikkusele, kui neid kasutatakse meetodina, et teha kindlaks, kas teatud meetodi kasutamine on asjakohane või mitte. Kui rakendate neid nendel juhtudel, on alfavea toimimise tõenäosuse mõttes parem teha tugevam test, et vältida alfavigade kuhjumist.
Tere, Henrik, tooge huvitava juhtumi mitmekordsetest võrdlustest, millele ma antud juhul ei mõelnudki - aitäh. (+1)
See pole minu jaoks mõistlik. Isegi kui otsustate näiteks ANOVA või normaalsuse testil põhineva auastepõhise meetodi vahel (muidugi halb idee), siis päeva lõpuks teeksite ikkagi ainult ühe huvide võrdlemise testi. Kui lükkate normaalsuse ekslikult tagasi, pole te selle konkreetse võrdluse osas ikkagi valele järeldusele jõudnud. Võimalik, et teete kahte testi, kuid ainus juhtum, kus võite järeldada, et sellisel ja sellisel teguril on mõju, on see, kui teine ​​test lükkab tagasi ka $ H_0 $, * mitte *, kui ainult esimene teeb seda. Seega pole alfavigade kuhjumist…
Mõnes mõttes toob see meid tagasi nullhüpoteesi olulisuse testimise levinud kriitika juurde (miks mitte kohandada kõiki teste, mida oma karjääri jooksul teete? Ja kui jah, siis kuidas võivad andmete kogumi järeldused olla erinevad teadlase kavatsus / tulevane karjäär?), kuid tegelikult ei ole need kaks testi omavahel seotud. Näiteks näib, et juhtum testi jaoks parandamiseks, kuna olete aastaid tagasi midagi samal teemal avaldanud, tundub palju tugevam.
Muidugi, kui kasutate mõnda sobimatut testi, võib veamäär olla nominaalsest tasemest kaugel, kuid see oleks ka juhul, kui teete testi otse. Ainus viis, kuidas normaalsuse test võib I tüüpi vigu suurendada, on see, kui normaalsuse tagasilükkamise korral kasutatav test on teie andmetega seotud konkreetse probleemi jaoks tegelikult vähem kindel kui tavaline test. Igal juhul näib see kõik olevat seotud alfavigade kuhjumise mõistega.
Teine viis, kuidas normaalsuse test võib I tüüpi vigu suurendada, on see, kui räägime "alfa-vea sooritamise üldisest tõenäosusest". Testil endal on veamäär, nii et ** üldiselt ** suureneb meie tõenäosus vea tegemiseks. Rõhk ** ühele väikesele asjale ** arvan ka ...
@NickStauner tahtsin täpselt seda öelda. Täname selle punkti veelgi selgemaks muutmise eest.
@Gala Tegelikult viiakse läbi läbi viidud viimase testi I tüübi veamäär (parameetriline või mitteparameetriline, mis on valitud normaalsuse testi põhjal) isegi normaaljaotuses olevate jääkide puhul (I tüübi veamäära inflatsioon võib sageli isegi halvem olla, kui teil pole- normaalsed jäägid sõltuvalt sellest, millist testide kombinatsiooni te kasutate).Testid pole omavahel seotud ja seda on kirjanduses ikka ja jälle näidatud.
@Björn pole minu jaoks endiselt mõistlik.Kas teil on selle kirjanduse kohta mõni näide või ülevaade, mida ma võiksin uurida?
#8
+11
Cliff AB
2015-05-20 01:12:34 UTC
view on stackexchange narkive permalink

Ma arvasin harjunud , et normaalsuse testid olid täiesti kasutud.

Nüüd aga konsulteerin teiste teadlastega. Sageli on proovide saamine äärmiselt kulukas ja seetõttu tahavad nad öelda, et öelda n = 8.

Sellisel juhul on mitteparameetriliste testidega statistilise olulisuse leidmine väga keeruline, kuid t-testid n = 8 on tundlikud normaalsusest kõrvalekallete suhtes. Nii et me saame öelda, et võime öelda "hästi, tingimusel, et eeldame normaalsust, leiame statistiliselt olulise erinevuse" (ärge muretsege, need on tavaliselt pilootuuringud ...).

Siis vajame selle eelduse hindamiseks mingit viisi. Olen laagris poolel teel, et proovitükkide vaatamine on parem viis minna, kuid tõtt-öelda võib selles osas olla palju lahkarvamusi, mis võivad olla väga problemaatilised, kui üks inimestest, kes teiega ei nõustu, on teie käsikirja retsensent.

Pange tähele, et siin on argumente, et testid on kasutud ainult teoreetiliselt.Teoreetiliselt võime alati saada nii palju proove kui soovime ... Teil on ikkagi vaja teste, et tõestada, et teie andmed on vähemalt kuidagi normaalsuse lähedal.
Hea tähelepanek.Ma arvan, et see, mida sa vihjad, ja kindlasti ka see, mida ma usun, on see, et normaalsusest kõrvalekaldumise mõõt on olulisem kui hüpoteesi test.
Niikaua kui nad ei lähe siis mitteparameetrilisele testile üle ja proovivad tõlgendada p-väärtusi (mis tingimusliku eelkontrolli abil kehtetuks tunnistatakse), võib-olla on see okei ?!
Normaalsuse testi võimsus on n = 8 korral väga madal;eelkõige kõrvalekalded normaalsusest, mis mõjutavad sisuliselt testi omadusi, eeldades, et valimi väikeste suuruste korral (kas katse või visuaalselt) võib olla üsna raske tuvastada.
@Glen_b: olen nõus;Ma arvan, et see arvamus on kooskõlas pigem II tüüpi vigade kui I tüübi eest hoolitsemisega. Minu mõte on see, et reaalsuses on vaja normaalsuse testimist.Kas meie praegused tööriistad selle vajaduse tõesti täidavad, on hoopis teine küsimus.
Peaaegu kõik normaalsuse testid, mida olen näinud, on kontrollida testis kasutatud andmete jaotuse eeldusi enne sellele eeldusele tugineva testi kasutamist;sellise kontrolli * üldse * teostamine on iseenesest potentsiaalselt tõsine probleem - sellel on kindlasti järeldamise tagajärjed.Kui see on teie viidatud vajadus, ütleksin, et on tugev arusaam, et on vaja katsetada, kuid peaaegu alati on paremaid asju teha.Mõnikord on sobivuse testimiseks häid põhjuseid, kuid harva kasutatakse neid teste.
#9
+11
Arthur B.
2015-06-10 19:17:47 UTC
view on stackexchange narkive permalink

Mis selle väärt on, töötasin kord kärbitud normaaljaotuse jaoks välja kiire proovivõtja ja normaalsuse testimine (KS) oli funktsiooni silumisel väga kasulik. See proovivõtja läbib katse tohutute proovimõõtudega, kuid huvitaval kombel GSL-i siksurati proovivõtja seda ei teinud.

#10
+11
AdamO
2018-03-12 22:59:28 UTC
view on stackexchange narkive permalink

Siinsed vastused on juba käsitlenud mitut olulist punkti. Kiireks kokkuvõtteks:

  • Puudub järjepidev test, mille abil saaks kindlaks teha, kas andmekogum järgib tõepoolest levikut või mitte.
  • Testid ei asenda andmete ja mudelite visuaalset kontrollimist, et tuvastada suurt võimendust, suure mõjuga vaatlusi ja kommenteerida nende mõju mudelitele.
  • Paljude regressioonirutiinide eeldusi tsiteeritakse sageli valesti, kuna need nõuavad tavaliselt jaotatud "andmeid" [jääke] ja et algajad statistikud tõlgendavad seda nii, et enne analüüside jätkamist nõuavad analüütik seda ametlikult mõnes mõttes.

Lisan kõigepealt vastuse, et tsiteerida ühte oma isiklikult kõige sagedamini külastatud ja loetud statistilist artiklit: " Normaalsuse eelduste tähtsus suurtes rahvatervise andmekogudes", autorid Lumley et. al. Tasub lugeda tervikuna. Kokkuvõttes on öeldud:

t-testi ja väikseimate ruutude lineaarne regressioon ei nõua normaaljaotuse eeldamist piisavalt suurtes proovides. Varasemad simulatsiooniuuringud näitavad, et „piisavalt suur“ on sageli alla 100 ja isegi meie väga ebatavaliste meditsiinikulude andmete puhul on see alla 500. See tähendab, et rahvatervise uuringutes, kus proovid on sageli sellest oluliselt suuremad, on t -test ja lineaarne mudel on kasulikud vaikevahendid mitut tüüpi andmete erinevuste ja suundumuste analüüsimiseks, mitte ainult tavaliste jaotustega andmetega. Normaalsuse ametlikud statistilised testid on eriti ebasoovitavad, kuna neil on väike võimsus väikestes valimites, kus jaotus on oluline, ja suur võimsus ainult suurtes valimites, kus jaotus pole oluline.

Kuigi lineaarse regressiooni suurte valimite omadused on hästi mõistetavad, on normaalse eelduse ebaoluliseks muutmiseks vajalikke valimimahte uuritud vähe. Eelkõige pole selge, kuidas sõltub vajalik valimi suurus mudeli ennustajate arvust.

Keskendumine normaaljaotustele võib nende meetodite tegelikest eeldustest kõrvale juhtida. Lineaarne regressioon eeldab küll, et tulemuse muutuja variatsioon on ligikaudu konstantne, kuid mõlema meetodi esmane piirang on see, et nad eeldavad, et piisab tulemuse muutuja keskmise muutuste uurimisest. Kui mõni muu jaotuse kokkuvõte pakub suuremat huvi, ei pruugi t-test ja lineaarne regressioon sobida.

Kokkuvõtteks: normaalsus ei ole üldjuhul väärt arutelu ega tähelepanu, mida see saab, vastupidiselt konkreetsele teaduslikule küsimusele vastamise olulisusele. Kui soovitakse s kokku võtta keskmised erinevused andmetes, on t-test ja ANOVA ehk lineaarne regressioon õigustatud palju laiemas tähenduses. Nendel mudelitel põhinevad testid jäävad õigele alfatasemele ka siis, kui jaotuseeldused ei ole täidetud, ehkki võimsust võib see kahjustada.

Põhjused, miks tavalised jaotused võivad tähelepanu pöörata, võivad olla klassikalistel põhjustel, kus oleks võimalik saada täpseid teste, mis põhinevad AN-jaotuste F-jaotustel ja T-testi Student-T-jaotustel. Tõsi on see, et paljude tänapäevaste teaduse edusammude hulgas käsitleme üldiselt suuremaid andmekogumeid, kui varem koguti. Kui tegeletakse tegelikult väikese andmekogumiga, ei saa nende andmete levitamise põhjendus tuleneda nendest andmetest endast: lihtsalt pole piisavalt jõudu. Märkused muudele uuringutele, replikatsioonidele või isegi mõõtmisprotsessi bioloogiale või teadusele on minu arvates palju õigustatum lähenemisviis vaadeldud andmete aluseks oleva võimaliku tõenäosusemudeli arutamiseks.

Sel põhjusel jääb auastmepõhise testi valimine alternatiivina täiesti tähelepanuta. Olen siiski nõus, et selliste tugevate dispersioonihinnangute kasutamine nagu jackknife või bootstrap pakuvad olulisi arvutuslikke alternatiive, mis võimaldavad teste teha mitmesuguste olulisemate mudelispetsifikatsioonide rikkumiste korral, näiteks nende vigade sõltumatus või identne jaotamine.

#11
+7
probabilityislogic
2012-02-05 06:52:01 UTC
view on stackexchange narkive permalink

Ma arvan, et maksimaalsest entroopia lähenemisviisist võiks siin kasu olla. Saame määrata normaaljaotuse seetõttu, et usume, et andmed on "tavaliselt jaotatud" (mida iganes see ka ei tähendaks) või seetõttu, et loodame näha ainult umbes sama suurusega kõrvalekaldeid. Kuna normaaljaotusel on vaid kaks piisavat statistikat, on see tundetu andmete muutuste suhtes, mis neid koguseid ei muuda. Nii et mõnes mõttes võite tavalisest jaotusest mõelda kui "keskmisest" kõigist võimalikest jaotustest sama esimese ja teise momendiga. see annab ühe põhjuse, miks vähimruudud peaksid töötama sama hästi kui see.

Mõnus mõistete sildamine.Nõustun ka sellega, et juhtudel, kui selline levitamine on oluline, on märksa valgustavam mõelda, kuidas andmed genereeritakse.Seda põhimõtet rakendame segamudelite sobitamisel.Kontsentratsioonid või suhtarvud on seevastu alati viltu.Võin lisada, et kui "tavaline ... on muutuste suhtes tundetu", peate silmas muutumatut kuju / skaala muutumist.
#12
+7
Michael R. Chernick
2012-05-04 22:38:13 UTC
view on stackexchange narkive permalink

Teie esitatud argument on arvamus. Ma arvan, et normaalsuse testimise tähtsus on tagada, et andmed ei erineks tõsiselt normaalsest. Ma kasutan seda mõnikord, et otsustada oma järeldusprotseduuri parameetrilise või mitteparameetrilise testi vahel. Ma arvan, et test võib olla kasulik mõõdukates ja suurtes proovides (kui keskne piirteoreem mängu ei tule). Ma kipun kasutama Wilk-Shapiro või Anderson-Darling teste, kuid SASi käivitades saan nad kõik ja nad on üldiselt üsna hästi nõus. Erineval arvamusel arvan, et graafilised protseduurid, nagu Q-Q graafikud, töötavad võrdselt hästi. Ametliku testi eeliseks on see, et see on objektiivne. Väikestes valimites on tõsi, et sobivuse testide headusel pole praktiliselt mingit jõudu ja see on intuitiivne, sest tavalise jaotuse väike proov võib juhuslikult tunduda üsna ebatavaline ja see on testis arvesse võetud. Samuti ei ole väikestes proovides hõlpsasti näha suurt viltu ja kurtoosi, mis eristavad paljusid mitte-normaalseid jaotusi normaalsetest jaotustest.

Kuigi seda saab kindlasti nii kasutada, ei usu ma, et olete objektiivsem kui QQ-Plotiga. Testide subjektiivne osa on see, millal otsustada, et teie andmed on normaalsed. Suure valimi tagasilükkamine p = 0,05 juures võib olla liiga suur.
Eeltestimine (nagu siin soovitatud) võib kogu protsessi I tüübi veamäära kehtetuks muuta; ükskõik millise valitud testi tulemuste tõlgendamisel tuleks arvestada asjaoluga, et eelkatse tehti. Üldisemalt tuleks hüpoteesitestid säilitada nullhüpoteesi testimiseks, millest üks tegelikult hoolib, st et muutujate vahel puudub seos. Nullhüpotees, et andmed on täpselt normaalsed, ei kuulu sellesse kategooriasse.
(+1) Siin on suurepäraseid nõuandeid. Erik, "objektiivse" kasutamine pani mind ka hämmingusse, kuni mõistsin Michaeli õigust: kaks inimest, kes viivad korrektselt läbi sama testi samadel andmetel, saavad alati sama p-väärtuse, kuid nad võivad tõlgendada sama Q-Q graafikut erinevalt. Külaline: tänan teid hoiatava märkuse eest I tüübi vea kohta. Kuid miks me ei peaks andmete levitamisest hoolima? Sageli on see huvitav ja väärtuslik teave. Ma tahan vähemalt teada, kas andmed on kooskõlas eeldustega, mida minu testid nende kohta teevad!
Ma ei nõustu sellega. Mõlemad inimesed saavad sama QQ-graafiku ja sama p-väärtuse. P-väärtuse tõlgendamiseks peate arvestama valimi suuruse ja normaalsuse rikkumistega, mille suhtes teie test on eriti tundlik. Nii et otsustada, mida oma p-väärtusega teha, on sama subjektiivne. Põhjus, miks võiksite p-väärtust eelistada, on see, et usute, et andmed võiksid järgida täiuslikku normaaljaotust - muidu on lihtsalt küsimus, kui kiiresti p-väärtus valimi suurusega langeb. Veelgi enam, arvestades korralikku valimi suurust, näeb QQ-graafik üsna sama välja ja jääb enamate proovide korral stabiilseks.
Erik, olen nõus, et testitulemused ja graafika nõuavad tõlgendamist. Kuid testi tulemus on * number * ja selle üle ei vaielda. QQ graafik tunnistab aga mitut kirjeldust. Ehkki kumbki võib objektiivselt olla õige, on valik, millele tähelepanu pöörata, ... valik. Seda tähendab "subjektiivne": tulemus sõltub analüütikust, mitte ainult protseduurist endast. Seetõttu põhinevad kriteeriumid nii erinevates seadistustes nagu kontrollgraafikud ja valitsuse määrused, kus "objektiivsus" on oluline, * arvulised * testid ja * mitte kunagi * graafilised tulemused.
Olen väga üllatunud, et keegi väidab, et ametlik hüpoteeside testimine pole enam QQ graafiku uurimise eesmärk. Ma arvan, et Bill Huber selgitas hästi, mida ma oleksin vastuseks öelnud. Ma ei tea, kas ma saan Eriku meelt selles osas muuta, kuid lisan, et valite teststatistika ja kriitilise väärtuse teie valitud olulisuse taseme põhjal (olulisuse taseme valik võib olla traditsiooni järgi nagu 0,05 valimine või see võib otsustada teie subjektiivne arutluskäik selle kohta, milline on risk, mida soovite I tüüpi vea tegemisel võtta).
Seda kõike saab teha enne andmete kogumist. Sel hetkel on otsus deterministlik. Kogute andmeid, arvutate testistatistika ja lükkate siis tagasi, kui see ületab kriitilise väärtuse, ja ei lükka tagasi, kui see ei ületa. Andmete põhjal ei muuda te midagi. QQ-graafiku puhul pole eelnevalt kindlaksmääratud reeglit. Põhimõtteliselt loote graafiku andmete põhjal ja otsustate ise selle põhjal, mida näete, kas arvate, et andmed järgivad tihedalt sirgjoont või mitte. Kaks inimest võivad tulemuse vaatamisest tuleneva isikliku hinnangu põhjal kindlasti erineda.
Ma arvan, et siin räägime arvamustest. Siis on minu arvates halb tava õpetada, et normaalsuse test on objektiivne standard, mis kontrollib / lükkab tagasi normaalsuse. Testi tulemus on lihtsalt algoritm, mis ei teavita normaalsuse eeldamise ja edasiliikumise paikapidavusest. Q-Q graafik on selgesõnaline: peate otsustama, mis on oluline või mitte (kõrvalekalle) ja paneb teid mõtlema, kas võib-olla on seal mõni alternatiiv, mis muudab selle paremaks (isegi lihtsalt lineaarne teisendus)
#13
+7
Michael R. Chernick
2012-05-05 22:27:18 UTC
view on stackexchange narkive permalink

Ma arvan, et kahele esimesele küsimusele on põhjalikult vastatud, kuid ma ei usu, et 3. küsimust oleks käsitletud. Paljud testid võrdlevad empiirilist jaotust teadaoleva hüpoteesiga. Kolmogorovi-Smirnovi testi kriitiline väärtus põhineb F-i täielikul täpsustamisel. Seda saab modifitseerida, et testida parameetrilist jaotust hinnanguliste parameetritega. Nii et kui fuzzier tähendab rohkem kui kahe parameetri hindamist, siis vastus küsimusele on jaatav. Neid teste saab rakendada vähemalt 3 parameetrite perekonnas. Mõni test on loodud suurema võimsusega, kui testitakse konkreetse jaotusperekonna vastu. Näiteks normaalsuse testimisel on Andersoni-Darlingu või Shapiro-Wilki testil suurem jõud kui K-S või chi-ruut, kui nullhüpoteesitud jaotus on normaalne. Lillefors töötas välja testi, mida eelistatakse eksponentsiaalsete jaotuste jaoks.

#14
+7
kolonel
2014-10-25 01:00:55 UTC
view on stackexchange narkive permalink

Ma ei ütleks, et see oleks kasutu, kuid see sõltub tegelikult rakendusest. Pange tähele, et kunagi ei tea kunagi jaotust, millest andmed pärinevad, ja kõik, mis teil on, on väike realiseerimiste komplekt. Teie valimi keskmine on valimis alati piiratud, kuid teatud tüüpi tõenäosustiheduse funktsioonide puhul võib keskmine olla määratlemata või lõpmatu. Vaatleme kolme tüüpi Levy stabiilseid jaotusi, st normaaljaotust, Levy jaotust ja Cauchy jaotust. Enamikul teie proovidest pole sabas palju vaatlusi (st valimi keskmisest eemal). Nii et empiiriliselt on nende kolme vahel väga raske vahet teha, nii et Cauchy (keskmise tähendus on määratlemata) ja Levy (lõpmatu keskmine) võiks maskeeruda lihtsalt normaaljaotusena.

"... empiiriliselt on see väga raske ..." näib vaidlustavat levitamise testimist pigem * vastu * kui * poolt *.Seda on kummaline lugeda paragrahvist, mille sissejuhatuse järgi on levitamise testimiseks tõepoolest kasutust.Mida te siis siin tõesti öelda tahate?
Olen selle vastu, kuid tahan olla ka ettevaatlik, kui lihtsalt öelda, et see on kasutu, kuna ma ei tea kõiki võimalikke stsenaariume.On palju teste, mis sõltuvad normaalsuse eeldusest.Öeldes, et normaalsuse testimine on kasutu, on sisuliselt kõigi selliste statistiliste testide tühistamine, nagu te ütlete, et te pole kindel, et kasutate / teete õiget asja.Sellisel juhul ei tohiks te seda teha, te ei peaks tegema seda suurt statistikat.
Aitäh.Tundub, et selle kommentaari märkused on küsimusele paremini keskendunud kui teie algne vastus!Võite kaaluda oma vastuse mingil hetkel ajakohastamist, et oma arvamusi ja nõuandeid paremini esile tuua.
@whuber Pole probleemi.Kas oskate soovitada muudatust?
Võite alustada kahe postituse - vastuse ja kommentaari - kombineerimisega ja mõelda siis võimaliku tangentsiaalse materjali rohimisele (või lisale viimisele või selgitamisele).Näiteks viide määratlemata vahenditele ei oma siiani selget tähendust ja seetõttu jääb see mõnevõrra salapäraseks.
@whuber Olgu, ma proovin seda parandada.aitäh.
#15
+5
wvguy8258
2013-12-07 22:02:42 UTC
view on stackexchange narkive permalink

Ma arvan, et valed on testid, kus analüüsi jaoks olulist "midagi" toetavad kõrged p-väärtused. Nagu teised märkisid, on suurte andmekogumite korral tagatud p-väärtus alla 0,05. Niisiis, test sisuliselt "premeerib" väikeste ja uduste andmekogumite eest ning "premeerib" tõendite puudumise eest. Midagi qq-jooniste sarnast on palju kasulikum. Soov, et kõvad numbrid otsustaksid sellised asjad alati (jah / ei normaalne / mitte normaalne), jätab vahele selle, et modelleerimine on osaliselt kunst ja kuidas hüpoteese tegelikult toetatakse.

Alles jääb, et suurel, peaaegu normaalsel valimil on madal p-väärtus, samal ajal kui väiksemal valimil, mis pole peaaegu sama normaalne, sageli mitte. Ma arvan, et suured p-väärtused pole kasulikud. Jällegi premeerivad nad tõendite puudumise eest. Mul võib olla mitme miljoni andmepunktiga valim, mis peaaegu alati lükkab normaalsuse eelduse nende testide ajal läbi, samas kui väiksem valim seda ei tee. Seetõttu leian, et need pole kasulikud. Kui minu mõtlemine on vigane, siis palun näidake seda selles küsimuses mõne deduktiivse arutluskäiguga.
See ei vasta küsimusele üldse.
#16
-3
Hotaka
2013-09-29 21:04:38 UTC
view on stackexchange narkive permalink

Normaalsustesti hea kasutamine, mida minu arvates pole mainitud, on teha kindlaks, kas z-skooride kasutamine on korras. Oletame, et valisite juhusliku valimi populatsioonist ja soovite leida tõenäosuse, et valiksite populatsioonist ühe juhusliku indiviidi ja saaksite väärtuse 80 või rohkem. Seda saab teha ainult siis, kui jaotus on normaalne, sest z-skooride kasutamiseks eeldatakse, et populatsiooni jaotus on normaalne.

Aga siis näen vist, et ka see on vaieldav ...

Mille väärtus? Keskmine, summa, dispersioon, individuaalne vaatlus? Ainult viimane tugineb oletatavale jaotuse normaalsusele.
ma mõtlesin individuaalset
Aitäh. Teie vastus on siiski nii ebamäärane, et on raske öelda, millistele protseduuridele viitate, ja võimatu hinnata, kas teie järeldused on õiged.
Selle kasutamise probleem on sama mis muude kasutuste puhul: test sõltub valimi suurusest, seega on see sisuliselt kasutu. See ei ütle teile, kas saate z-punkte kasutada.


See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...