Küsimus:
Kas suured andmekogumid ei ole hüpoteeside testimiseks sobivad?
Carlos Accioly
2010-09-09 23:21:30 UTC
view on stackexchange narkive permalink

Amstat News hiljutises artiklis väitsid autorid (Mark van der Laan ja Sherri Rose), et "me teame, et iga uuringu - kaasa arvatud need, kus nullhüpotees mõju puudub - kuulutab statistiliselt olulise efekti. ".

Noh, ma ei teadnud seda. Kas see on tõsi? Kas see tähendab, et hüpoteesi testimine on suurte andmekogumite jaoks väärtusetu?

+1: see küsimus paljastab tavaliselt mõne huvitava seisukoha.
Rohkem arutelu suurte andmekogumite üle ilmub aadressil http://stats.stackexchange.com/q/7815/919. (Fookuses on seal regressioonimudelid.)
[seotud lõim] (http://stats.stackexchange.com/questions/162143/is-this-really-how-p-values-work-can-a-million-research-papers-per-year-be-base)?
Kui suur valim paneb teid arvama, et hüpoteesi testimine oli vale tööriist, siis hüpoteesi testimine ei vastanud õigesti ka väiksemate proovide korral - et see oli vale, muutus suuremate valimite korral lihtsalt * ilmsemaks, kuid samad kaalutlusedon asjakohased.Kui märkimisväärne tulemus väga väikese efekti suuruse juures paneb teid ütlema "noh, seda ma ei tahtnud, tahtsin, et see ütleks mulle, kas see on oluline", siis oli hüpoteesi testimine kõigepealt vale tööriist.Sellise probleemi jaoks on sobivamaid tööriistu (nt usaldusvahemikud, samaväärsuse testid jne).
Kuusteist vastused:
#1
+102
John
2010-09-09 23:59:37 UTC
view on stackexchange narkive permalink

See pole tõsi. Kui nullhüpotees vastab tõele, ei lükata seda suuremate valimite korral sagedamini tagasi kui väikesed. On ekslik tagasilükkamissagedus, mis on tavaliselt seatud väärtusele 0,05 (alfa), kuid see ei sõltu valimi suurusest. Seetõttu on väide sõna otseses mõttes vale. Sellest hoolimata on võimalik, et mõnes olukorras (isegi terved väljad) on kõik nullid valed ja seetõttu lükatakse kõik tagasi, kui N on piisavalt kõrge. Kuid kas see on halb asi?

Tõsi on see, et triviaalselt väikesed efektid võivad ilmneda "märkimisväärsetena" väga suure valimi suuruse korral. See ei viita sellele, et teil ei peaks olema nii suuri proovide suurusi. See tähendab, et see, kuidas oma leide tõlgendate, sõltub testi mõju suurusest ja tundlikkusest. Kui teil on väga väike efekti suurus ja väga tundlik test, peate mõistma, et statistiliselt oluline järeldus ei pruugi olla mõttekas ega kasulik.

Arvestades seda, et mõned inimesed ei usu, et nullhüpoteesi test kui null on true , on veamäär alati võrdne mis tahes valimi suuruse jaoks valitud väljalõikepunktiga, siin on punkti simuleerimiseks lihtne kood R . Tehke N nii suureks kui soovite ja I tüübi vigade määr jääb konstantseks.

  # katsealuste arv igas tingimuses <- 100 # uuringu korduste arv, et kontrollida I tüübi viga ratensamp <- 10000ps < - kordus (nsamp, {# populatsiooni keskmine = 0, sd = 1 mõlema proovi jaoks, seetõttu puudub reaalne mõju y1 <- rnorm (n, 0, 1) y2 <- rnorm (n, 0, 1) tt <- t.test (y1, y2, var.equal = TRUE) tt $ p.value}) summa (ps < .05) / nsamp # ~ .05 ükskõik kui suur n on. Pange tähele, et efekti leidmine ei ole alati suurem, kui n on väga suur.  
+1: tõepoolest, kõik kolm vastust on siin üksteisega loogiliselt kooskõlas.
Lõpuks leidsin ma lahti midagi, mida professor (mittestatistiline) professor mulle ammu rääkis.
Artikli väide on õige, Johannese vastus, mida palun eristada, on lahknev.P väärtused sõltuvad ilmselgelt valimi suurusest.Mida suurem on valimi suurus, seda väiksem on standardviga, seda suurem on t väärtus, seda väiksem on P väärtus.See on hüpoteeside testimise aritmeetika.John tunnistab seda täpselt (ja on iseendaga vastuolus) oma teise lõigu alguses.Seejärel liigub ta valiku suurusest sõltumatu efekti suuruse juurde.Ja ajab viimase segi statistilise olulisusele keskendunud standardsete hüpoteeside testimisega.
@Sympa, nr.See, et SE langeb, kui N tõuseb, ei tähenda, et suure N-ga leiate alati efekti (vt simulatsiooni).Pidage meeles, et kui SE väheneb, suureneb mõju hinnangu kvaliteet.Kui rahvastikuefekti pole, on tõenäolisem, et see on 0 lähedal ega näita erinevust.Tegelikult on p-väärtuste jaotus tasane olenemata valimi suurusest, kui null on tõene (kirjutage selleks oma simulatsioon).Vastuses pole vastuolu.
Suure hulga katsetega simulatsiooni koostamine hüpoteesi testimise harjutusega @John, võib tulemusi summutada.Teie simulatsiooniraamistik erineb empiirilistest hüpoteeside testimise harjutustest (kliinilised uuringud jne).Tsiteerides artiklit "Me teame, et piisavalt suurte valimimahtude korral deklareerivad kõik uuringud - ka need, mille puhul mõju puudumise nullhüpotees on tõene - statistiliselt olulise efekti."Ja jään autorite juurde, kuna nende avastusi saab hõlpsasti näidata asjakohase statistilise meetodi abil (nagu ma eespool mainisin).
Siis oleksite vale.Võiksite kaaluda ka teiste vastuste lugemist siin.Kuna te ei saa simulatsiooni ja hüpoteeside testimise vahelist suhet jälgida, oskan vist osutada ainult teie peamisele väitele, et kui standardviga väheneb, siis t tõuseb ja p langeb.See on tõsi ainult siis, kui efekt jääb püsima.Kuid efekt on juhuslik valim ja kui tegelik mõju on 0, siis kui N suureneb, siis täheldatud mõju kipub vähenema.Seega, kuigi N suureneb SE väheneb, ei suurenda see t-väärtusi, sest ka t-väärtuse lugeja on madalam.
@John Kõik, mida ütlesite, tundub mulle nii ilmne, et ma ei jõua siiani sinna, kust pärineb mantra "kõik muutub märkimisväärseks".Mul on ilmselt midagi puudu ... oleks tore, kui loeksite rohkem kommentaare kasutajatelt, kes teiega selles küsimuses nõus ei ole
@Dambo Ma pole kummalgi juhul kindel, kust see tuleb ja täielik vastus oleks kommentaari jaoks liiga pikk.Lühike vastus võib olla aga see, et väljadel, kus enamik manipulatsioone tekitab mingit efekti, olgu see siis tühine, muudavad väga suured N-d iga efekti oluliseks väga suure kiirusega.Kuid see on ainult sellepärast, et tegelik mõju ei olnud kunagi täpselt 0, kuid see oli väike ja väikeste N-de korral tavaliselt mitte märkimisväärne.(Loodan, et see toob esile tõsise probleemi, mille jaoks on teie jaoks oluline olulisus, nii ebaoluliste kui ka oluliste leidude puhul.)
Kas see kõik pole I tüübi viga II tüüpi vea (või võimsuse) küsimus?Te väidate õigesti, et kui määrata I tüübi vea tõenäosus ($ \ alpha $) väärtuseks 0,05, on ilmselgelt 0,05, kas valim on suur või mitte.Kuid antud I tüübi vea tõenäosuse korral on 0,05, nt võimsus või tõenäosus, et tuvastate efekti, kui see on olemas, suuremate valimimahtude korral.
See vastus on tõesti hea, kuid tehniliselt öeldes ei saa `rnorm (n, 0, 1)` tagastatud numbritel olla normaalset jaotust!Seda seetõttu, et normaaljaotus on pidev jaotus, mille ratsionaalse arvu tootmise paaritu on 0. Kuid kuna suvalist irratsionaalset numbrit pole võimalik arvutisse salvestada, tagastab `rnorm` ainult ratsionaalarvud.See tähendab asjaolu, et (meeletult) suure n-i korral lükatakse kõik testid lõpuks tagasi.Mida ma proovin teie vastusele lisada, on reaalse maailma näited teoreetilistest.
Asjaolu, et rnorm ei saa põhjustada irratsionaalset arvu, on näites ebaoluline.Isegi kui see ei tulene keskmiselt 0 ja sd väärtusest 1 täpselt normaalsena, pole see mõlema valimi puhul sama.I tüübi veamäär võib olla 0,05-st kunagi nii pisut väljas, kuid see peaks püsima konstantsena hoolimata N-st. Ja see ei kehti kõigi simulatsioonide kohta, sest ma oleksin võinud valida diskreetse, kus see pole probleem.(Kui te tõesti tahtsite tõstatada esoteerilise küsimuse, siis oleksite pidanud tegelema pseudo juhuslikkusega.)
#2
+33
whuber
2010-09-10 00:42:27 UTC
view on stackexchange narkive permalink

Olen nõus ilmunud vastustega, kuid tahaksin lisada, et võib-olla võiks küsimuse ümber suunata. Kas hüpoteesi testida või mitte, on uurimisküsimus, mis peaks vähemalt üldiselt olema sõltumatu sellest, kui palju andmeid tal on. Kui teil on tõesti vaja hüpoteesi testida, tehke seda ja ärge kartke oma võimet väikseid mõjusid tuvastada. Kuid kõigepealt küsige, kas see on teie uurimiseesmärkide osa.

Nüüd mõned näpunäited:

  • Mõni nullhüpotees vastab ehituselt absoluutselt tõele. Kui proovite pseudoandomate arvugeneraatorit näiteks võrdse jaotuse jaoks ja see PRG on võrdselt jaotatud (mis oleks matemaatiline teoreem), kehtib null. Tõenäoliselt saab enamik teist mõelda reaalsuse huvitavatele näidetele, mis tulenevad randomiseerimisest eksperimentides, kus ravil pole tegelikult mingit mõju. (Näiteks tooksin välja kogu esp-kirjanduse. ;-)

  • Olukorras, kus "lihtsat" nulli testitakse alternatiivse "ühendi" vastu, nagu klassikalistes t-testides või z-testides kulub tavaliselt efekti suuruse $ \ epsilon $ tuvastamiseks valimi suurus, mis on proportsionaalne väärtusega $ 1 / \ epsilon ^ 2 $. Igas uuringus on selle praktiline ülemine piir, mis tähendab, et tuvastatava efekti suurusel on praktiline alumine piir. Niisiis, teoreetilise küsimusena on Laan ja Rose õiged, kuid nende järelduse rakendamisel peaksime olema ettevaatlikud.

Kas see kõik pole I tüübi viga II tüüpi vea (või võimsuse) küsimus?Kui üks fikseerib I tüübi vea tõenäosuse ($ \ alpha $) väärtuseks 0,05, on ilmselgelt (välja arvatud diskreetsel juhul) 0,05, kas valim on suur või mitte.Kuid antud I tüübi vea tõenäosuse korral on 0,05, nt võimsus või tõenäosus, et tuvastate efekti, kui see on olemas, suuremate valimimahtude korral.
@fcop Kuigi teie kommentaarid on õiged, näivad need olevat suunatud teistele vastustele.Neil jääb sellest mõttest puudu, mis viitab sellele, et kõik statistilised analüüsid ei pea olema hüpoteesitestid.I ja II tüübi vigadel on tähendus ainult ametlike hüpoteesitestide läbiviimisel.
OP viitab väitele: "" Me teame, et piisavalt suurte valimimahtude korral deklareerib iga uuring - ka uuringud, mille puhul mõju puudumise nullhüpotees on tõene - statistiliselt olulise efekti. "" Nii et kui testite nt.$ H_0: \ mu = 1 $ versus $ H_1: \ mu \ ne 1 $, siis on suurtes proovides võimsus nii kõrge, et 'tuvastate' isegi väikesed kõrvalekalded väärtusest 1. Seega arvan, et nende väide pole õige, kuid see jõudsuurtes proovides võimaldab tuvastada väga väikeseid erinevusi.
@fcop Täname, et selgitasite.Nõustun teie arutluskäiguga: kui null on tõene, leiavad ehituse järgi isegi suured uuringud olulise efekti, mille tõenäosus on maksimaalselt võrdne nende testi suurusega - see tähendab, et tõenäoliselt ei leia nad olulist mõju.
#3
+23
Sympa
2010-09-17 09:11:53 UTC
view on stackexchange narkive permalink

Hüpoteeside testimisel keskenduti traditsiooniliselt p-väärtustele, et saada statistiline olulisus, kui alfa on alla 0,05, on suur nõrkus. Ja see on see, et piisavalt suure valimimahu korral võib iga eksperiment nullhüpoteesi tagasi lükata ja tuvastada triviaalseid väikeseid erinevusi, mis osutuvad statistiliselt olulisteks.

See on põhjus, miks ravimifirmad struktureerivad kliinilisi uuringuid saada FDA heakskiit väga suurte proovidega. Suur valim vähendab standardviga nulli lähedale. See omakorda suurendab t stat kunstlikult ja alandab p väärtust proportsionaalselt 0% lähedale.

Seda seetõttu, et efekti suuruse analüüsis on statistilise kauguse või diferentseerimise ühik standardhälbe asemel standardhälve. Ja standardhälve on valimi suurusest täiesti sõltumatu. Standardviga seevastu sõltub täielikult valimi suurusest. Nad peaksid analüüsi uuesti tegema, kasutades samu andmeid, kuid kasutades efekti suuruse statistilisi teste. Seejärel jälgige, kas efekti suurust peetakse oluliseks või mitte. Nii toimides võite täheldada, et hulga statistiliselt olulisi erinevusi seostatakse efekti suurusega, mis on ebaolulised. Seda mõtlevad kliiniliste uuringute teadlased mõnikord, kui tulemus on statistiliselt oluline, kuid mitte "kliiniliselt oluline". Nad tahavad öelda, et üks ravi võib olla parem kui platseebo, kuid erinevus on nii marginaalne, et see ei teeks patsiendile kliinilises kontekstis vahet.
Ühe inimese suur valim on teise väike proov. :)
Kas te ei esitanud siis valet küsimust? Võib-olla peaks FDA heakskiitmisprotsess täpsustama suuremat kasu võrreldes platseeboga (võib-olla seotud ravimi maksumuse, sealhulgas selle kahjulike mõjudega), selle asemel et nõuda lihtsalt statistilist olulisust? Kuna võib väga hästi olla tõeline erinevus, ehkki väga väike, ja see erinevus osutus statistiliselt oluliseks, olgu see nii väike kui tahes.
FDA ei nõua "lihtsalt statistilist olulisust".See oleks absurdne.Kõik selles valdkonnas saavad aru, mida tähendab "kliiniliselt oluline".FDA kaalub ravimi * efektiivsuse * statistilisi tõendeid, mõõdetuna kliiniliste tulemusnäitajate, näiteks remissiooni, põhjal, võrreldes tervise- ja ohutusprobleemidega.Enne alusetute väidete esitamist lugege palun FDA juhiseid.
#4
+16
Brett
2010-09-10 08:51:13 UTC
view on stackexchange narkive permalink

Täpselt eeldatakse, et nullhüpotees vastab tõele, (sageli esinev) hüpoteesi test, mis käsitleb vaadeldud andmete tõenäosuse või millegi ekstreemsema tõenäosust. See tõlgendus on valimi suuruse suhtes ükskõikne. See tõlgendus kehtib olenemata sellest, kas valim on suuruselt 5 või 1 000 000.

Oluline hoiatus on see, et test on asjakohane ainult valimisvigade puhul. Kõik mõõtmisvead, proovivõtuprobleemid, katvus, andmesisestusvead jne jäävad valimisvigade reguleerimisalast välja. Valimi suuruse kasvades muutuvad valimivälised vead mõjukamaks, kuna väikesed lahkumised võivad juhusliku valimi mudeli põhjal märkimisväärselt lahkuda. Seetõttu muutuvad olulisuse testid vähem kasulikuks.

See ei ole mingil juhul süüdistus olulisuse testimises. Siiski peame oma omistuste suhtes olema ettevaatlikud. Tulemus võib olla statistiliselt oluline. Kuid peame olema ettevaatlikud omistuste tegemisel, kui valimi suurus on suur. Kas see erinevus tuleneb meie hüpoteesitud genereerimisprotsessist vis valimisvea korral või on see mõne võimaliku valimivälise vea tulemus, mis võib testistatistikat mõjutada (mida statistika ei arvesta)?

Suurte valimite teine ​​kaalutlus on tulemuse praktiline tähtsus. Oluline test võib soovitada (isegi kui võime välistada valimivälise vea) praktilises mõttes tühist erinevust. Isegi kui valimi moodustamise mudeli põhjal on see tulemus ebatõenäoline, kas see on probleemi kontekstis oluline? Piisavalt suure valimi korral võib mõne dollari vahe olla piisav, et saada tulemus, mis on statistiliselt oluline kahe rühma sissetulekute võrdlemisel. Kas see on mingis tähenduslikus mõttes oluline? Statistiline olulisus ei asenda head otsustusvõimet ja ainealaseid teadmisi.

Kõrvalepõikena ei ole null tõene ega vale. See on mudel. See on oletus. Eeldame, et null on tõene, ja hindame oma valimit selle eelduse põhjal. Kui see eeldus on meie valimil ebatõenäoline, usaldame oma alternatiivi rohkem. Kui küsida, kas null on tegelikkuses kunagi tõsi, on olulisuse testimise loogika vääriti mõistmine

See toetab argumenti mudeli keerukuse suurenemise kohta, kuna valimi suurus muutub suureks - suure valimi puhul ei ole valimiviga enam määramatuse allikas. Muidugi on see "mõttekas" ainult Bayesi raamistikus, mis võimaldab lisaks valimivigadele ka muid ebakindluse allikaid.
#5
+13
Keith Winstein
2010-09-17 20:26:45 UTC
view on stackexchange narkive permalink

Üks lihtne punkt, mida teises vastuses otseselt ei esitata, on see, et pole lihtsalt tõsi, et "kõik nullhüpoteesid on valed".

Lihtne hüpotees, et füüsilise mündi pead on tõenäosusega täpselt võrdsed 0,5, ok , see on vale.

Kuid liithüpotees, et füüsilise mündi pead on tõenäolisemad kui 0,499 ja väiksemad kui 0,501, võib olla tõsi. Kui jah, ei suuda ükski hüpoteesitest - hoolimata sellest, kui palju mündi klappe sellesse läheb - hüpoteesi tagasi lükata tõenäosusega, mis on suurem kui $ \ alpha $ (testid on seotud valepositiivsetega).

Meditsiinitööstus testib "alaväärtuse" hüpoteese kogu aeg, sel põhjusel - nt uus vähiravim peab näitama, et tema patsientide tõenäosus progressioonivabaks elulemuseks ei ole mingil usaldustasemel ($ \ alfa $, tavaliselt 0,05) madalam kui olemasoleva ravimi oma 3 protsendipunkti võrra.

#6
+9
user603
2010-09-09 23:55:04 UTC
view on stackexchange narkive permalink

Teatud mõttes on [kõik] paljud nullhüpoteesid [alati] valed (paaritu arvuga majades elavate inimeste rühm ei saa kunagi täpselt sama keskmiselt paarisarvulistes majades elavate inimeste rühmana).

Tihtipeale küsitav küsimus on see, kas nende kahe rühma sissetulekute erinevus on suurem kui $ T _ {\ alpha} n ^ {- 0.5} $ (kus $ T _ {\ alfa } $ on teststatistika jaotuse null \ all oleva $ \ alpha $ kvantiil). Muidugi, kui $ n $ piirideta kasvab, on sellest bändist üha lihtsam läbi murda.

See pole statistiliste testide viga. Lihtsalt tagajärg tõsiasjale, et ilma täiendava (a priori) informatsioonita tuleb nullile vastu tõendiks võtta suur hulk väikseid vastuolusid nulliga. Ükskõik kui tühiseks need vastuolud ka ei osutuks.

Suurtes uuringutes on siis huvitav see küsimus uuesti Bayesi testina raamistada, st küsida endalt (näiteks), mis on $ \ hat {P} (| bar {\ mu} _1- \ bar {\ mu} _2 | ^ 2> \ eta | \ eta, X) $.

See on imelik ... intuitiivselt näib see olevat vastuolus suurte arvude seadusega.
Carlos:> kas oskate täpsemalt öelda?
LLN ütleb põhimõtteliselt, et mida suurem on teie valim, seda paremini esindab see "tegelikku" tõenäosuse jaotust. Teie näites, mida rohkem majanumbreid uurin, seda lähemal on 50-protsendiline paaritu arvuga majade arv. Nii kõlab imelikult, et teil on bändist kergem läbi murda, kuna see kahaneb proportsionaalselt $ n $ ruutjuurega. (Kas mul on siin mõtet?)
@Carlos - aga lähenemine ei tähenda võrdsust; see on tagatud ainult lõpmatuse kättesaamatu piirini. Seega pole vastuolu ;-)
Paaris / paaritu majanumbrite näide võib olla väga reaalne.Tihti on kõigil tänava samal küljel asuvatel majadel võrdsus.Üks külg võiks olla ranna lähedal ...
#7
+5
gappy
2010-09-17 10:49:35 UTC
view on stackexchange narkive permalink

Lühike vastus on "ei". Uuringud hüpoteeside testimise kohta lõpmatute vaatluste ja mitme hüpoteesi asümptootilises režiimis on viimase 15-20 aasta jooksul olnud väga aktiivsed mikrokujutiste andmete ja finantsandmete rakenduste tõttu. Pikk vastus on Stat 329 kursuselehel "Suuremahuline samaaegne järeldus", mille õpetas 2010. aastal Brad Efron. täielik peatükk on pühendatud suuremahulisele hüpoteeside testimisele.

Usun, et Efroni raamat keskendub suurele hulgale muutujatele (ja sellest tulenevatele mitmetele testimisega seotud probleemidele), mitte valimi suurusele.
#8
+5
Zen
2016-05-27 01:00:53 UTC
view on stackexchange narkive permalink

"Kas see tähendab, et hüpoteesi testimine on suurte andmekogumite jaoks väärtusetu?"

Ei, see ei tähenda seda. Üldine sõnum on see, et pärast hüpoteesitesti tegemist tehtud otsused peaksid alati arvestama mõju hinnangulist suurust, mitte ainult p-väärtust. Eriti suurte valimimahtudega katsetes muutub see vajadus efekti suuruse arvestamiseks dramaatiliseks. Muidugi, üldiselt ei meeldi see kasutajatele, kuna protseduur muutub vähem "automaatseks".

Mõelge sellele simulatsiooninäitele. Oletame, et teil on tavalisest normaaljaotusest 1 miljon vaatlust juhuslik valim,

  n <- 10 ^ 6x <- rnorm (n)  

ja teine ​​juhuslik valim, milles on 1 miljon vaatlust normaaljaotusest, mille keskmine on võrdne 0,01 $ ja dispersioon võrdub ühega.

  y <- rnorm (n, keskmine = 0,01)  

Võrreldes kahe populatsiooni keskmisi t-testiga kanoonilises $ 95 \% $ usaldustasemel, saame väikese p-väärtuse, mis on umbes $ 2,5 \ korda 10 ^ {- 14} $.

  t.test (x, y) Welch kahe valimi t-testandmed: x ja yt = -7,6218, df = 1999984, p-väärtus = 2,503e-14alternatiivne hüpotees: tegelik erinevus keskmistes pole võrdne kuni 095-protsendilise usaldusintervallini: -0,013554059 -0,008009031valimi hinnangud: y keskmise x keskmise väärtus 0,0008947038 0,01116762485  

On õige öelda, et t-test "tuvastas", et nende kahe keskmine tähendab populatsioonid on erinevad. Kuid vaadake kahe populatsiooni keskmise erinevuse väga lühikest usaldusintervalli $ 95 \% $: $ [- 0.013, -0.008] $.

Kas erinevus kahe populatsiooni vahel tähendab seda suurusjärk, mis on asjakohane konkreetse uuritava probleemi jaoks või mitte?

Nõustun kõigega teie vastuses, välja arvatud see esimene lause, mille muudaksin sõnaks "Jah, see tähendab tavaliselt seda", sest umbes miljoni suuruse valimiga on efekti suurused NII väikesed.
Kas see kõik pole I tüübi viga II tüüpi vea (või võimsuse) küsimus?Kui üks fikseerib I tüübi vea tõenäosuse ($ \ alpha $) väärtuseks 0,05, on ilmselgelt (välja arvatud diskreetsel juhul) 0,05, kas valim on suur või mitte.Kuid antud I tüübi vea tõenäosuse korral on 0,05, nt võimsus või tõenäosus, et tuvastate efekti, kui see on olemas, suuremate valimimahtude korral.
#9
+4
Joris Meys
2010-09-10 15:03:14 UTC
view on stackexchange narkive permalink

Suurte andmete hüpoteeside testimine peaks võtma arvesse soovitud erinevuse taset, mitte seda, kas erinevus on olemas või mitte. Teid ei huvita H0, et hinnang on täpselt 0. Üldine lähenemisviis oleks testida, kas nullhüpoteesi ja vaadeldava väärtuse vahe on suurem kui antud piirväärtus.

X_2} $: $$ T = \ frac {\ bar {X1} - \ bar {X2} - \ delta} {\ sqrt {\ frac {S ^ 2} {n}}} + \ frac {\ delta} { \ sqrt {\ frac {S ^ 2} {n}}} \ umbes N (\ frac {\ delta} {\ sqrt {\ frac {S ^ 2} {n}}}, 1) $$, seega $$ T = \ frac {\ bar {X1} - \ bar {X2}} {\ sqrt {\ frac {S ^ 2} {n}}} \ umbes N (\ frac {\ delta} {\ sqrt {\ frac {S ^ 2} {n}}}, 1) $$

nagu teie nullhüpotees $ H_0: \ bar {X1} - \ bar {X2} = \ delta $ tähendab:

$$ \ frac {\ bar {X1} - \ bar {X2} - \ delta} {\ sqrt {\ frac {S ^ 2} {n}}} \ umbes N (0,1) $$

Seda saate hõlpsalt kasutada olulise ja asjakohase erinevuse testimiseks. R-s saate selle tulemuse üldistamiseks kasutada ka T-jaotuste mittetsentraalsuse parameetrit ka väiksemate valimimahtude korral. Peaksite arvestama, et see on ühepoolne test, alternatiiviks $ H_A $ on $ \ bar {X1} - \ bar {X2}> \ delta $.

  mod.test <- funktsioon (x1, x2, dif, ...) {keskm.x1 <- keskmine (x1) keskm .x2 <- keskmine (x2) sd.x1 <- sd (x1) sd.x2 <- sd (x2 ) sd.comb <- sqrt ((sd.x1 ^ 2 + sd.x2 ^ 2) / 2) n <- pikkus (x1) t.val <- (abs (keskm .x1-keskm .x2)) * sqrt (n) /sd.comb ncp <- (dif * sqrt (n) /sd.comb) p.val <- pt (t.val, n-1, ncp = ncp, madalam. saba = FALSE) tagastus (p .val)} n <- 5000test1 <- replicate (100, t.test (rnorm (n), rnorm (n, 0.05)) $ p.value) tabel (test1<0.05) test2 <- replicate (100, t. test (rnorm (n), rnorm (n, 0.5)) $ p.value) tabel (test2<0.05) test3 < - kordus (100,
mod.test (rnorm (n), rnorm (n, 0.05), dif = 0.3)) tabel (test3<0.05) test4 < - kordus (100, mod.test (rnorm (n), rnorm (n, 0.5)) dif = 0.3)) tabel (test4<0.05)  

Mis annab:

  > tabel (test1<0.05) VALE TÕESI 24 76 > tabel (test2<0 .05) TRUE 100 > tabel (test3<0.05) FALSE 100 > tabel (test4<0.05) TRUE 100  
kas esimeses võrrandis pole copy / paste trükiviga?
Ma ei näe seda?
#10
+3
probabilityislogic
2011-06-15 19:16:06 UTC
view on stackexchange narkive permalink

Ma arvan, et see on enamuse olulisuse testide probleem, millel on nullile kaudsete alternatiivide üldine määratlemata klass, mida me kunagi ei tea. Sageli võivad need klassid sisaldada mingisugust "kindla asja" hüpoteesi, milles andmed sobivad ideaalselt (st hüpotees kujul $ H_ {ST}: d_ {1} = 1.23, d_ {2} = 1.11, \ dots $ kus $ d_ {i} $ on i-s andmepunkt). Logi tõenäosuse väärtus on selline näide olulisuse testist, millel on see omadus.

Kuid see kindel asi ei ole tavaliselt huvitatud. Kui mõtlete sellele, mida hüpoteesitestiga tegelikult teha soovite, mõistate peagi, et nullhüpoteesi peaksite tagasi lükkama ainult siis, kui teil on midagi paremat asendada. Isegi kui teie null ei selgita andmeid, pole nende välja viskamisest kasu, kui teil pole asendajaid. Nüüd asendaksite null alati hüpoteesiga "kindel asi"? Tõenäoliselt mitte, sest te ei saa kasutada seda "kindel asi" hüpoteesi, et üldistada oma andmekogumist kaugemale. See pole palju muud kui oma andmete väljatrükkimine.

Seega peaksite täpsustama hüpoteesi, mille järgi oleksite reaalselt huvitatud tegutsemisest, kui need oleksid tõesed. Seejärel tehke sobiv test nende alternatiivide võrdlemiseks üksteisega - mitte mõne ebaolulise hüpoteesiklassiga, mille kohta teate, et see on vale või kasutamiskõlbmatu.

Võtke tavalise keskmise testimise lihtne juhtum. Nüüd võib tõeline erinevus olla väike, kuid kui võtame sarnase positsiooni, nagu on @ keithi vastuses, testime keskmist lihtsalt erinevate diskreetsete väärtuste juures, mis meid huvitavad. Näiteks võiks meil olla $ H_ {0}: \ mu = 0 $ vs $ H_ {1}: \ mu \ sisse \ {\ pm 1, \ pm 2, \ pm 3, \ pm 4, \ pm 5 , \ pm 6 \} $. Seejärel läheb probleem üle sellele, millisel tasemel me neid katseid teha tahame. See on seotud efekti suuruse ideega: millisel teralisuse tasemel oleks mõju teie otsuste tegemisele? See võib vajada samme suurusega $ 0,5 $ või $ 100 $ või midagi muud, sõltuvalt testi tähendusest ja parameetritest. Näiteks kui võrdleksite kahe rühma keskmist jõukust, kas keegi hooliks siis, kui erinevus oleks kaks dollarit, isegi kui see oleks 10 000 standardviga nullist eemal? Ma tean, et ma seda ei teeks.

Järeldus on põhimõtteliselt see, et peate täpsustama oma hüpoteesiruumi - need hüpoteesid, mis teid tegelikult huvitavad. Tundub, et suurte andmete korral muutub see väga oluliseks lihtsalt sellepärast, et teie andmetel on nii palju lahendusvõimet. Samuti näib, et hästikäituvate tulemuste saamiseks on oluline võrrelda hüpoteesi - punkt punktiga, ühend ühendiga.

#11
+3
Horst Grünbusch
2013-08-01 16:58:41 UTC
view on stackexchange narkive permalink

Ei On tõsi, et kõik kasulikud punkthüpoteeside testid on järjepidevad ja näitavad seega olulist tulemust, kui ainult valimi suurus on piisavalt suur ja on olemas ebaoluline mõju. Statistiliste hüpoteeside testimise selle puuduse ületamiseks (mida Gaetan Lioni vastus juba eespool mainis) on asjakohasuse testid. Need on sarnased samaväärsustestidega, kuid veelgi harvem. Asjakohasuse testi jaoks on minimaalse asjakohase efekti suurus ette määratud. Asjakohasuse testi aluseks võib olla efekti usaldusvahemik: kui usaldusvahemik ja asjakohasuse piirkond on üksteisest lahus, võite nulli tagasi lükata.

Kuid van der Laan ja Rose väidavad oma avalduses, et uuringutes testitakse isegi tõeseid nullhüpoteese. Kui nullhüpotees vastab tõele, ei ole tagasilükkamise tõenäosus suurem kui alfa, eriti suurte valimite korral ja isegi valesti määratletud näen vaid seda, et valimijaotus erineb süsteemselt populatsiooni jaotusest,

#12
+3
Lucas Fortini
2016-10-04 05:11:19 UTC
view on stackexchange narkive permalink

Teie mainitud artiklil on tavapäraste sagedaste testide osas kehtiv punkt. Seetõttu on antud efekti suuruse testimine väga oluline. Selle illustreerimiseks on siin anova 3 rühma vahel, kus rühm B veidi erineb rühmadest A ja C. proovige seda r-is:

  treat_diff = 0.001 # treatment size difencens = c (10, 100, 1000, 10000, 100000, 1000000) # valimi suuruse väärtused arvestatava rühma kohta = 10 # testi korduste arv iga arvestatava valimi suuruse kohta p_mat = data.frame (n = tegur (), p = topelt ()) # loo tühi andmekaader väljundite jaoks (n in ns) {# iga valimi suuruse jaoks (i in c (1: kordused)) {#korda anova testi "korduste" aega ravidaA = data.frame (töötlus = "A", val = rnorm ( n)) treatB = data.frame (töötlus = "B", val = rnorm (n) + treat_diff) #selle grupi keskmine on pisut erinev teistest rühmadest treatC = data.frame (treatment = "C" , val = rnorm (n)) kõik_ravi = rbind (ravidaA, ravimaB, ravimaC) ravi_aov = aov (val ~ ravi, andmed = kogu_ravi) aov_summary = kokkuvõte (ravi_aov) p = aov_summary [[1]] [["Pr (>F ) "]] [1] temp_df = data.frame (n = n, p = p) p_mat = rbind (p_mat, temp_df)}} libr ary (ggplot2) p <- ggplot (p_mat, aes (tegur (n), p)) p + geom_boxplot ()  

Ootuspäraselt, suurema katse arvu proovide korral statistiline testi olulisus suureneb: enter image description here

#13
+2
Andre Holzner
2010-09-09 23:42:49 UTC
view on stackexchange narkive permalink

Ma arvan, et nende all mõeldakse seda, et sageli oletatakse nullhüpoteesi tõenäosustiheduse kohta, millel on „lihtne” vorm, kuid mis ei vasta tegelikule tõenäosustihedusele.

Nüüd, kui kasutate väikseid andmekogumeid, ei pruugi selle efekti nägemiseks olla piisavalt tundlik, kuid piisavalt suure andmekogumiga lükkate nullhüpoteesi tagasi ja järeldate, et oletuse asemel on uus efekt nullhüpoteesi kohta on vale.

Ma ei tea, kas Mark ja Shern pidasid silmas teie arvamust, vaid lihtsalt oma mõtte ümber sõnastamiseks - kui nullide andmete mudel on „vale”, lükkate nullhüpoteesi piisavalt suure hulga andmete korral tagasi.
#14
+1
user83346
2017-08-05 16:39:47 UTC
view on stackexchange narkive permalink

Kas see kõik pole I tüübi viga II tüübi viga (või võimsus)?Kui fikseerida I tüübi vea tõenäosus ($ \ alpha $) väärtuseks 0,05, on ilmselgelt (välja arvatud diskreetsel juhul) 0,05, kas valim on suur või mitte.

Kuid antud I tüübi vea tõenäosuse korral 0,05, nt võimsus või tõenäosus, et tuvastate efekti, kui see on olemas (seega tõenäosus $ H_0 $ tagasi lükata (= efekti tuvastada), kui $ H_1 $on tõene (= kui mõju on olemas)), on suurem valimi suuruse korral.

Võimsus suureneb koos valimi suurusega (kõik muud asjad on võrdsed).

Kuid väide, et "me teame, et piisavalt suurte valimimahtude korral deklareerib iga uuring - ka uuringud, mille puhul mõju puudumise nullhüpotees vastab tõele - statistiliselt olulist mõju."on vale.

#15
  0
UserBI
2020-03-24 17:22:08 UTC
view on stackexchange narkive permalink

"Me teame, et piisavalt suurte valimimahtude korral deklareerivad kõik uuringud - ka uuringud, mille puhul mõju puudumise nullhüpotees on tõene - statistiliselt olulise efekti."

Noh, mõnes mõttes on kõik (enamus) nullhüpoteesid valed.Vaatlusalune parameeter peab olema võrdne hüpoteesitud väärtusega lõpmatu arv komakohti, mis on absoluutne haruldus.Seega on suure tõenäosusega test deklareerinud statistiliselt olulise efekti valimi suuruse suurenemisel.

#16
-3
Joao Holz
2019-11-29 19:12:01 UTC
view on stackexchange narkive permalink

See on Bayesi järelduse kriitik, mis on statistikast erinev viis (erinev tavaliste esindajate vormist, mida kõik õpivad muudel kursustel kui statistika, me õpime mõlemat).

"Kriitik on see, et saate suure valimiga tõestada kõike, sest see annab teile p-väärtuse."

Sellepärast vaatame paljusid teisi mõõdikuid, aic, f, rmse, anova ..... Keegi minu professoritest ei vastanud mulle selle kohta, kuidas seda asja juhtida. Kuid ma pole sellega rahul, aga kasutan seda viisi: /



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...