Küsimus:
Kuidas valida juhu- ja fikseeritud efektiga struktuuri lineaarsetes segamudelites?
jokel
2014-12-30 18:57:24 UTC
view on stackexchange narkive permalink

Mõelge ainete kujundamisel järgmistele kahepoolsetele andmetele:

  df <- "http://personality-project.org/r/datasets/R.appember4.data" df <- read.table (df, header = T) head (df) Vaatlusaine Ülesande Valentsuse tagasikutsumine1 1 Jim Free Neg 82 2 Jim Free Neu 93 3 Jim Free Pos 54 4 Jim Cued Neg 75 5 Jim Cued Neu 96 6 Jim Cued 10. positsioon  

Sooviksin seda analüüsida segaliinmudelite abil. Arvestades kõiki võimalikke fikseeritud ja juhuslikke efekte, on mitu võimalikku mudelit:

  # erinevad fikseeritud efektid juhusliku intercepta0 <-lmeriga (tagasikutsumine ~ 1 + (1 | Teema), REML = F , df) a1 <- lmer (Meenuta ~ Task + (1 | Teema), REML = F, df) a2 <- lmer (Meenuta ~ Valence + (1 | Teema), REML = F, df) a3 <- lmer ( Meenuta ~ Task + Valence + (1 | Subject), REML = F, df) a4 <- lmer (Recall ~ Task * Valence + (1 | Subject), REML = F, df) # erinevat fikseeritud efekti juhusliku pealtkuulamise- random-slopeb0 <- lmer (Meenuta ~ 1 + (1 | Teema) + (0 + Ülesanne | Teema) + (0 + Valents | Teema), REML = F, df) b1 <- lmer (Meenuta ~ Ülesanne + (1 | Subject) + (0 + Task | Subject) + (0 + Valence | Subject), REML = F, df) b2 <- lmer (Recall ~ Valence + (1 | Subject) + (0 + Task | Subject) + ( 0 + valents | subjekt), REML = F, df) b3 <- lmer (tagasikutsumine ~ ülesanne + valents + (1 | teema) + (0 + ülesanne | teema) + (0 + valents | subjekt), REML = F, df) b4 <- lmer (Meenuta ~ Ülesanne * Valents + (1 | Teema) + (0 + Ülesanne | Teema ) + (0 + valents | subjekt), REML = F, df) # erinevat fikseeritud efekti, millel on juhuslik lõikumine - juhuslik kalle, sealhulgas dispersioon-kovariantsuse maatriks c0 <- lmer (tagasikutsumine ~ 1 + (1 + valents + ülesanne | teema) , REML = F, df) c1 <- lmer (Meenuta ~ Task + (1 + Valence + Task | Teema), REML = F, df) c2 <- lmer (Meenuta ~ Valence + (1 + Valence + Task | Teema) , REML = F, df)
c3 <- lmer (Meenuta ~ ülesanne + valents + (1 + valents + ülesanne | teema), REML = F, df) c4 <- lmer (tagasikutsumine ~ ülesanne * valents + (1 + valents + ülesanne | Teema), REML = F, df)  
  1. Milline on soovitatav viis selles kontekstis kõige paremini sobiva mudeli valimiseks? Mis on logi-tõenäosuse suhte testide kasutamisel soovitatav protseduur? Kas genereerida mudeleid ülespoole (nullmudelist kõige keerukamaks) või allapoole (keerukamast mudelist nullmudelini)? Järk-järguline kaasamine või väljajätmine? Või on soovitatav panna kõik mudelid ühte log-tõenäosuse suhte testi ja valida madalaima p-väärtusega mudel? Kuidas võrrelda mudeleid, mis pole pesastatud?

  2. Kas on soovitatav leida kõigepealt sobiv fikseeritud efektiga struktuur ja seejärel sobiv juhuslike efektide struktuur või vastupidi (I kas olete leidnud viited mõlemale võimalusele ...)?

  3. Milline on soovitatav viis tulemustest teatamiseks? P-väärtuse teatamine log-tõenäosuse suhte testist, milles võrreldakse täielikku segamudelit (kõnealuse efektiga) vähendatud mudeliga (ilma kõnealuse efektita). Või on parem kasutada logi-tõenäosuse suhte testi kõige paremini sobiva mudeli leidmiseks ja seejärel kasutada lmerTesti, et anda p-väärtused kõige sobivama mudeli efektidest?

Kaks vastused:
Ben Bolker
2015-01-01 04:52:22 UTC
view on stackexchange narkive permalink

Ma pole kindel, et sellele on tõesti kanooniline vastus, kuid annan sellele pildi.

Milline on soovitatav antud kontekstis kõige paremini sobiva mudeli valimine? Mis on logi-tõenäosuse suhte testide kasutamisel soovitatav protseduur? Kas genereerida mudeleid ülespoole (nullmudelist kõige keerukamaks) või allapoole (keerukamast mudelist nullmudelini)? Järk-järguline kaasamine või väljajätmine? Või on soovitatav panna kõik mudelid ühte log-tõenäosuse suhte testi ja valida madalaima p-väärtusega mudel? Kuidas võrrelda mudeleid, mis pole pesastatud?

See sõltub teie eesmärkidest.

  • Üldiselt peaksite mudeli valimisel olema väga , väga ettevaatlik (vt nt seda vastust või see postitus või lihtsalt Google "Harrell stepwise" ...).
  • Kui olete huvitatud sellest, et teie p-väärtused oleksid mõttekad (st teete kinnitavat hüpoteesi testimist) , peaksite mudeli valimist mitte tegema. Siiski : minu jaoks pole nii selge, kas mudeli valimise protseduurid on sama halvad kui teete mudeli valiku mudeli mittefokaalsetes osades nt juhuslike efektide mudeli valimine, kui teie peamine huvi on järeldus fikseeritud efektide kohta.
  • Ei ole olemas sellist asja, nagu "kõigi mudelite ühendamine ühe tõenäosuse suhte testiga" - tõenäosuse suhte testimine on paariline protseduur . Kui soovite teha juhuslike efektide mudeli valiku (nt.), soovitaksin tõenäoliselt lähenemist "kõik korraga", kasutades selles näites toodud teabekriteeriume. vähemalt väldib mõningaid astmeliste lähenemisviiside probleeme (kuid mitte mudeli valimist üldisemalt).
  • Barr jt. 2013 „Hoidke seda maksimaalselt“ Mälu ja keele ajakiri (doi: 10.1016 / j.jml.2012.11.001) soovitaks kasutada maksimaalset mudelit (ainult).
  • li> Teine mõistlikult kaitstav lähenemisviis on sobitada suur kuid mõistlik mudel ja siis, kui sobivus on ainsus, eemaldage terminid, kuni seda enam pole.
  • Mõningate hoiatustega ( (loetletud GLMMi KKK-s), saate kasutada infokriteeriume erinevate juhuslike efektidega mittepesastatud mudelite võrdlemiseks (kuigi Brian Ripley ei nõustu: vaadake siin lk 6 allosa)

Kas on soovitatav leida kõigepealt sobiv fikseeritud efektiga struktuur ja seejärel sobiv juhuslike efektide struktuur või vastupidi (olen leidnud viiteid mõlemale võimalusele ... )?

Ma ei usu, et keegi seda teaks. Vt eelmist vastust mudeli valimise kohta üldisemalt. Kui suudaksite oma eesmärgid piisavalt selgelt määratleda (mida vähesed teevad), võib küsimus vastata. Kui teil on viiteid mõlemale võimalusele, oleks kasulik muuta oma küsimust nende lisamiseks ... (Mida see väärt on, kasutab see näide (juba eespool tsiteeritud) juhuslike efektide valimiseks infokriteeriume osa, seejärel väldib valikut mudeli fikseeritud efektiga osas.

Milline on tulemuste aruandluse soovitatav viis? P-väärtuse teatamine log-tõenäosuse suhte testist, milles võrreldakse täielikult segatud -mudel (kõnealuse efektiga) vähendatud mudelile (ilma kõnealuse efektita). Või on parem kasutada sobivaima mudeli leidmiseks log-tõenäosuse suhte testi ja seejärel kasutada lmerTesti efektide p-väärtuste teatamiseks kõige paremini sobiv mudel?

See on (kahjuks) veel üks keeruline küsimus. Kui teatate marginaalsetest mõjudest , nagu teatas lmerTest , peate muretsema marginaalsuse pärast (nt kas A peamiste mõjude hinnangud ja B on tähendusrikkad, kui mudelis on interaktsioon A -by- B ); see on suur ussikarp, kuid seda on mõnevõrra leevendatud, kui kasutate kontrast = "summa" , nagu soovitas afex :: mixed () . Tasakaalustatud kujundused aitavad natuke ka. Kui soovite tõesti kõigi nende pragude peale paberile panna, siis ma arvan, et soovitaksin afex :: mixed , mis annab teile sarnase väljundi nagu lmerTest , kuid püüab nende probleemidega tegeleda .

Henrik
2015-01-03 02:35:08 UTC
view on stackexchange narkive permalink

Värskendage mai 2017 : Nagu selgub, on suur osa minu siia kirjutatust omamoodi vale. Mõningaid värskendusi tehakse kogu postituse vältel.


Nõustun paljuski sellega, mida Ben Bolker on juba öelnud (aitäh afex :: mixed () kood>), kuid lubage mul lisada selle teema kohta mõned üldisemad ja konkreetsemad mõtted.

Keskenduge fikseeritud ja juhuslikele efektidele ning tulemustest teatamisele

Jonathan Baroni näidisandmekogumis esindatud eksperimentaalsete uuringute tüübi puhul on oluline küsimus tavaliselt see, kas manipuleeritud teguril on üldine mõju või mitte. Kas leiame näiteks Task -i üldise peamise efekti või koostoime? Oluline punkt on see, et nendes andmekogumites on tavaliselt kõik tegurid täieliku eksperimentaalse kontrolli all ja juhuslikult määratud. Järelikult on huvi fookuses tavaliselt fikseeritud efektid.
Seevastu juhuslike efektide komponente võib vaadelda kui häirivaid parameetreid, mis haaravad süsteemset dispersiooni (st üksikisikute erinevusi efekti suuruses), mis ei ole põhiküsimuse jaoks tingimata olulised. Sellest vaatenurgast lähtudes soovitusest kasutada maksimaalset juhuslike efektide struktuuri, mida toetavad Barr jt. järgneb mõnevõrra loomulikult. On lihtne ette kujutada, et eksperimentaalne manipuleerimine ei mõjuta kõiki inimesi täpselt samal viisil ja me tahame seda kontrollida. Teiselt poolt ei ole tegurite või tasemete arv tavaliselt liiga suur, nii et üleliigse paigaldamise oht tundub suhteliselt väike.

Järelikult järgiksin Barri jt ettepanekut. ja määrake minu peamisteks tulemusteks maksimaalne juhuslike efektide struktuur ja teatage fikseeritud efektide testidest. Fikseeritud efektide testimiseks soovitaksin kasutada ka afex :: mixed () , kuna see annab aru efektide või tegurite testidest (parameetrite testi asemel) ja arvutab need testid mõnevõrra mõistlikul viisil (nt , kasutab kõigi juhuslike efektide struktuuri kõigi mudelite jaoks, mille puhul eemaldatakse üks efekt, kasutab summa-null-kontraste, pakub erinevaid meetodeid p -väärtuste arvutamiseks, ...).

Aga näite andmed

Teie esitatud näidisandmete probleem on see, et selle andmekogumi maksimaalne juhuslike efektide struktuur viib üleküllastatud mudelini, nagu on ainult üks andmepunkt kujunduse lahtris:

  > with (df, table (Valence, Subject, Task)),, Task = Cued SubjectValence Faye Jason Jim Ron Victor Neg 1 1 1 1 1 Neu 1 1 1 1 1 Pos 1 1 1 1 1,, Task = Free SubjectValence Faye Jason Jim Ron Victor Neg 1 1 1 1 1 Neu 1 1 1 1 1 pos 1 1 1 1 1  

Sellest tulenevalt lämmatab lmer maksimaalse juhuslike efektide struktuuri:

  > lmer (Meenuta ~ Ülesanne * Valents + (Valents * Ülesanne | Teema), df) Viga: vaatluste arv (= 30) < = juhuslike efektide arv (= 30) terminile (Valents * Ülesanne | Teema); juhuslike efektide parameetrid ja jääkdispersioon (või skaala parameeter) on tõenäoliselt tuvastamata  

Kahjuks pole minu teada selle probleemi lahendamiseks kokkulepitud viisi. Kuid lubage mul visandada ja arutleda mõne üle:

  1. Esimene lahendus võiks olla suurema juhusliku kalde eemaldamine ja selle mudeli mõjude testimine:

      nõuda (afex) segatud (tagasikutsumine ~ ülesanne * valents + (valents + ülesanne | teema), df) efekt
    1 Ülesanne 6.56 1 4.00 1.00 .062 Valents 0.80 2 3.00 0.75 .533 Ülesanne: Valence 0.42 2 8.00 1.00 .67  

    Kuid see lahendus on veidi ad-hoc ja mitte liiga motiveeritud.

    Värskendage mai 2017: seda lähenemist toetan praegu. Vaadake seda ajaveebipostitust ja peatüki, mille kaasautor olen, mustrit, jaotist "Traditsiooniliste ANOVA kujunduste juhuslikud efektistruktuurid".

  2. Alternatiivne lahendus (ja see, mida võiks Barr et al. arutelu pooldada) võiks olla juhuslike nõlvade eemaldamine väikseima efekti saavutamiseks. Sellel on siiski kaks probleemi: (1) millist juhuslike efektide struktuuri kasutame selleks, et teada saada, milline on kõige väiksem efekt ja (2) R on vastumeelne madalama astme efekti, näiteks peamise efekti eemaldamiseks, kui kõrgema järgu efektid, näiteks selle mõju vastasmõju on olemas (vt siin). Selle tulemusena on vaja see juhuslike efektide struktuur käsitsi seadistada ja nii konstrueeritud mudeli maatriks Lmeri kutsele edastada.

  3. Kolmas lahendus võiks olla alternatiivi kasutamine juhuslike efektide osa parameetrid, nimelt see, mis vastab nende andmete RM-ANOVA mudelile. Kahjuks (?) Ei luba lmer "negatiivseid variatsioone", nii et see parameetrite määramine ei vasta täpselt kõigi andmekogumite RM-ANOVA-le, vt arutelu siin ja mujal (nt siin ja siin). Nende andmete "lmer-ANOVA" oleks järgmine:

      > mix (Recall ~ Task * Valence + (1 | Subject) + (1 | Task: Subject) + (1 | Valence: Teema), df) Mõju F ndf ddf F.skaleerimine p.väärtus1 Ülesanne 7.35 1 4.00 1.00 .052 Valents 1.46 2 8.00 1.00 .293 Ülesanne: Valence 0.29 2 8.00 1.00 .76  

Kõiki neid probleeme arvesse võttes ei kasutaks ma lihtsalt lmer -i selliste andmekomplektide sobitamiseks, mille kujunduse lahtris on ainult üks andmepunkt, kui pole kokku lepitud lahendust maksimaalse juhuslike efektide struktuuri probleem on saadaval.

  1. Selle asemel sooviksin ühe võiks ka endiselt kasutada klassikalist ANOVA-d. Kasutades ühte ümbrist car :: Anova () -is afex -is, on tulemused järgmised:

      > aov4 (Recall ~ Task * Valents + (Valents * Ülesanne | Teema), df) Mõju df MSE F ges p1 Valents 1.44, 5.75 4.67 1.46 .02 .292 Ülesanne 1, 4 4.08 7.35 + .07 .053 Valents: Ülesanne 1.63, 6.52 2.96 0.29 .003. 71  

    Pange tähele, et afex võimaldab nüüd tagastada ka mudeli, mis on varustatud aov , mille saab edastada lsmeans kood> post-hoc testide jaoks (kuid mõju testimiseks on car :: Anova teatatud tulemused siiski mõistlikumad):

      > need (lsmeans) > m <- aov4 (tagasikutsumine ~ ülesanne * valents + (valents * ülesanne | teema), df, return = "aov") > lsmeans (m, ~ Task + valence) ülesande valents lsmean SE df madalam. CL ülemine. CL Cued Neg 11,8 1,852026 5,52 7,17157 16,42843 Free Neg 10,2 1,852026 5,52 5,57157 14,82843 Cued Neu 13,0 1,852026 5 .52 8.37157 17.62843 Tasuta Neu 11.2 1.852026 5.52 6.57157 15.82843 Cued Pos 13.6 1.852026 5.52 8.97157 18.22843 Free Pos 11.0 1.852026 5.52 6.37157 15.62843 Kasutatav usaldustase: 0.95 
(+1) "Kahjuks ei luba lmer negatiivseid korrelatsioone" - kas see ei peaks olema "ei luba negatiivseid dispersioone"?Samuti värskendage uuesti: kas saaksite selles vastuses täpsemalt öelda, mis täpselt on "valesti"?
(Lugesin [lingitud postitust] (http://singmann.org/mixed-models-for-anova-designs-with-one-observation-per-unit-of-observation-and-cell-of-the-design/) ja tundub, et seal on peamine sõnum, et siin # 1 loetletud lähenemisviis on koššerlikum, kui varem arvasite. Õige? See pole ikka veel selge, kas arvate, et see on nüüd parem kui # 3 või # 4).
@amoeba Jah, teil on õigus.Ma olin lihtsalt laisk, et oma vastust siin vastavalt värskendada.
@amoeba Ja teil on ka korrelatsioonides õigus."lmer" ei võimalda negatiivseid erinevusi, kuid ilmselt negatiivseid korrelatsioone dispersioonikomponentide vahel.
Parandage mind, kui ma eksin, kuid üks suur erinevus # 1 ja # 3 vahel, st `(Valence + ülesanne | Teema) 'ja` (1 | Teema) + (1 | Ülesanne: Teema) + (1 | Valents:Teema) on see, et # 1-l võib olla * palju * rohkem parameetreid, kui valentsil ja ülesandel on mitu taset.Ntkas "Valentsil" on 3 taset, siis ainult (Valence | Subjekt) hindab 3 dispersiooniparameetrit pluss 3 korrelatsiooniparameetrit (?), samas kui ((1 | Subject) + (1 | Valence: Subject) "hindab ainult 2 dispersiooniparameetrit.Kas see on õige?Kui jah, siis kas see mõjutab kuidagi valikut nr 1 ja nr 3/4 vahel?
"(Valents + Ülesanne | Teema)" hindab "V + T-1" dispersiooniparameetreid ja "(V + T-1) (V + T-2) / 2" korrelatsioone (kus "V" ="Valence" ja "T" = "Ülesande" tasemete arv).Ja ma arvan ka, et teil on õigus, et `(1 | Teema) + (1 | Ülesanne: Teema) + (1 | Valents: Teema) 'hindab ainult 3 dispersiooniparameetrit ja puudub korrelatsioon.Nii et jah, parameetrite arv on erinev.See võib muuta palju tõenäolisemaks, et nr 3 läheneb, kuid teisest küljest näib # 1 olevat paindlikum mudel (minu sisetunne on see, et negatiivse dispersiooni probleem seal ei kehti).
Okei aitäh.Vaatasin teie peatüki praegust versiooni ja nägin, et kirjutate nüüd "Selliste kujunduste analüüsimiseks segamudelitega on kõige mõistlikum otsus eemaldada kõrgeima järgu juhuslik kalle", mis tähendab vist, et kinnitate valikut nr 1.Muide, minu arvates võib olla kasulik mainida seal variant # 3, mis [peaaegu] vastab klassikalisele RM-ANOVA-le.
Tõepoolest, seda soovitame.Tehke muudatused siin, hmm.Kui soovite end vabalt tunda.
Tegin mõned muudatused, võiksite olla kindel, et ma ei esindanud teid valesti.


See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 3.0-litsentsi eest, mille all seda levitatakse.
Loading...