Küsimus:
Täielikud sisulised näited reprodutseeritavatest uuringutest, kasutades R
Jeromy Anglim
2010-08-21 09:58:12 UTC
view on stackexchange narkive permalink

Küsimus: kas on häid näiteid R abil kasutatavatest reprodutseeritavatest uuringutest, mis on veebis vabalt saadaval?

Ideaalne näide: Täpsemalt pakuksid ideaalsed näited:

  • algandmed (ja ideaalis andmeid selgitavad metaandmed),
  • kogu R-kood, sealhulgas andmete import, töötlemine, analüüsid ja väljundite genereerimine,
  • lõpliku väljundi lõpliku dokumendiga linkimiseks kasutage muud meetodit,
  • kõik formaadis, mis on hõlpsasti allalaaditav ja lugeja arvutisse kompileeritav.

Ideaalis võiks näiteks olla ajakirjaartikkel või lõputöö, kus rõhk on tegelikul rakendusteemal, mitte statistilise õpetamise näitel.

Põhjused huvi pärast: mind huvitavad eriti ajakirjaartiklite ja -teeside rakendusteemad, sest sellistes olukordades tekib mitu täiendavat küsimust:

  • tekivad probleemid andmete puhastamise ja töötlemisega,
  • Probleemid tekivad seotud metaandmete haldamise osas,
  • ajakirjadel ja teesidel on sageli stiilijuhised ootused tabelite ja jooniste välimuse ja vormingu osas,
  • paljudes ajakirjades ja teesides on sageli lai valik analüüse, mis tõstatavad probleeme töövoo (st kuidas analüüsida järjestusi) ja töötlemisaega (nt vahemälu analüüside küsimused jne).

Täielike töönäidete nägemine võiks anda teadlastele hea juhendmaterjali alustades reprodutseeritavad uuringud.

Viisteist vastused:
#1
+15
Dirk Eddelbuettel
2010-08-21 19:03:04 UTC
view on stackexchange narkive permalink

Frank Harrell on reprodutseeritavate uuringute ja aruannete põhjal trummi peksnud juba palju aastaid. Võite alustada sellelt wiki lehelt, kus on loetletud palju muid ressursse, sealhulgas avaldatud uuringuid ja mis hõlmab ka Charles Geyer'i lehte.

#2
+12
Spacedman
2011-07-28 13:08:34 UTC
view on stackexchange narkive permalink

Ajakirjal Biostatistics on reprodutseeritavuse assotsieerunud toimetaja ja kõik selle artiklid on tähistatud:

Reproducible Research

Meie reprodutseeritav uurimispoliitika on see, et ajakirja paberid oleksid lohega tähistatud D-ga, kui nende aluseks olevad andmed on vabalt kättesaadavad, C-ga, kui autorite kood on vabalt saadaval, ja R-ga, kui saadaval on nii andmed kui ka kood, ja meie reprodutseeritavuse redaktor oskab neid kasutada tulemuste reprodutseerimiseks paberil. Andmed ja kood avaldatakse ajakirja veebisaidil elektrooniliselt lisamaterjalidena.

http://biostatistics.oxfordjournals.org/

Kuidas hea mõte on see?

http://biostatistics.oxfordjournals.org/content/12/1/18.abstract on R-pakett täiendustes, mis teeb analüüs - pole ise veel proovinud. Samuti ei saa te teada, kus on määratud avatuse reiting. Saadan mõne küsimusega assotsieerunud toimetajale meili ...

[redigeeri]

Kaastoimetaja Roger Peng ütleb, et tõenäoliselt pole reprodutseeritavaid pabereid PDF-i hankimata leida. Ta juhtis mind reprodutseeritavuse poole, millel on kena suur täht R (mis ei tähenda R-reitinguga nagu filmid):

http://biostatistics.oxfordjournals.org/ content / 10/3 / 409.abstrakt

Muidugi pole ajakiri ise tasuta ... #fail

Barry

see on tore, kui näen, et ajakiri seab esikohale reprodutseeritavuse. Kas olete näinud häid näiteid artiklitega, millel on tähis R?
Nad ei prioriteeri seda avaldamiseks, ma arvan, et nad tahavad seda lihtsalt esile tõsta. Ma redigeerin oma vastust näite abil.
#3
+10
John D. Cook
2010-09-02 16:15:56 UTC
view on stackexchange narkive permalink

NCI60 keemiaravi ennustajate taastootmatus

See on reprodutseeritav analüüs, mis näitab uudistes ilmunud paberi reprodutseeritavuse puudumist. Taastamatu paberi valedel järeldustel põhinev kliiniline uuring peatati, taastati, peatati uuesti, ... See on hea näide uudistes reprodutseeritava analüüsi kohta.

#4
+10
Jake
2010-11-12 03:30:56 UTC
view on stackexchange narkive permalink

Mul on mõned sellised näited minu uurimistööde lehel. (Mul ei ole lubatud uue liikmena postitada rohkem kui ühte hüperlingi. Nii et kirjeldan lihtsalt selle saidi pabereid.)

(1) "Randomiseeritud katsetes efektide avaldamine" kasutab R-i vinjetit süsteemi.

(2) „Efektide omistamine klastri juhuslikult valitud hääletamise kampaaniale” oli keerukam dokument, mis hõlmas mõnda aeganõudvat simulatsiooni. Kasutasime Makefile'i põhist süsteemi ja postitasime selle Dataverse'i.

(3) "EDA for HLM" oli minu esimene katse. Siin panin lihtsalt andmed ja seotud Sweave-failid tarballi.

Üks probleem, mille avastasime JASA arhiivi loomisel, oli see, et CRAN-i pakettide versioonid ja vaikeväärtused muutusid. Niisiis lisame sellesse arhiivi ka pakettide versioonid, mida me kasutasime. Vinjettipõhine süsteem tõenäoliselt puruneb, kui inimesed oma pakette vahetavad (pole kindel, kuidas lisakomplekte kaasata paketti, mis on kogumik).

Lõpuks mõtlen, mida teha, kui R ise muutub. Kas on olemas viise, kuidas toota näiteks virtuaalset masinat, mis reprodutseerib kogu paberi jaoks kasutatud arvutuskeskkonna nii, et virtuaalne masin pole tohutu?

Loodan, et need näited aitavad igatahes. Vähemalt näitavad nad mõnda minu enda katsetust selles valdkonnas.

(Siin on mõned lihtteksti hüperlingid.)

 [2]: http://jakebowers.org/manifesteffects- compendium-howto.txt [3]: http://hdl.handle.net/1902.1/12174 [4]: ​​http://hdl.handle.net/1902.1/13376 
Tõstatate huvitavaid küsimusi. Panin teid tsiteerides eraldi küsimuse: http://stats.stackexchange.com/questions/4466/how-to-increase-longer-term-reproducibility-of-research-particularly-using-r-and
#5
+9
Jeromy Anglim
2010-11-11 12:22:29 UTC
view on stackexchange narkive permalink

Koenker ja Zeileis pakuvad suhteliselt täieliku näite abil veebisaiti. Nad jagavad järgmist:

  • Rnw (Sweave code)
  • R analüüsikood
  • lõplik PDF
  • versioonihalduse probleemide arutelu
#6
+8
csgillespie
2010-08-22 02:59:56 UTC
view on stackexchange narkive permalink

Me kirjutasime artikli, milles selgitati, kuidas R / Bioconductor'i kasutada mikrokiibi andmete analüüsimisel. See artikkel on kirjutatud Sweave'is ja kogu graafikute loomiseks kasutatud kood on lisatud lisamaterjalina.

Gillespie, CS, Lei, G., Boys, RJ, Greenall, AJ, Wilkinson, DJ, 2010 . Pärmi aja kulgemise mikrokiibi andmete analüüsimine BioConductor abil: juhtumiuuring yeast2 Affymetrix massiividega BMC Research Notes, 3:81.

#7
+7
ars
2010-08-21 10:47:10 UTC
view on stackexchange narkive permalink

Charles Geyer lehel Sweave on näide lõputööst, mis vastab mõnele teie nõudele (algandmed on lihtsalt R-paketist, kuid R / sweave-kood ja lõplik PDF on saadaval ):

Yun Ju Sungi doktoritöö teooriat käsitlev artikkel Monte Carlo Likelihood Inference for Missing Data Models (preprint) sisaldas arvutuslikke näiteid. Kõik paberil olevad numbrid ja kõik joonised võeti (lõikamise ja kleepimise teel, pean tunnistama) Sweave'is tehtud "lisamaterjalide" dokumendist.

( allikas fail on lingitud jaotises "Paberi täiendavad materjalid".)

Tean, et olen kohanud vähemalt ühte R-i näidet, sirvides ReproducibleResearch.net materjali leht enne, kuid kahjuks ei lisanud seda järjehoidjatesse.

#8
+5
Jeromy Anglim
2011-06-16 20:12:18 UTC
view on stackexchange narkive permalink

Simon Jackmanil on uuringu tulemuste analüüsimisel eriti kasulik näide: "Ameeriklased ja austraallased 10 aastat pärast 11. septembrit". Sellel on mitmeid tabelite ja jooniste integreerimise näiteid.

Ta on selle blogipostituse kaudu teinud Sweave'i dokumendi ja PDF-aruande.

algandmeid ei esitata (niipalju kui ma oskan öelda), seega pole tegelikke Sweave'i näiteid võimalik käivitada, arvan, et Sweave'i koodi uurimisel võib õppida üsna palju.

#9
+5
Jeromy Anglim
2011-07-28 12:11:43 UTC
view on stackexchange narkive permalink

Neil Saunders analüüsis konverentsiga seotud veebipõhiseid interaktsioone. Mitme atribuudi, mis muudavad selle kasulikuks näite Sweave, on järgmised:

  • Pakutakse Rnw-faili
  • Graafikuid genereeritakse ggplot
  • hea suurus ja hõlpsasti mõistetav domeen

Materjalid on saadaval siin:

#10
+4
Shane
2010-08-21 12:15:44 UTC
view on stackexchange narkive permalink

Olen varemgi häid leidnud ja postitan, kui need üles uurin, kuid mõned kiired üldised soovitused:

  1. Võimalik, et leiate mõne huvitava näite, kui otsite märksõnadest google'ist ja ext: rnw (mis otsib faile laiendiga). Siin on näiteotsing. See on minu otsingu kolmas tulemus: http://www.ne.su.se/paper/araietal_source.Rnw. Siin on veel üks näide minu otsingust: http://www.stat.umn.edu/geyer/gdor/.
  2. Paljudel R-pakettidel on huvitavad vinjetid, mis võrduvad sisuliselt sama asjaga. Näide: https://r-forge.r-project.org/scm/viewvc.php/paper/maxLik.Rnw
#11
+4
user88
2010-08-21 12:30:48 UTC
view on stackexchange narkive permalink

Vaadake ka jaotist Journal Of Statistics Software; nad julgustavad Sweave'is pabereid tegema.

Ei, mitte formaalselt - LaTeX-i esitamine on julgustav, kuid kui vaadata [juhiste lehte] (http://www.jstatsoft.org/instructions), siis see ei sisalda sõna Sweave. Autorid kasutavad seda ja / või saadavad R-koodi koos paberiga, kuid minu jaoks kajab see Shane'i mõte pakendi vinjettide kohta.
Ok, endiselt kasutab enamik esitajaid seda (ka ajakirja stiil sisaldab Swave.sty); peamine probleem on see, et Rnw-sid pole avaldatud, Sweave tehtud paberid on Stangle'i väljundiga.
#12
+4
Jeromy Anglim
2011-01-01 16:35:18 UTC
view on stackexchange narkive permalink

Robert Gentleman kirjutas artikli "Reproducible Research: A Bioinformatics Case Study"

See rakendab R-paketina lühikese analüüside komplekti ja kasutab Sweave'i. Samuti arutatakse Sweave'i kasutamine üldisemalt.

Kõigi kasutatud failide ja kaustade arhiivifaili leiate artiklilehe jaotisest "Seotud failid".

Viide:

  • Gentleman, Robert (2005) "Reproducible Research: A Bioinformatics Case Study", Statistical Applications in Genetics and Molecular Biology: Vol. 4: Iss. 1, artikkel 2.
  • DOI: 10.2202 / 1544-6115.1034
  • Saadaval aadressil: http://www.bepress.com/sagmb/vol4/iss1/art2
#13
+4
Tim
2011-08-31 06:51:26 UTC
view on stackexchange narkive permalink

http://genome.cshlp.org/content/early/2011/06/09/gr.117523.110/suppl/DC1

Kena paber, autor minu laborikaaslane. Meie PI-l oli päris hea meel, kui selle jaoks tuli midagi sarnast fännipostile. Nüüd on kõigil rühma väljaannetel LaTeX / Sweave'is sätestatud täiendavad meetodid. Ka mõned paberid (ei saa otsustada, kas hoida minu oma LyX / Sweave'is või voltida ja teha lihtsalt Sweave'i lisad).

#14
+3
zzr
2010-11-05 17:26:46 UTC
view on stackexchange narkive permalink

Näidete ja tavade otsimine on hea viis õppimiseks, kuid tahtsin lihtsalt mainida, et reprodutseeritavusel on lisaks tehnilisele / skripti korduspoolele ka koodistiil ja struktureerimisaspekt, põhifunktsioonide kõrvaltoimete minimeerimine jne. I isiklikult leidis, et Chambers'i raamat andmeanalüüsiks võimaldab mõista sügavamalt tehnikaid, mis aitavad vältida usaldusväärsuse ja reprodutseeritavuse probleeme R-koodi tasemel.

#15
+2
WojciechF
2017-03-23 19:00:50 UTC
view on stackexchange narkive permalink

kui vajate endiselt suurepärast näidet täielikult KORDUVA analüüsi ja PABERI kohta, kasutage seda repot.

@jscamac tegi suurepärase töö, muutes oma analüüsi tootlikuks ja ma kinnitasin selle isiklikult.

Taastatavuse tagamiseks saate kasutada R-spetsiifilisi funktsioone, näiteks paketti remake .

Ettevaatust / arvutuste tegemine võtab aega umbes tund.

See kõik on skriptitud ja toodab lõpuks joonistega LaTeXi paberi.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...