Küsimus:
Kuidas statistilise analüüsi projekti tõhusalt juhtida?
chl
2010-09-21 01:39:08 UTC
view on stackexchange narkive permalink

Projektijuhtimisest ja kujundusmustritest kuuleme infotehnoloogias sageli, statistilises analüüsis aga harvem. Tundub siiski, et otsustav samm tõhusa ja vastupidava statistikaprojekti kavandamise suunas on asjade korraldamine.

Ma pooldan sageli R-i kasutamist ja failide järjepidevat korraldamist eraldi kaustades (algandmete fail, teisendatud andmefail, R-skriptid, joonised, märkused jne). Selle lähenemise peamine põhjus on see, et hiljem võib olla lihtsam analüüsi käivitada (kui unustasite näiteks, kuidas juhtusite konkreetse kavandi koostama).

Millised on parimad tavad statistiline projektijuhtimine või soovitused, mida soovite oma kogemustest anda? Muidugi kehtib see mis tahes statistikatarkvara kohta. ( üks vastus postituse kohta, palun )

Hääletan selle küsimuse sulgemise teemavälisena, kuna see puudutab projektijuhtimist
@Aksakal: Ma arvan, et sa oled natuke karm.:) See on asjakohane "* statistikahuviliste inimeste jaoks".Ka 70+ häält soovitavad tungivalt, et tavakasutajad pidasid seda küsimust huvitavaks ja kasulikuks.
Ma arvan, et seda tuleks siin teema juures kaaluda.
@gung Kas soovite lisada sellele Meta lõimele vastuse, et saaksime seda arutada?
Seitse vastused:
#1
+80
chl
2010-09-30 15:44:48 UTC
view on stackexchange narkive permalink

Koostan kiireid juhiseid, mille leidsin lehtedelt SO (nagu soovitas @Shane), Biostar (edaspidi BS) ja sellel SE-l. Püüdsin anda endast parima, et tunnustada iga üksuse omandiõigust ja valida esimene või väga poolthäälega vastus. Lisasin ka omaette asju ja märkisin üksused, mis on omased [R] keskkonnale.

Andmehaldus

  • Looge projekt struktuur kõigi asjade õiges kohas hoidmiseks (andmed, kood, joonised jms, giovanni / BS)
  • Ärge kunagi muutke toorandmete faile (ideaalis peaksid need olema loetavad ainult), kopeerige / nimetage ümber teisenduste tegemisel, puhastamisel jne.
  • Kontrollige andmete järjepidevust ( whuber / SE)
  • hallake skripti sõltuvusi ja andmevoog koostamisautomaatika tööriistaga, näiteks GNU make ( Karl Broman / Zachary Jones)

Kodeerimine

Analüüs

  • Ärge unustage seada / salvestada algust, mida kasutasite RNG või stohhastiliste algoritmide (nt k-keskmised) kutsumisel
  • Monte Carlo uuringute jaoks võib olla huvitav salvestada tehnilisi andmeid / parameetrid eraldi failis ( sumatra võib olla hea kandidaat, giovanni / BS)
  • Ärge piirduge ühe muutujaga ühe graafikuga, kasutage mitmemõõtmelisi (Trellis) kuvareid ja interaktiivseid visualiseerimistööriistu (nt GGobi)

Versioonimine

  • Kasutage hõlpsaks jälgimiseks / eksportimiseks mingisugust redigeerimise juhtimist Git ( Sharpie / VonC / JD Long / SO) - see tuleneb @Jeromy ja @Tal esitatud toredatest küsimustest
  • Varundage kõik regulaarselt ( Sharpie / JD Long / SO)
  • pidage oma ideedest logi või toetuge väljaandete jälgija, nagu ditz ( giovanni / BS) - eelmise üksusega osaliselt üleliigne, kuna see on saadaval Gitis

Redigeerimine / Aruandlus

Vahemärkusena pakub Hadley Wickham põhjaliku ülevaate R projektijuhtimisest, sealhulgas reprodutseeritavad näited ja andmete ühtne filosoofia .

Lõpuks pakub Oliver Kirchkamp oma R-suunalises statistiliste andmete analüüsi töövoogus väga üksikasjalikku ülevaadet, miks konkreetne töövoog aitab statistikutel iga teisega koostööd teha tagades andmete terviklikkuse ja tulemuste reprodutseeritavuse. Lisaks hõlmab see mõningast arutelu kudumis- ja versioonikontrollisüsteemi kasutamise üle. Staatikasutajad võivad leida kasulikku ka J. Scott Longi Andmete analüüsi töövoogu kasutades Stata.

Suurepärane töö chl! Kas see oleks o.k. teie poolt, kui ma seda oma blogis avaldaksin? (Ma mõtlen, et see tekst on koopia, nii et ma saaksin, aga ma tahtsin, et sul oleks igal juhul luba :)) Tervist, Tal
@Tal Pole probleemi. See pole kaugeltki ammendav loetelu, kuid võib-olla saate hiljem lisada muid kasulikke linke. Samuti võite vabalt paremini kohaneda või ümber korraldada.
+1 See on kena nimekiri. Võite kaaluda selle aktsepteerimist, et see oleks alati üleval; arvestades, et see on CW, saab igaüks seda värskendada.
@Shane Noh, ma olen teile võlgu, et andsite esimese vastuse nii kasulike linkidega. Lisage julgelt soovitud viisi / muutke seda.
Avaldasin selle siin uuesti. Suurepärane nimekiri! http://www.r-statistics.com/2010/09/managing-a-statistical-analysis-project-guidelines-and-best-practices/
Hääletaksin versioonitööriistana pigem Mercuriali kui Giti poolt. Ma leidsin, et seda on lihtsam kasutada ja kasutajaskond pole nii karm. (Macis on MacHG Mercuriali jaoks suurepärane GUI kasutajaliides.) Ükskõik mis versioonitööriista kasutate, on graafilise kasutajaliidese esiosa asjade jälgimiseks ja haldamiseks väga kasulik ja võimas.
@Wayne Täname selle eest. Oliver Kirchkamp arutas SVN-i kasutamist; Leidsin, et kasutan mitmesuguste asjade jaoks sageli [RCS] (http://www.gnu.org/software/rcs/), kuid olen Hg-st kuulnud häid asju. Olen nõus, et GUI võib olla pluss, kuigi töötan peamiselt käsurealt ja Emacsist. ([GitHub for Mac] (http://mac.github.com/) pole nii hull, btw.)
@CHL: Esmapilgul on lihtne mõelda, et graafilise kasutajaliidese abil on algajal selle kasutamine hõlpsam, kuid olen leidnud, et graafilise kasutajaliidese (vähemalt MacHG) jõud seisneb selles, et see on dünaamiline. Hoian MacHG-d kogu aeg avatud ja näen silmapilk, millised failid on projektis ja mida on värskendatud. Klõpsake failil, et näha, mida on muudetud. Eriti aitab see, kui ma projekti vahetan, et aidata mul meelde tuletada, kus ma olin.
Seda võiks tõesti teha kirjelduse lisamisega selle kohta, kuidas Makefile'i kasutada andmete ühendamise ja vahemälu haldamiseks. Kui keegi seda teab, lisage see. Kui ei, siis proovin ühe varsti üles kirjutada, kui olen korra ümber käinud.
@naught101 Karl Bromanil on mõned juhendid GNU tööriistade ja R kasutamise kohta oma "Tööriistades reprodutseeritavate uuringute jaoks", http://kbroman.github.io/Tools4RR/.
huvitav - teie vastus on koodide / failide haldamise väga põhjalik juhend.kontrollimise osas mitte liiga palju, kui olete tegelikult vastanud uuringute põhiküsimustele või väljundinõuetele
#2
+21
Shane
2010-09-21 01:42:22 UTC
view on stackexchange narkive permalink

See ei anna konkreetset vastust, kuid võiksite vaadata neid seotud virnaülekande küsimusi:

Samuti võite olla huvitatud John Myles White'i hiljutistest projekt statistilise projekti malli loomiseks.

Täname linkide eest! Küsimus on avatud igale statistikatarkvarale - kasutan aeg-ajalt Pythoni ja Statat, nii et ei tea, kas kinnitatud kasutajad võivad sinna huvitavaid soovitusi tuua.
Absoluutselt; kuigi lisan, et ülaltoodud linkide soovitused võiksid tõesti kehtida mis tahes statistikaprojekti jaoks (olenemata keelest).
Kindlasti jah! Uuendasin samal ajal oma küsimust.
#3
+8
user88
2010-09-25 20:45:58 UTC
view on stackexchange narkive permalink

See kattub Shane'i vastusega, kuid minu arvates on kaks peamist muuli:

  • reprodutseeritavus ; mitte ainult sellepärast, et te ei lõpeta tulemusi, mis on tehtud "kuidagi", kuid saate ka analüüsi kiiremini (muude andmete või kergelt muudetud parameetrite põhjal) uuesti käivitada ja teil on veel aega tulemuste üle järele mõelda. Suurte andmete saamiseks võite kõigepealt oma ideid katsetada mõnel väikesel "mängukomplektil" ja seejärel hõlpsalt laiendada kogu andmeid.
  • Hea dokumentatsioon ; kommenteeris skripte versioonikontrolli all, mõni uurimisajakiri, sündmuste piletisüsteem keerukamate projektide jaoks. Parandab reprodutseeritavust, muudab vigade jälgimise lihtsamaks ja lõpparuannete kirjutamine tühiseks.
+1 Mulle meeldib teine ​​punkt (kasutan roxygen + git). Esimene punkt paneb mind mõtlema ka võimalusele anda oma kood teisele statistikule, kes suudab teie tulemusi projekti hilisemas etapis ilma igasuguse abita taasesitada.
Taastatavus?Andmetel on juhuslik viga igatahes, nii et keda see huvitab.Dokumentatsioon?Kaks vastusevarianti: 1) Oleme liiga hõivatud, meil ei ole aega dokumenteerimiseks või 2) meil oli eelarve ainult analüüsi tegemiseks või selle dokumenteerimiseks, seega otsustasime analüüsi teha.Mis sa arvad, kas ma viskan nalja?Olen neid hoiakuid mitmel korral näinud / kuulnud - projektides, kus elud liini peal käisid.
#4
+4
Carlos Accioly
2010-09-21 08:00:48 UTC
view on stackexchange narkive permalink

van Belle on edukate statistikaprojektide reeglite allikas.

#5
+1
Wes McCardle
2010-10-01 05:58:05 UTC
view on stackexchange narkive permalink

Ainult minu 2 senti. Leidsin, et Notepad ++ on selleks kasulik. Ma saan hoida iga projekti jaoks eraldi skripte (programmi juhtimine, andmete vormindamine jne) ja .pad-faili. .Pad-failikõnes on kõik selle projektiga seotud skriptid.

Te peate silmas märkmiku ++ kasutamist npptori abil :)
#6
+1
Christian Sauer
2014-04-09 14:58:39 UTC
view on stackexchange narkive permalink

Kuigi teised vastused on suurepärased, lisan veel ühe arvamuse: vältige SPSS-i kasutamist. Kasutasin magistritööks SPSS-i ja tegelesin nüüd turu-uuringute alal.

SPSS-iga töötades oli organiseeritud statistikakoodi väljatöötamine uskumatult raske, kuna SPSS on mitme faili käsitsemisel halb (kindlasti saate hakkama mitme failiga, kuid see pole nii valutu kui R ), kuna te ei saa andmekogumeid muutujasse salvestada - peate kasutama koodi "dataset activ x" - see võib olla täielik piin. Samuti on süntaks kohmakas ja julgustab lühikirjeldusi, mis muudavad koodi veelgi loetamatumaks.

#7
  0
hugke729
2018-06-09 09:04:29 UTC
view on stackexchange narkive permalink

Jupyteri märkmikud, mis töötavad R / Python / Matlab / etc-ga, eemaldavad vaeva, et meelde jätta, milline skript genereerib kindla joonise. See postitus kirjeldab korralikku viisi, kuidas koodi ja joonist üksteise kõrval hoida.Paberi- või lõputöö peatüki kõigi jooniste hoidmine ühes märkmikus muudab liidetud koodi hõlpsasti leitavaks.

Tegelikult on see veelgi parem, sest soovitud kujundi leidmiseks võite sirvida näiteks tosinat kujundit.Koodi hoitakse varjatud seni, kuni seda vaja on.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...