Küsimus:
Excel statistikatööpingina
Carlos Accioly
2010-10-07 22:44:33 UTC
view on stackexchange narkive permalink

Tundub, et paljudele inimestele (ka mulle) meeldib Excelis uurivat andmeanalüüsi teha. Mõned piirangud, näiteks arvutustabelis lubatud ridade arv, on piin, kuid enamikul juhtudel ei muuda Exceli kasutamist andmetega mängimiseks võimatuks.

McCullough paber ja Heiser aga karjatab praktiliselt, et kui te proovite Exceli kasutada, saate kõik valesti - ja tõenäoliselt põlete ka põrgus -.

Kas see paber on õige või on see kallutatud? Autorid kõlavad küll, nagu vihkaksid Microsofti.

Värske analüüs statistiliste arvutuste jaoks tehtud arvutustabelite tarkvara täpsuse kohta ilmub [Kellie B. Keeling ja Robert J. Pavur (2011): Spreadsheet Software Statistical Accuracy, The American Statistician, 65: 4, 265-273] (praegu tasuta allalaaditav) aadressil http://amstat.tandfonline.com/doi/pdf/10.1198/tas.2011.09076). Tulemused on segased ja võib-olla veidi üllatavad. Tähelepanuväärne on Excel 2007 ja Excel 2010 levitamise arvutuste tohutu paranemine (mis näib olevat täpsem kui `R` või SAS).
Kaheksa vastused:
#1
+45
whuber
2010-10-08 01:15:28 UTC
view on stackexchange narkive permalink

Kasutage õige töö jaoks õiget tööriista ja kasutage tuttavate tööriistade tugevaid külgi.

Exceli puhul on mõned olulised probleemid:

  • Ärge kasutage andmete haldamiseks arvutustabelit, isegi kui teie andmed sellesse mahuvad. Te lihtsalt palute probleeme, kohutavaid probleeme. Praktiliselt pole kaitset trükivigade, andmete hulgi segamise, andmeväärtuste kärpimise jne eest.

  • Paljud statistilised funktsioonid on tõepoolest katki. T jaotus on üks neist.

  • Vaikegraafika on kohutav.

  • Sellel puudub mõni põhiline statistiline graafika, eriti lahtrid ja histogrammid.

  • Juhuslike arvude generaator on nali (kuid vaatamata sellele on see siiski tõhus hariduslikel eesmärkidel).

  • Vältige kõrgetasemelisi funktsioone ja enamikku lisandmooduleid; nad on c ** lk. Kuid see on lihtsalt ohutu arvutamise üldpõhimõte: kui te pole kindel, mida funktsioon teeb, siis ärge seda kasutage. Püsige madala taseme funktsioonide juures (mis sisaldavad aritmeetilisi funktsioone, järjestust, exp, ln, trig funktsioone ja - piirides - normaaljaotuse funktsioone). Ärge kunagi kasutage graafikat tootvat pistikprogrammi: see saab olema kohutav. (NB: oma tõenäosuseplaanide loomine nullist on surmtõmmatud. Need on korrektsed ja väga kohandatavad.)

Selle kasuks on aga järgmised:

  • Selle arvulised põhiarvutused on nii täpsed kui topelt täpsusega ujukid võivad olla. Need hõlmavad mõningaid kasulikke, näiteks logi gamma.

  • Juhtelementi on üsna lihtne tabelisse sisestada sisendkastide ümber, mis võimaldab hõlpsasti dünaamilisi simulatsioone luua.

  • Kui peate arvutusi jagama statistikaga mitteseotud inimestega, on enamikul arvutustabeliga mõnevõrra mugavust ja statistilise tarkvaraga üldse mitte, ükskõik kui odav see ka poleks.

  • Efektiivsete arvmakrode kirjutamine, sealhulgas vana Fortrani koodi portimine, mis on VBA-le üsna lähedal, on lihtne kirjutada. Pealegi on VBA teostamine suhteliselt kiire. (Näiteks on mul kood, mis arvutab täpselt nullist välja jaotatud mitte-tsentraalsed jaotused, ja Fast Furieri teisenduste kolm erinevat rakendust.)

  • See toetab mõnda tõhusat simulatsiooni ja Monte-Carlo lisandmoodulid nagu Crystal Ball ja @Risk. (Muide, nad kasutavad oma RNG-sid - ma kontrollisin.)

  • Otsese (väikese kogumiga) andmetega suhtlemise vahetus on võrreldamatu: see on parem kui ükski teine statistikapakett, Mathematica jne. Kui seda kasutatakse hiiglasliku kalkulaatorina, kus on palju salvestusruume, on arvutustabel tõesti oma.

  • Hea EDA, Tugevate ja vastupidavate meetodite kasutamine pole lihtne, kuid kui olete selle üks kord teinud, saate selle kiiresti uuesti seadistada. Exceli abil saate Tukey EDA raamatus kõik arvutused (ehkki ainult mõned joonised) tõhusalt taasesitada, sealhulgas n-suunaliste tabelite keskmine poleerimine (kuigi see on natuke tülikas).

Esialgse küsimuse otsesel vastamisel on selles töös erapoolikus: see keskendub materjalile, milles Excel on kõige nõrgem ja mida pädev statistik kõige vähem kasutab. See pole siiski lehe kriitika, sest sellised hoiatused tuleb edastada.

@whuber Kena ja mugav ülevaade plussidest ja miinustest!
+1 kena ja tasakaalukas. Mulle meeldib eriti punkt "vahetu suhtlemise vahetus", mis minu arvates on Exceli (või tegelikult arvutustabeli) suurim müügiargument. Deklaratiivne programmeerimine massidele - see selgitab, miks mõned inimesed arvavad, et 80% maailma äriloogikast on kirjutatud Excelis (tasub juhtida tähelepanu programmeerijatele ja statistikutele, kes vaidlevad R v SASi või Java v C ++ jne kohta).
Kuulsin, et Microsoft palkas mitu aastat tagasi Exceli katkiste funktsioonide parandamiseks mõned arvuanalüütikud. Kas teate, kas Exceli probleemid on endiselt olemas 2007. või 2010. aasta versioonides?
John, McCulloughi ja Heiseri paber, millele Carlos viitab, aadressile Excel 2007. Ma ei võta Excel 2010-d erinevatel põhjustel kasutusele, nii et mul pole olnud võimalust seda testida.
Kas teil on viide või näide selle kohta, kuidas testid katki on?
@Zach Näiteks arvutage Exceli 2002 abil "= TINV (2 * p, df)" väärtuste p jaoks, mis varieeruvad vahemikus .01 kuni 0 kuni 0, ja võrrelge neid õigete väärtustega. (Kontrollisin df-ga vahemikus 2 kuni 32.) Vead algavad kuuendast olulisest joonisest ja plahvatavad siis, kui p on umbes 1.E-5 või madalam. Kuigi need p väärtused on väikesed, on need testimiseks realistlikud väärtused, kuna need on üliolulised mitmekordse võrdluse testide ja t jaotusega seotud väärtuste arvutamiseks, näiteks mittekeskne t.
Excel 2010 kasutab RNG jaoks Mersenne Twisterit
@Curt Täname selle teabe eest. Excel paraneb aja jooksul järk-järgult mõnes numbrilises plaanis. Ma oleksin pidanud selgeks tegema, et minu märkused põhinevad kogemustel versioonidega c. 1990–2007, kuid ei midagi uuemat kui see.
@whuber Järgmises valges raamatus kirjeldatakse mõningaid Exceli 2010 statistiliste funktsioonide muudatusi - http: //blogs.office.com/cfs-file.ashx/__key/CommunityServer-Components-PostAttachments/00-00-00-49-53 /ExcelFunctionImprovements-10_2D00_05_2D00_09-_2800_1_2900_.pdf
Ma arvan, et teie esimeses täpipunktis peavad olema tähed ja nooled, mis seda välja kutsuvad. Arvutustabelid ei anna kontrolljälge, mis on kriitiline, kui kavatsete teha tööd, millele keegi tegelikult tugineb. R seevastu ei paku otseselt kontrolljälge, kuid kuna see aktsepteerib käske ja saate käsud importimiseks, eeltöötlemiseks, töötlemiseks, graafikuks jne salvestada, saate eraldi failis jälgida, mida hankige graafik nr 1 ja saate selle uuesti luua nullist, igaks juhuks, kui teil on järsku põhjust seda kahtluse alla seada.
Ilus vastus, nagu alati, hull. Re: Otsese andmetega suhtlemise kohesus, väärib märkimist, et on olemas vähemalt üks R GUI ([rkward] (http://rkward.sf.net/)) ja tõenäoliselt rohkem, millel on arvutustabeli sarnane liides haldamiseks andmed ilma trükivea / andmetüübi probleemideta. Need GUI-d pole nii head kalkulaatori "hiiglasliku kalkulaatori" osas, mis, olen nõus, on arvutustabelid suurepärased (oi!).
Re @whuber's kommentaar "TINV" kohta programmis Excel 2002: Võrdlesin just Excel 2010 funktsiooni "T.INV" väärtusega "qt ()" R-s 2.15.2 for $ p \ in {0.1, 0.01, 0.001, \ dots , 1e-9 \} $ ja $ df \ in \ {2, 3, \ dots, 32 \} $. Suurim suhteline viga on 4e-10. Vähemalt tundub, et see probleem on Excelis lahendatud.
@JohnD.Cook: Tundub, et nt.t-test on endiselt katki: https://designdatadecisions.wordpress.com/2014/12/02/msexcel-for-statistical-analysis/
#2
+18
csgillespie
2010-10-08 07:35:37 UTC
view on stackexchange narkive permalink

Huvitav artikkel Exceli kasutamise kohta bioinformaatikas on:

Vigased identifikaatorid: Exceli kasutamisel bioinformaatikas võib tahtmatult sisse tuua geeninime vigu, BMC Bioinformatics, 2004 ( link).

Selles lühikeses artiklis kirjeldatakse Exceli automaatsete tüübikonversioonide (eriti kuupäeva ja ujukoma konversioonide) probleemi. Näiteks teisendatakse geeninimi Sept2 teiseks 2. sept. Selle vea leiate tegelikult veebiandmebaasidest.

Exceli kasutamine keskmise kuni suure hulga andmete haldamiseks on ohtlik. Vead võivad hõlpsasti sisse hiilida, ilma et kasutaja seda märkaks.

See on Exceli aspekt, mis mind kõige rohkem vihastab. Andmete salvestamine vajab selgesõnalisi andmetüüpe, mitte vormindamist.
Tegelikult on see midagi MS-tarkvara kohta üldiselt häirivat: see muudab teie sisendi selliseks, nagu ta usub, et tegelikult mõtlesite, ja tavaliselt ei näe te seda isegi juhtuvat.
@csgillespie (+1) Sellest vaatenurgast on Excelist hea kuulda!
Minu lemmikviga ilmnes siis, kui Excel kasutas teistesse vormingutesse eksportimise ajal välju vaikselt kärpimas. Pinnases sisalduvate pestitsiidide kontsentratsioonide toimikus teisendas algväärtuse 1 000 050 (erakordselt mürgine) väärtuseks 50 (peaaegu ebaoluline)!
@Matt on see ainus vihane, kui te Excelis andmeid "salvestate". Selle suurepärane omadus, kui kasutate Exceli puhtalt aruandluse ja diagrammide loomise kasutajaliidesena.
+ lõpmatus. Ma tegelen bioinformaatikaga ja see tekitas minus valu maailmas. Juhtub ka openoffice.org-is.
#3
+11
Stephan Kolassa
2010-10-08 00:57:40 UTC
view on stackexchange narkive permalink

Noh, küsimus, kas paber on õige või erapoolik, peaks olema lihtne: võite lihtsalt korrata mõnda nende analüüsi ja vaadata, kas saate samad vastused.

McCullough on kasutanud MS erinevaid versioone Excelis on juba mõned aastad lahus ja ilmselt pole MS pidanud sobivaks vigu parandada, millele ta eelmistes versioonides aastaid tagasi tähelepanu juhtis.

Ma ei näe Excelis andmetega ringi mängimisel probleemi. Aga ausalt öeldes ei teeks ma oma "tõsiseid" analüüse Excelis. Minu peamine probleem ei oleks ebatäpsused (mis on vist väga harva probleem), vaid võimatus oma analüüse jälgida ja korrata aasta hiljem, kui arvustaja või mu ülemus küsib, miks ma X ei teinud - saate oma töö ja teie pimedad alleed kommenteeritud R-koodis, kuid mitte Exceli sisukal viisil.

(+1) Te kajastate kenasti Medstatsis toimuvat arutelu andmete muutmise ja analüüsi üle arvestuse pidamise vajaduse üle (http://j.mp/dAyGGY)! Tänud.
Oma "töö ja pimedate alleede" salvestamine pole Exceli jaoks raskem kui R-ga. Küsimus on lihtsalt selle tegemises. Exceli peamine probleem on seotud selle tugevusega: on liiga lihtne midagi tahtmatult muuta. Kuid EDA jaoks - OP-i keskmes - salvestame harva, kui kunagi, kõik, mida teeme. EDA peaks lõppude lõpuks olema * interaktiivne. *
kui teete seda VB-s, on võimalik oma meetodite reprodutseeritavat arvestust hoida, kuid Exceli graafilise kasutajaliidese fookus ei soodusta seda käitumist.
#4
+7
chl
2010-10-07 23:15:35 UTC
view on stackexchange narkive permalink

Muide, küsimus Google'i arvutustabelite kasutamise kohta tekitas selle kohta vastakaid (seega huvitavaid) arvamusi. Kas mõned teist kasutavad Google'i dokumentide arvutustabelit oma statistilise töö tegemiseks ja teistega jagamiseks?

Pean silmas üht vanemat artiklit, mis ei tundunud nii pessimistlik, kuid seda mainitakse vaid marginaalselt teie mainitud artiklis: Keeling ja Pavur, Üheksa statistikatarkvara usaldusväärsuse võrdlev uuring paketid (CSDA 2007 51: 3811). Kuid nüüd leidsin teie oma kõvakettalt. Samuti ilmus 2008. aastal eriväljaanne, vaadake spetsiaalset jaotist Microsoft Excel 2007 kohta ja hiljuti ajakirja Journal of Statistics Software kohta: arvutustabelite numbrilise täpsuse kohta.

Ma arvan, et see on pikaajaline arutelu ja leiate erinevaid dokumente / arvamusi Exceli usaldusväärsuse kohta statistiliste arvutuste jaoks. Ma arvan, et arutelu on erinevatel tasanditel (millist analüüsi kavatsete teha, kas toetute sisemisele lahendajale, kas on mittelineaarseid termineid, mis sisestavad antud mudeli jne) ja arvulise ebatäpsuse allikad võivad tekkida korralike arvutusvigade või disainivalikute probleemide tagajärjel; see on hästi kokku võetud jaotises

M. Altman, J. Gill & M.P. McDonald, Sotsiaalteadlase statistilise arvutamise arvulised probleemid , Wiley, 2004.

Uuriva andmeanalüüsi jaoks on nüüd mitmeid alternatiive, mis pakuvad täiustatud visualiseerimisvõimalusi , mitmemõõtmeline ja dünaamiline graafika, nt GGobi - kuid vaadake selles vikis seotud lõimesid.

Kuid ilmselgelt käsitleb teie esimene punkt teist probleemi (IMO), nimelt arvutustabeli kasutamist suurte probleemide lahendamiseks andmekogum: suurt csv-faili pole lihtsalt võimalik Excelisse importida (mõtlen küll genoomiandmeid, kuid see kehtib muud tüüpi kõrgemõõtmeliste andmete kohta). Seda pole selleks üles ehitatud.

Mulle meeldib nüanss "erinevatel arutelutasanditel".
#5
+7
Sympa
2010-10-08 02:36:52 UTC
view on stackexchange narkive permalink

Paberid ja teised osalejad osutavad tehnilistele puudustele. Whuber teeb head tööd, et kirjeldada vähemalt mõnda oma tugevust. Ma isiklikult teen Excelis ulatuslikku statistikat (hüpoteeside testimine, lineaarne ja mitmekordne regressioon) ja mulle meeldib see. Ma kasutan Exceli 2003, mahuga 256 veergu ja 65 000 rida, mis suudab hallata vaid umbes 100% kasutatavatest andmekogumitest. Ma saan aru, et Excel 2007 on seda mahtu tohutult laiendanud (rida miljonites).

Nagu Whuber mainib, on Excel ka alguspõhjaks paljudele silmapaistvatele lisandmoodulitele, mis kõik päris võimas ja hõlpsasti kasutatav. Ma mõtlen Crystal Ballile ja @Riskile Monte Carlo simulatsiooni jaoks; XLStat kogu võimsa statistika ja andmete analüüsi jaoks; Mis on optimeerimiseks parim. Ja loetelu jätkub. See on nagu Excel on samaväärne iPodi või iPadiga, millel on zillion päris uskumatuid rakendusi. Tõsi, Exceli rakendused pole odavad. Kuid selleks, mida nad suudavad teha, on need tavaliselt üsna head tehingud.

Mis puutub mudeli dokumentatsiooni, siis on nii lihtne sisestada tekstikast, kuhu saate sõna otseses mõttes oma metoodikast raamatu kirjutada. , oma allikad jne ... Samuti saate kommentaare lisada igasse lahtrisse. Nii et kui midagi on Exceli manustatud dokumentide hõlbustamiseks tõesti hea.

Täname lisapunktide ja vaatenurga jagamise eest.
suurepärased punktid, hea kuulda, kui keegi seda õigesti kasutab ja kasuks tuleb.
#6
+6
Zach
2011-05-08 07:32:10 UTC
view on stackexchange narkive permalink

Excel pole statistikale hea, kuid võib olla uurimuslike andmete analüüsimiseks suurepärane. Vaadake seda videot, et leida eriti huvitavaid tehnikaid. Exceli võime teie andmeid tinglikult värvida ja lahtrisse tulpdiagramme lisada võib anda suurepärase ülevaate teie algandmete struktuurist.

#7
+6
Greg Snow
2011-05-08 08:01:17 UTC
view on stackexchange narkive permalink

Teine hea viiteallikas, miks te ei soovi Exceli kasutada, on järgmine:

Arvutustabeli sõltuvus

Kui satute olukorda, kus soovite peate tõesti kasutama Exceli (mõned akadeemilised osakonnad nõuavad), siis soovitaksin kasutada Rexseli pistikprogrammi. See võimaldab teil Exceli abil liidestada, kuid arvutusmootorina kasutatakse programmi R. Selle kasutamiseks ei pea teadma R-d, saate kasutada rippmenüüsid ja dialooge, kuid kui teete, saate teha palju rohkem. Kuna R teeb arvutusi, on need palju usaldusväärsemad kui Excel ja teil pole excelist palju paremaid graafikuid ning lahtrid ja muud graafikud. See töötab isegi Exceli lahtrite automaatse värskendamisega (ehkki see võib asja tõesti aeglaseks muuta, kui teil on iga kord palju keerulisi analüüse, mida uuesti arvutada). See ei lahenda kõiki arvutustabeli sõltuvuse lehel olevaid probleeme, kuid on sirgjoonelise Exceli kasutamisel tohutult parem.

#8
+1
Bob Nau
2015-02-19 05:56:15 UTC
view on stackexchange narkive permalink

Excel võib olla suurepärane nii andmete uurimiseks kui ka õigete pistikprogrammidega lineaarse regressiooni analüüsiks. On mitmeid kommertstooteid, ehkki enamik neist jätab oma toodangu kvaliteedi osas soovida (need ei kasuta täielikult ära Exceli graafikute koostamise võimalusi ega võimalust linkida teiste Office'i rakendustega) ja üldiselt pole need andmete kuvamiseks ja esitamiseks nii head kui võiks olla. Samuti kipuvad nad toetama distsiplineeritud modelleerimisviisi, kus (muu hulgas) hoiate oma töö jaoks hästi dokumenteeritud kontrolljälge. Siin on TASUTA pistikprogramm "RegressIt", mis lahendab paljusid neist probleemidest: http://regressit.com. See pakub väga head tuge uurimuslikuks analüüsiks (sealhulgas võime genereerida paralleelseid aegridade graafikuid ja kuni 50 muutujaga hajumisdiagrammide maatriksid), see muudab andmete teisenduste, nagu mahajäämus, logimine ja diferentseerimine (mida sageli ei rakendata, hõlpsaks rakendamiseks) asjakohaselt regressiooni naiivsete kasutajate poolt), see pakub väga üksikasjalikku tabelite ja diagrammide väljundit, mis toetab andmete analüüsi parimaid tavasid, ja haldab kontrolljälgede töölehte, mis hõlbustab mudelite kõrvutamist ja registreerib, millised mudelid mis järjekorras sobitati. See on hea täiendus kõigele muule, mida võite kasutada, kui tegemist on mitmemõõtmeliste andmetega ja vähemalt osa teie tööd tehakse Exceli keskkonnas.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...