Küsimus:
Mis on statistika suured probleemid?
raegtin
2010-09-05 09:16:30 UTC
view on stackexchange narkive permalink

Matemaatikal on oma kuulsad Millennium Problems (ja ajalooliselt Hilberti 23) küsimused, mis aitasid valdkonna suunda kujundada.

Mul on siiski vähe aimugi, millised oleksid Riemanni hüpoteesid ja P vs NP statistika.

Mis siis on statistikas kõikehõlmavad lahtised küsimused? lisada: Otsitava vastuse üldise vaimu (kui mitte päris spetsiifilisuse) näitena leidsin David Donoho inspireeritud "Hilberti 23" loengu teemal "21. sajandi matemaatika väljakutsed" "konverents: kõrgemõõtmeliste andmete analüüs: mõõtmete needused ja õnnistused

Nii et potentsiaalne vastus võiks rääkida suurandmetest ja selle olulisusest, statistiliste väljakutsete tüüpidest - mõõtmeliste andmete tekitamine ja meetodid, mis tuleb probleemi lahendamiseks välja töötada, või küsimused, millele tuleb vastata.

Täname selle postitamise eest. See on oluline (ja potentsiaalselt inspireeriv) arutelu.
Seitse vastused:
#1
+48
whuber
2010-09-06 22:27:02 UTC
view on stackexchange narkive permalink

suur küsimus peaks hõlmama statistilise metoodika võtmeküsimusi või kuna statistika hõlmab täielikult rakendusi, peaks see puudutama seda, kuidas statistikat kasutatakse ühiskonnale oluliste probleemide korral.

See iseloomustus viitab sellele, et suurte probleemide kaalumisel peaks olema järgmine:

  • Kuidas kõige paremini ravimiuuringuid läbi viia . Praegu nõuab klassikaline hüpoteeside testimine paljusid formaalseid uuringuetappe. Hilisemates (kinnitus) faasides tõusevad majanduslikud ja eetilised probleemid suureks. Kas saaksime paremini hakkama? Kas me peame sadama või tuhandeid haigeid inimesi kontrollrühmadesse viima ja hoidma neid näiteks kuni uuringu lõpuni või saame leida paremaid viise, kuidas tuvastada tõeliselt toimivad ravimeetodid ja viia need uuringu liikmeteni (ja teised) varem?

  • Teaduslike väljaannete kallutatusega toimetulek . Negatiivseid tulemusi avaldatakse palju vähem lihtsalt seetõttu, et need lihtsalt ei saavuta maagilist p-väärtust. Kõik teadusharud peavad leidma paremaid viise, kuidas teaduslikult olulisi mitte ainult statistiliselt olulisi tulemusi esile tuua. (Mitme võrdluse probleem ja kõrgemõõtmeliste andmetega toimetulek on selle probleemi alamkategooriad.)

  • Statistiliste meetodite piiride uurimine ja nende liidesed masinõppe ja masinatunnetusega . Arvutitehnoloogia vältimatu areng muudab tõelise tehisintellekti meie eluajal kättesaadavaks. Kuidas hakkame kunstlikke ajusid programmeerima? Milline roll võiks statistilisel mõtlemisel ja statistilisel õppimisel olla nende edusammude loomisel? Kuidas saavad statistikud aidata mõelda kunstlikule tunnetusele, kunstlikule õppimisele, uurida nende piiranguid ja teha edusamme?

  • Paremate viiside väljatöötamine georuumiliste andmete analüüsimiseks . Sageli väidetakse, et enamus või valdav osa andmebaasidest sisaldavad asukohaviiteid. Varsti leiavad paljud inimesed ja seadmed reaalajas GPS-i ja mobiiltelefonide tehnoloogia abil. Ruumiandmete analüüsimiseks ja kasutamiseks mõeldud statistilised meetodid on tegelikult alles lapsekingades (ja näivad olevat seotud GIS-i ja ruumilise tarkvaraga, mida tavaliselt kasutavad mittestatistikud).

Kuidas on inimestel võimalik neid probleeme lahendada?
@grautur: See on neli suurepärast küsimust (lisaks palju muud, sest teie vastus kehtib selle lõime iga vastuse kohta). Nad kõik väärivad keerukaid vastuseid, kuid ilmselt pole siin selleks ruumi: palun üks küsimus korraga!
Esimese kuuli (ravimikatsed) kohta: isegi inimesed, kes muidu ei pruugi meditsiinilistest katsetustest huvitatud olla, peaksid lugema NYTimesi artiklit * Uute ravimite segamise arutelu kliiniliste uuringute põhireeglite üle * (http://www.nytimes.com/2010/ 09/19 / tervis / teadus / 19trial.html? Pagewanted = 1 & _r = 1 & th & emc = th). Statistiliselt kirjaoskaja lugeja näeb kohe katse kavandamise ja p-väärtuste kasutamise otsuste tegemisel märkimata tagajärgi. Kusagil on statistiline lahendus selles artiklis kirjeldatud elu ja surma muredele.
#2
+26
raegtin
2011-07-03 03:03:50 UTC
view on stackexchange narkive permalink

Michael Jordanil on lühike artikkel pealkirjaga Millised on Bayesi statistikas lahtised probleemid?, kus ta küsitles hunnikut statistikuid nende seisukohtade pärast statistikas avatud probleemide osas. Võtan siinkohal natuke kokku (aka, kopeeri ja kleebi), kuid ilmselt on kõige parem lihtsalt lugeda originaali.

Nonparametrics ja semiparametrics

  • Milliste probleemide jaoks kas Bayesi mitteparameetrid on kasulikud ja vaeva väärt?
  • David Dunson: "Mitteparameetrilised Bayesi mudelid hõlmavad lõputult palju parameetreid ja prioriteedid valitakse tavaliselt mugavuse huvides hüperparameetritega, mis on seatud näiliselt mõistlikele väärtustele ilma nõuetekohase objektiivse või subjektiivse põhjenduseta."
  • "Mitu inimest märkis, et sagedase mitteparameetria üks atraktiivseid rakendusi on poolparameetriline järeldus, kus mudeli mitteparameetriline komponent on häiriv parameeter. Need inimesed leidsid, et oleks soovitav lihvida välja (sagedasest) Bayesi poolparameetria teooria. "

Priors

  • " Esilekutsumine jääb peamiseks avatud probleemide allikaks. "
  • 'Aad van der Vaart pööras objektiivse Bayesi pea peale ja viitas teooria puudumisele olukordades, kus keegi soovib, et prior jõuaks tagantpoolt "kui" lihtsalt Bayesi lähenemisviisi pakkumine silumiseks ".

Bayesi / sagedased suhted

  • "Paljud vastajad avaldasid soovi veelgi haavata Bayesi / sagedased suhted. Seda tõestati kõige sagedamini kõrgemõõtmeliste mudelite ja andmete kontekstis, kus subjektiivseid lähenemisi preestrite spetsifikatsioonidele on keeruline rakendada, kuid mugavusprioriteed võivad olla (väga) eksitavad. "
  • 'Mõned vastajad toetasid asümptootilist teooriat, mis võiks Bayesi meetodite oletatavad eelised paremini esile tuua; nt David Dunson: "Sageli saadakse sagedase optimaalse määra protseduuride abil, mis lõpplike proovide puhul on selgelt palju halvemad kui Bayesi lähenemisviisid."

Arvutamine ja statistika

  • Alan Gelfand: "Kui MCMC ei ole enam elujõuline probleemide jaoks, mida inimesed soovivad lahendada, siis milline on INLA, variatsioonimeetodite roll, ABC-lähenemisviisidest? "
  • " Mitmed vastajad soovisid arvutusteaduse ja statistikateaduse põhjalikumat integreerimist, märkides, et järelduste kogum, milleni ükskõik millises olukorras jõuda, on ühiselt mudeli funktsioon, prioriteedid, andmed ja arvutuslikud ressursid ning soovides nende koguste vaheliste kompromisside selgemat haldamist. Tõepoolest, Rob Kass tõi välja võimaluse järeldada, et mõned probleemid on lootusetud (nt. , mudeli valimine regressioonis, kus "mittetriviaalse müra all kannatavate andmete tagasihoidlike koguste korral on regressioonikordajate kohta võimatu saada kasulikke usaldusvahemikke, kui on palju muutujaid, kelle olemasolu või puudumine mudelis on a priori täpsustamata") ja kus on muid probleeme („teatud funktsionaalid, mille jaoks on olemas kasulikud usaldusvahemikud”), millele on lootust. ”
  • „ Mitmed vastajad teatava ebamäärasuse pärast vabandust paludes avaldasid tunnet, et suur andmete hulk ei tähenda tingimata suurt arvutust; pigem peaks see, et kuidagi peaks suurtes andmetes sisalduv järeldav tugevus kanduma algoritmi ja võimaldama rahuldava (ligikaudse) järeldusliku lahenduse saavutamiseks leppida vähemate arvutuslike sammudega. "

Mudel Valik ja hüpoteeside testimine

  • George Casella: "Nüüd teeme mudeli valiku, kuid Bayeslased ei näi muretsevat valitud mudeli põhjal järelduste omaduste pärast. Mis siis, kui see on vale? Millised on teatud parameetri $ β_1 $ usaldusväärsete piirkondade seadistamise tagajärjed, kui olete valinud vale mudeli? Kas meil võib olla mingisuguse garantiiga protseduure? "
  • Vajadus mudeli valikul rohkem otsusteoreetiliste aluste kallal töötada.
  • David Spiegelhalter: "Kuidas oleks kõige parem teha eelnevate / andmete konfliktide kontroll Bayesi analüüsi lahutamatu osa?"
  • Andrew Gelman: "Mudelite kontrollimiseks on võtmetähtsusega avatud probleem graafiliste tööriistade väljatöötamine mudelite mõistmiseks ja võrdlemiseks. Graafika ei ole mõeldud ainult toorandmete jaoks; pigem annavad keerulised Bayesi mudelid mudeli paremaks ja tulemuslikumaks uurimisandmete analüüsiks."
#3
+13
russellpierce
2010-09-06 00:19:03 UTC
view on stackexchange narkive permalink

Ma pole kindel, kui suured nad on, kuid statistikas on lahendamata probleemide jaoks Vikipeedia leht. Nende loend sisaldab järgmist:

Järeldus ja testimine

  • Süstemaatilised vead
  • Graybill – Deal'i prognoosija lubatavus
  • Sõltuvate p-väärtuste kombineerimine metaanalüüsis
  • Behrens – Fisheri probleem
  • Mitu võrdlust
  • Lahtised probleemid Bayesi statistikas

Eksperimentaalne kujundus

  • Ladina ruutude ülesanded

Rohkemate probleemid filosoofiline olemus

  • Liigiprobleemi proovivõtt
  • Doomsday argument
  • Vahetusparadoks
#4
+6
raegtin
2010-09-05 10:23:26 UTC
view on stackexchange narkive permalink

Näitena otsitava vastuse üldisest vaimust (kui mitte päris spetsiifilisusest) leidsin konverentsil "21. sajandi matemaatika väljakutsed" David Donoho inspireeritud loeng "Hilberti 23":

Kõrgemõõtmeliste andmete analüüs: mõõtmete needused ja õnnistused

Kas võiksin soovitada teil muuta oma põhiküsimus selle teabe lisamiseks?
#5
+4
Robby McKilliam
2010-09-05 13:36:31 UTC
view on stackexchange narkive permalink

Mathoverflowil on sarnane küsimus suurte tõenäosusteooria probleemide kohta.

Sellelt lehelt näib, et kõige suuremad küsimused on seotud iseenda vältimisega juhuslikest jalutuskäikudest ja perkolatsioonidest.

Ma arvan, et statistika on siiski tõenäosusteooriast eraldi valdkond.
@raegtin - ma ei arva, et tõenäosusteooria on statistikast eraldi, pigem on see teooria. "Statistika" on tõenäosusteooria rakendamine järeldatavatele probleemidele (s.t praktikale).
#6
+4
Charlie
2010-09-06 00:18:58 UTC
view on stackexchange narkive permalink

Võite tutvuda Harvardi selle aasta alguses korraldatud "Raskete probleemidega sotsiaalteaduste kollokviumil. Paljud neist kõnelustest pakuvad probleeme statistika ja modelleerimise kasutamisel sotsiaalteadustes.

#7
+2
pmgjones
2010-09-05 16:43:36 UTC
view on stackexchange narkive permalink

Minu vastus oleks võitlus sagedase ja Bayesi statistika vahel. Kui inimesed küsivad teilt, millesse te "usute", pole see hea! Eriti teadusliku distsipliini jaoks.

Pole midagi halba, kui teadlane millessegi "usub", eriti kui Bayesi tõenäosus esindab mõne väite tõesuse usu või teadmiste taset.
... Probleem tekib alles siis, kui teadlane ei suuda eristada veendumust ja fakti. Ei ole midagi ebateaduslikku veendumuses, et Bayesi või sagedase statistika statistika on parem, kuna puudub objektiivne test, mis suudaks vastust otsustada (AFAIK), seega on valik suures osas subjektiivne ja / või küsimus "hobustele kursustel".
@propofol - olen nõus, et sõna "uskuma" ei ole statistikas sobiv mõiste - see kannab valesid konnotatsioone. Teave on minu arvates palju sobivam sõna (st "mis teavet teil on?"). See ei muuda Bayesi analüüsi matemaatikat ega optimaalsuse teoreeme, kuid annab neile õige tähenduse nende tegeliku kasutamise osas. nt. füüsikalise teooria või põhjusliku mehhanismi tundmine on teave, mitte usk.


See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...