Küsimus:
Kuidas teha "suurtest andmetest" kehtivaid järeldusi?
Has QUIT--Anony-Mousse
2012-02-09 14:30:49 UTC
view on stackexchange narkive permalink

"Big data" on kõikjal meedias. Kõik ütlevad, et "big data" on 2012. aasta jaoks suur asi, nt. KDNuggetsi küsitlus 2012. aasta kuumadel teemadel. Kuid mul on siin sügavad mured. Suurandmete korral näivad kõik olevat õnnelikud, kui saavad midagi välja. Kuid kas me ei riku kõiki klassikalisi statistikapõhimõtteid, nagu hüpoteeside testimine ja esinduslik valim?

Niikaua kui prognoosime ainult sama andmekogumi kohta, peaks see olema hea. Nii et kui ma kasutan Twitteri andmeid Twitteri kasutaja käitumise ennustamiseks, on see ilmselt okei. Kuid Twitteri andmete kasutamine nt. Valimistel jäetakse täielikult tähelepanuta asjaolu, et Twitteri kasutajad ei ole kogu elanikkonna jaoks esinduslik valim. Lisaks ei suuda enamik meetodeid tegelikult eristada tõelist "rohujuuretasandi" meeleolu ja kampaaniat. Ja twitter on kampaaniaid täis. Nii et Twitterit analüüsides jõuate kiiresti lihtsalt kampaaniate ja robotite mõõtmiseni. (Vt näiteks "Yahoo ennustab Ameerika poliitilisi võitjaid", mis on täis küsitlusi ja "meeleolude analüüs on palju parem". Nad ennustasid, et "Romneyl on nominatsiooni võitmise tõenäosus üle 90 protsendi ja võitis Lõuna-Carolina eelvalimised "(tal oli sellel eelvalimisel 28%, Gingrichil aga 40%).

Kas teate teisi selliseid suurandmete ebaõnnestumisi ? Mäletan umbes seda teadlane ennustas, et te ei saa säilitada rohkem kui 150 sõprussuhet. Ta oli tegelikult avastanud sõbratarsi piirmäära ainult ...

Mis puutub twitteri andmetesse või tegelikult veebist kogutud „suurtesse andmetesse”, siis ma sageli viivad inimesed oma andmete kogumise viisiga kaasa ka täiendava eelarvamuse. Vähestel on kogu Twitter. Neil on kindel alamhulk, mida nad ämblikustasid, ja see on nende andmekogumis järjekordne eelarvamus.

Andmete jagamine testikomplekti või ristkinnitamine ei aita tõenäoliselt palju. Teisel komplektil on sama eelarvamus. Ja suurandmete jaoks pean oma teabe nii tihedalt kokku suruma, et ma tõenäoliselt ei sobi üle.

Kuulsin hiljuti seda nalja, kus suurandmeteadlane avastas, et seal on umbes 6 sugu maailm ... ja ma oskan seda lihtsalt ette kujutada, et see juhtub ... "Mees, naine, ork, karvane, jah ja ei".

Milliseid meetodeid peame statistilise kehtivuse taastamiseks saama analüüsi, eriti kui proovite ennustada midagi väljaspool "big data" andmekogumit?

Kaks vastused:
Frank Harrell
2012-02-09 19:47:52 UTC
view on stackexchange narkive permalink

Teie hirmud on hästi põhjendatud ja läbinägelikud. Yahoo ja tõenäoliselt mitmed teised ettevõtted teevad kasutajatega randomiseeritud katseid ja teevad seda hästi. Vaatlusandmed on aga raskustes. On levinud väärarusaam, et valimi suurenedes probleemid vähenevad. See kehtib dispersiooni kohta, kuid kallutatus jääb konstantseks, kui n suureneb. Kui eelarvamus on suur, võib väga väike tõeliselt juhuslik valim või randomiseeritud uuring olla väärtuslikum kui 100 000 000 vaatlust.

Suurandmed on tõenäoliselt üks valdkond, kus kallutatud hajumise hajutamisest pole abi - olulisem on andmete kvaliteet ja andmete haldamine. Seda seetõttu, et me ei saa loota, et teame kõiki andmepunkte või isegi erijuhtumeid - lihtsalt liiga palju neist
Joris Meys
2012-02-11 19:53:14 UTC
view on stackexchange narkive permalink

Eksperimentaalses kavandamises ja analüüsis on mitmeid tehnikaid, mis aitavad teil kallutatust vähendada, kuid see taandub alati samale: peab teadma, mida ta teeb. Suurandmete analüüsil on sama probleem kui igal teisel andmete analüüsil; see kannatab hüpoteeside puudumise tõttu.

Selge näide on mitmekordne regressioon astmeliselt muutuva valikuga. Ütlemata väga tore, kuid mõõdetud statistiliste seaduste kohaselt määravad mõõdetud statistilised seadused, et mõned neist näitavad olulist seost, kui neid hinnata, vaadates, kas vastav koefitsient erineb oluliselt nullist. Nii et mida rohkem muutujaid teie andmekogumis on, seda suurem on võimalus leida kaks, mis näitavad mingit (mõttetut) seost. Ja mida suurem on teie andmekogum, seda suurem on võimalus mõttetute mudelite jaoks nt väikese segava efekti tõttu. Kui testite paljusid mudeleid (ja isegi ainult 10 muutujat, mis võivad olla terve hulk mudeleid), leiate suure tõenäosusega vähemalt ühe märkimisväärse. Kas see tähendab midagi? Ei.

Mida peaks siis tegema? Kasutage oma aju:

  • sõnastage enne andmete kogumist hüpotees ja kontrollige seda hüpoteesi. See on ainus viis veenduda, et teie statistika tegelikult lugu räägib.
  • Enne mõne testi tegemist kasutage oma variatsioonide kihistamiseks kovariaate. Rumal näide: kui teie andmekogus on 1000 meest ja 100 naist, valige juhuslikult 50, kui soovite rääkida keskmisest populatsioonist. See on tegelikult asi, kus suured andmed on kasulikud: teil on proovide tegemiseks rohkem kui piisavalt.
  • Kirjeldage testpopulatsiooni põhjalikult, nii et on selge, millise populatsiooni jaoks teie järeldused on formuleeritud.
  • Kui kasutate oma suurt andmekogumit uurimise eesmärgil, proovige hüpoteese, mille selle uurimise käigus välja pakkusite, uue ja erineva andmekogumi, mitte ainult alamhulga kogutud andmetest. Ja testige neid uuesti, kasutades kõiki vajalikke ettevaatusabinõusid.

Need asjad on kõik ilmsed ja tuntud. Heck, juba 1984. aastal näitasid Rosenbaum ja Rubin, kuidas kalduvusskoore kasutada vaatlusuuringute kallutatuse vähendamiseks, ja see on enamus suuri andmekogumeid: vaatlusandmed. Feng jt uuemates töödes propageeritakse ka Mahalanobise distantsi kasutamist. Ja tegelikult kirjutas üks minu statistikakangelane Cochran selle probleemi kohta ülevaate juba 1973. aastal! Või mis saab Rubinist, kes tutvustas mitmemõõtmelise sobitatava valimi ja regressiooni korrigeerimist juba 1979. aastal. Vanu väljaandeid alahinnatakse tõsiselt ja ignoreeritakse liiga sageli, kindlasti sellises valdkonnas nagu statistika.

Kõik nendel tehnikatel on plusse ja miinuseid ning tuleb mõista, et kallutatuse vähendamine ei ole sama mis kallutatuse kaotamine. Aga kui olete teadlik:

  • mida soovite testida ja
  • kuidas te seda teete

suured andmed on mitte ettekääne, et tulla valede tulemustega.


Redigeeritud pärast @ D.W (parandus) märkust. kes juhtis tähelepanu sellele, et ma kasutasin terminit "overfitting" vales kontekstis.

"mida suurem on teie andmekogum, seda suurem on võimalus mõttetuks ülekoormamiseks" - tegelikult on see tagurpidi. Mida suurem on võimalike mudelite kogum, seda suurem on võimalus üle sobitada (kõik ülejäänud on võrdsed). Mida suurem on andmekogum, seda väiksem on * võimalus üle paigaldada (kõik ülejäänud on võrdsed).
@D.W. Kuidas see nii on? Tegelikult, kui simulatsioonis on absoluutne sõltumatus, on väikeste ja suurte andmekogumitega märkimisväärsel mudelil sama palju võimalusi (lihtne simulatsioon näitab teile seda). Alas, ma pole veel kohanud andmekogumit, kus iseseisvus oleks täiuslik. Sel hetkel, kui teil on näiteks väga väike segane efekt, annavad suured andmekogumid tõenäoliselt mõttetuid olulisi tulemusi kui väikesed andmekogumid.
Hea vastus - teie kommentaar oluliste efektide leidmise kohta annab kokkutõmbumismeetoditele hea põhjenduse mudeli valimise sisse- või välja-meetodite asemel.
@D.W. teeb avaldust üleliigse paigaldamise kohta ja tundub õige - eriti kuna suurem on andmekogum, on suurem võimalus andmete alamhulkade ristvalideerimise alandamiseks. Joris Meys teeb avalduse statistilise olulisuse kohta. See on ka õige. Kuid suurtes andmekogumites on statistiline olulisus vaieldav - oluline on efekti suurus, sest peaaegu kõik on "statistiliselt oluline".
@zbicyclist Väga õige tähelepanek. Tunnistan, et tõlgendasin D.W-d valesti ja kasutas terminit overfitting vales kontekstis. Seisan parandatuna.


See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 3.0-litsentsi eest, mille all seda levitatakse.
Loading...