"Big data" on kõikjal meedias. Kõik ütlevad, et "big data" on 2012. aasta jaoks suur asi, nt. KDNuggetsi küsitlus 2012. aasta kuumadel teemadel. Kuid mul on siin sügavad mured. Suurandmete korral näivad kõik olevat õnnelikud, kui saavad midagi välja. Kuid kas me ei riku kõiki klassikalisi statistikapõhimõtteid, nagu hüpoteeside testimine ja esinduslik valim?
Niikaua kui prognoosime ainult sama andmekogumi kohta, peaks see olema hea. Nii et kui ma kasutan Twitteri andmeid Twitteri kasutaja käitumise ennustamiseks, on see ilmselt okei. Kuid Twitteri andmete kasutamine nt. Valimistel jäetakse täielikult tähelepanuta asjaolu, et Twitteri kasutajad ei ole kogu elanikkonna jaoks esinduslik valim. Lisaks ei suuda enamik meetodeid tegelikult eristada tõelist "rohujuuretasandi" meeleolu ja kampaaniat. Ja twitter on kampaaniaid täis. Nii et Twitterit analüüsides jõuate kiiresti lihtsalt kampaaniate ja robotite mõõtmiseni. (Vt näiteks "Yahoo ennustab Ameerika poliitilisi võitjaid", mis on täis küsitlusi ja "meeleolude analüüs on palju parem". Nad ennustasid, et "Romneyl on nominatsiooni võitmise tõenäosus üle 90 protsendi ja võitis Lõuna-Carolina eelvalimised "(tal oli sellel eelvalimisel 28%, Gingrichil aga 40%).
Kas teate teisi selliseid suurandmete ebaõnnestumisi ? Mäletan umbes seda teadlane ennustas, et te ei saa säilitada rohkem kui 150 sõprussuhet. Ta oli tegelikult avastanud sõbratarsi piirmäära ainult ...
Mis puutub twitteri andmetesse või tegelikult veebist kogutud „suurtesse andmetesse”, siis ma sageli viivad inimesed oma andmete kogumise viisiga kaasa ka täiendava eelarvamuse. Vähestel on kogu Twitter. Neil on kindel alamhulk, mida nad ämblikustasid, ja see on nende andmekogumis järjekordne eelarvamus.
Andmete jagamine testikomplekti või ristkinnitamine ei aita tõenäoliselt palju. Teisel komplektil on sama eelarvamus. Ja suurandmete jaoks pean oma teabe nii tihedalt kokku suruma, et ma tõenäoliselt ei sobi üle.
Kuulsin hiljuti seda nalja, kus suurandmeteadlane avastas, et seal on umbes 6 sugu maailm ... ja ma oskan seda lihtsalt ette kujutada, et see juhtub ... "Mees, naine, ork, karvane, jah ja ei".
Milliseid meetodeid peame statistilise kehtivuse taastamiseks saama analüüsi, eriti kui proovite ennustada midagi väljaspool "big data" andmekogumit?