Küsimus:
Miks kasutatakse loendamisandmete jaoks Poissoni regressiooni?
zaxtax
2010-09-24 00:38:40 UTC
view on stackexchange narkive permalink

Saan aru, et teatud andmekogumite puhul, näiteks hääletamine, toimib see paremini. Miks kasutatakse Poissoni regressiooni tavalise lineaarse regressiooni või logistilise regressiooni asemel? Mis on selle matemaatiline motivatsioon?

Veel ühe vaatenurga saamiseks vaadake minu vastust sellele postitusele: http://stats.stackexchange.com/questions/142338/goodness-of-fit-and-which-model-to-choose-linear-regression-or-poisson/142353#142353
Viis vastused:
#1
+56
Stephan Kolassa
2010-09-24 01:42:46 UTC
view on stackexchange narkive permalink

Poissoni hajutatud andmed on sisuliselt täisarvuga, mis on loendusandmete jaoks mõistlik. Tavalised väikseimad ruudud (OLS, mida te nimetate "lineaarseks regressiooniks") eeldab, et tõelised väärtused on tavaliselt jaotatud eeldatava väärtuse ümber ja võivad võtta mis tahes reaalse väärtuse, nii positiivse kui negatiivse, täisarvu või murdosa. Lõpuks töötab logistiline regressioon ainult andmete puhul, mille väärtus on 0–1 (TÕENE-VÄÄR-väärtus), näiteks „on haigus” versus „pole seda haigust”. Seega on Poissoni jaotus loendusandmete jaoks kõige mõistlikum.

See tähendab, et normaalne jaotus on andmete puhul, mille keskmine on üle 30, sageli üsna hea ligikaudne suhe Poissoni omaga. Ja regressiooniraamistikus, kus teil on loendit mõjutavaid ennustajaid, võib OLS oma normaaljaotusega olla hõlpsam ja tegelikult üldisem, kuna Poissoni jaotus ja regressioon eeldavad, et keskmine ja dispersioon on võrdsed, samas kui OLS saab hakkama ebavõrdsete keskmiste ja variatsioonidega - erinevate keskmiste ja variatsioonidega loendiandmete mudeli jaoks võiks kasutada näiteks negatiivset binoomjaotust.

Pange tähele, et lihtsalt OlS-iga sobitamine ei vaja normaalsust - kui parameetrite põhjal järeldate, on vaja normaaljaotuse eeldust
@Dason: Ma seisan parandatud.
Kui kasutate dispersioonianalüüsi Huberi / Valge / Sandwichi hinnangut, saate keskmise dispersiooni eelduse leevendada
@Dason Kuigi see pole rangelt nõutav, annab sobiva mudeli õige vormi kasutamine peaaegu alati parema hinnangu ja näete seda jääkide tükkidena.
#2
+26
Matt Parker
2010-09-24 01:52:16 UTC
view on stackexchange narkive permalink

Põhimõtteliselt on see tingitud sellest, et lineaarne ja logistiline regressioon teeb valesid eeldusi selle kohta, kuidas loendustulemused välja näevad. Kujutlege oma mudelit kui väga rumalat robotit, kes järgib teie käske järeleandmatult, ükskõik kui jaburad need tellimused ka poleks; sellel puudub täielikult oskus hinnata seda, mida talle räägite. Kui ütlete oma robotile, et midagi sellist nagu hääled jagunevad pidevalt negatiivsest lõpmatusest lõpmatuseni, siis tema arvates on hääled sellised ja see võib anda teile mõttetuid ennustusi (Ross Perot saab eelseisvatel valimistel -10 469 häält).

Ja vastupidi, Poissoni jaotus on diskreetne ja positiivne (või null ... null loetakse positiivseks, jah?). See sunnib teie roboti minimaalselt vastuseid andma, mis päriselus tegelikult juhtuda võivad. Need võivad olla head vastused või mitte, kuid need võetakse vähemalt võimalikust „antud häälte arvust“.

Muidugi on Poissonil omad probleemid: eeldatakse, et ka häältelugemismuutuja keskmine on selle dispersioon. Ma ei tea, kas ma olen kunagi kunagi näinud väljamõtlemata näidet, kus see tõsi oli. Õnneks on heledad inimesed välja pakkunud muid jaotusi, mis on samuti positiivsed ja diskreetsed, kuid mis lisavad parameetreid, mis võimaldavad dispersiooni, er, varieeruda (nt negatiivne binoomne regressioon).

#3
+5
Thylacoleo
2010-09-24 04:28:23 UTC
view on stackexchange narkive permalink

Matemaatiliselt alustades lihtsast eeldusest, et sündmuse tõenäosus määratletud intervallis $ T = 1 $ on $ \ lambda $, saate näidata eeldatavat sündmuste arvu intervallis $ T = t $ is on $ \ lambda.t $, on dispersioon ka $ \ lambda.t $ ja tõenäosusjaotus on
$$ p (N = n) = \ frac {(\ lambda.t) ^ {n} e ^ {- \ lambda.t}} {n!} $$

Selle ja maksimaalse tõenäosuse meetodi abil tegi & üldistatud lineaarsed mudelid (või mõne muu meetodi) ) jõuate Poissoni regressioonini.

Lihtsamalt öeldes on Poissoni regressioon mudel, mis sobib aluseks oleva juhusliku protsessi eeldustega, genereerides väikese arvu sündmusi kiirusega (st arv ajaühiku kohta), mille määravad teised mudeli muutujad.

#4
+3
Dason
2010-09-24 04:10:50 UTC
view on stackexchange narkive permalink

Teised on põhimõtteliselt öelnud sama, mida ma kavatsen, kuid ma mõtlesin, et lisan selle ka oma. See sõltub sellest, mida te täpselt teete, kuid meile meeldib palju probleeme käsitletud probleemi / andmeid kontseptualiseerida. See on veidi teistsugune lähenemine kui lihtsalt päris hästi ennustava mudeli ehitamine. Kui proovime toimuvat kontseptualiseerida, on mõttekas modelleerida andmeid, kasutades mitte-negatiivset jaotust, mis paneb massi ainult täisarvu väärtusteks. Meil on ka palju tulemusi, mis tähendavad sisuliselt seda, et öelda, et teatud tingimustel levitatakse loendusandmeid tõesti poissonina. Nii et kui meie eesmärk on probleemi kontseptualiseerida, on mõistlik kasutada poissoni vastusemuutujana. Teised on välja toonud muud põhjused, miks see on hea mõte, kuid kui proovite tõesti probleemi kontseptualiseerida ja tõesti mõista, kuidas teie loodud andmeid võiks genereerida, on poissoni regressiooni kasutamisel mõnes olukorras palju mõtet.

#5
+2
crx
2010-09-24 01:28:49 UTC
view on stackexchange narkive permalink

Minu arusaam on peamiselt seetõttu, et loendused on alati positiivsed ja diskreetsed, saab Poisson sellised andmed ühe parameetriga kokku võtta. Peamine püüd on see, et dispersioon võrdub keskmisega.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...