Küsimus:
Parima sobivusega rida ei tundu hea sobivus. Miks?
ConanTheGerbil
2018-03-11 17:12:09 UTC
view on stackexchange narkive permalink

Vaadake seda Exceli graafikut: the graph

Parima sobivusega „terve mõistuse” joon oleks peaaegu vertikaalne joon, mis sirgub otse punktide keskpunktist (redigeeritakse käsitsi punasega). Exceli poolt määratud lineaarne suundjoon on aga näidatud diagonaalne must joon.

  1. Miks on Excel tootnud midagi, mis (inimsilmale) näib olevat vale?
  2. Kuidas saaksin luua kõige paremini sobiva joone, mis näeks välja veidi intuitiivsem (st midagi sellist nagu punane joon)?

Update 1. Exceli arvutustabel koos andmete ja graafikaga on saadaval siin: näideandmed, CSV Pastebinis. Kas exceli funktsioonidena on saadaval tüüp1 ja tüüp 2 regressioonimeetodid?

Update 2. Andmed näitavad paragliderit, mis ronib soojal ajal tuulega triivides. Lõppeesmärk on uurida, kuidas tuule tugevus ja suund sõltuvad kõrgusest. Olen insener, EI matemaatik ega statistik, seega on nende vastuste teave andnud mulle palju rohkem uurimisvaldkondi.

Soovitud efekti võib saavutada ortogonaalse kaugusregressiooniga (Demingi regressioon).Ma pole kindel.
Kui aus olla, siis kahtlen, kas see on Demingi regressiooni ja OLSi küsimus.Vaadates $ x $ ja $ y $ väga väikest absoluutset varieeruvust, arvan pigem, et see võib olla Exceli numbriline probleem.Kas saate oma küsimust andmete muutmiseks muuta?
@Stephen See pole numbriline küsimus.Korrelatsioon x ja y vahel on siin peaaegu 0 ja seetõttu on joon peaaegu horisontaalne.
See nähtus oli 19. sajandi üks olulisemaid statistilisi avastusi (kui mitte kogu aeg).Seda nimetatakse [regressiooniks keskmise suunas] (https://et.wikipedia.org/wiki/Regression_toward_the_mean).Tõepoolest, see on just põhjus, miks seda statistilist protseduuri nimetatakse "regressiooniks"!
Tundub, et ortogonaalne taandareng on see, mida soovite.Heitke pilk [sellele pildile] (https://i.stack.imgur.com/3Cc5f.png): pruun joon on tavaliste väikseimate ruutude tulemus, roheline aga ortogonaalse taandarengu tulemus.
Peaksin lisama, et peamine põhjus, miks sobivus nii erinev välja näeb, on see, et süžee nii suurendab skaalat y-teljel.Joonistades selle nii, et mõlemad skaalad on proportsionaalsed standardse standardhälbega, võite jõuda täiesti erinevatele järeldustele selle kohta, milline sobivus on "terve mõistus".
@StephanKolassa - pange tähele, kui suur viga oleks, kui kasutaksite punast joont ja ennustaksite $ y $ väärtuseks $ x = -0,714 $;punane joon ei saa sobida kõige paremini vähimruutudeks.Excelis on kindlasti oma probleeme, kuid ma arvan, et see pole üks neist.
Sellega on kohapeal juba mitu korda tegeletud (nt vaadake [siin] (https://stats.stackexchange.com/questions/225882/what-does-this-plot-tell-me-about-my-linear-model/226054 # 226054)).Kui saate aru, mis on regressioonijoon, on lihtne mõista, miks see on must joon.Esitage endale kaks küsimust: 1: kui suur on y keskmine väärtus, kui x on umbes 0,712?2. Mida ennustavad punane ja must joon, et see peaks olema?... [olen nüüd peatanud duplikaadi sulgemise, kuna teie andmetega on * konkreetseid * probleeme, millele tasuks oma küsimus uuesti keskenduda]
Mis juhtub, kui vahetate X ja Y muutujad enne andmete joonistamist?
@AlanCampbell mõtlesin sama asja, nii et proovisin seda prooviandmetega.Need andmed on juba pööratud ja annavad oodatava regressiooni.Kõnealuse graafiku probleemiks on see, et eeldatav joon ei kata x vahemikku ja kui seda laiendada, siis on see selgelt kaugel keskmisest (st y väärtus tegeliku regressiooni keskel)joon) vahemiku mõlemas otsas.
Lisasin vastuse R-s tehtud OLS vs peatelje regressiooniga - minu arvates on trendijoon peamine telje regressioon.
Kaheksa vastused:
Aksakal
2018-03-11 21:39:39 UTC
view on stackexchange narkive permalink

Kas on sõltuv muutuja?

Exceli trendijoon pärineb sõltuv muutuja "lat" regressioonist sõltumatu muutuja "lon". Selle, mida te nimetate "terve mõistuse jooneks", saab siis, kui te ei määra sõltuv muutujat ja kohtlete nii laius- kui ka pikkuskraadi võrdselt. Viimase saab PCA rakendades. Eelkõige on see nende muutujate kovariantsimaatriksi üks omavektoreid. Võite mõelda sellest kui joonest, mis vähendab lühimat kaugust igast antud $ (x_i, y_i) $ punktist sirgeni, st joonistate sirgega risti ja minimeerige iga vaatluse summa.

enter image description here

R-s saate seda teha järgmiselt.

  > para <- read.csv ("para.csv")
>i süžee (para)
>
> # käivitage PCA
> pZ = prcomp (para, auaste = 1)
> # pilk 1. arvutile
> pZ  $ pööramine
           PC1
lon 0,09504313
lat 0,99547316
>
> colMeans (para) # PCA oli tsentreeritud
       lon lat
-0,7129371 53,9368720
> # andmete taastamine 1. arvutist
> pc1 = t (pZ $  pöörlemine% *% t (pZ $ x))
> # keskus ja saade
> read (pc1 + t (t (rep (1123)))% *% c)
 

Excelis saadud trendijoon on sama mõistlik kui PCA-st pärinev vektor, kui mõistate, et Exceli regressioonis pole muutujad võrdsed. Siin minimeerite vertikaal kauguse $ y_i $ kuni $ y (x_i) $ , kus y-telg on laiuskraad ja x-telg on pikkuskraad.

Kas soovite muutujaid võrdselt käsitleda või mitte, sõltub eesmärgist. See pole andmete omane kvaliteet. Andmete analüüsimiseks peate valima õige statistilise tööriista, sel juhul valige regressiooni ja PCA vahel.

Vastus küsimusele, mida ei esitatud

Miks siis teie puhul ei tundu (regressiooni) trendijoon Excelis teie juhtumi jaoks sobivat tööriista? Põhjuseks on see, et trendijoon on vastus küsimusele, mida ei esitatud. Siit miks.

Exceli regressioon proovib hinnata rea ​​parameetreid $ lat = a + b \ korda lon $ . Nii et esimene probleem on see, et laiuskraad ei ole rangelt võttes isegi pikkuskraadi funktsioon (vt postituse lõpus olevat märkust) ja see pole isegi peamine küsimus. Tõeline häda on see, et sind ei huvita isegi paraglideri asukoht, vaid tuul.

Kujutage ette, et tuult polnud. Paraplaan teeks sama ringi ikka ja jälle. Milline oleks trendijoon? Ilmselt oleks see lame horisontaaljoon, selle kalle oleks null, kuid see ei tähenda veel, et tuul puhuks horisontaalsuunas!

Siin on simuleeritud joonis, kui piki y-telge puhub tugev tuul, samal ajal kui paraglider teeb täiuslikke ringe. Näete, kuidas lineaarne regressioon $ y \ sim x $ annab mõttetu tulemuse, horisontaalse trendijoone. Tegelikult on see isegi veidi negatiivne, kuid mitte märkimisväärne. Tuule suund on näidatud punase joonega:

enter image description here

Simulatsiooni R-kood:

  t = 1: 123
a = 1 # 1
b = 0 # 1/10
y = 10 * patt (t) + a * t
x = 10 * cos (t) + b * t

joonis (x, y, xlim = c (-60,60))
xp = -60: 60
read (b * t, a * t, col = 'punane')

mudel = lm (y ~ x)
read (xp, xp * model  $ koefitsiendid [2] + mudeli $  koefitsiendid [1])
 

Seega pole tuule suund selgelt trendijoonega joondatud. Need on muidugi seotud, kuid mitterivaalsel viisil. Seega minu väide, et Exceli trendijoon on vastus mõnele küsimusele, kuid mitte sellele, mille te esitasite.

Miks PCA?

Nagu märkisite, on paraglideri liikumisel vähemalt kaks komponenti: tuulega triiv ja paraplaaniga juhitav ümmargune liikumine. See on selgelt nähtav, kui ühendate oma maatüki punktid:

enter image description here

Ühelt poolt on ümmargune liikumine teie jaoks tõeliselt häiriv: teid huvitab tuul. Ehkki teisest küljest ei jälgi te tuule kiirust, vaid ainult paragliderit. Niisiis, teie eesmärk on järeldada vaadeldava paraglideri asukoha lugemisest jälgimatut tuult. See on täpselt olukord, kus sellised tegurid nagu tegurianalüüs ja PCA võivad olla kasulikud.

PCA eesmärk on eraldada mõned tegurid, mis määravad mitu väljundit, analüüsides väljundite korrelatsioone. See on efektiivne, kui väljund on seotud teguritega lineaarselt, mis juhtub ka teie andmetes: tuule triiv lisab lihtsalt ümmarguse liikumise koordinaate, seetõttu töötab siin PCA.

PCA seadistamine

Niisiis tegime kindlaks, et PCA-l peaks siin olema võimalus, kuid kuidas me selle tegelikult püstitame? Alustame kolmanda muutuja, aja lisamisega. Määrame igale 123 vaatlusele aja 1 kuni 123, eeldades konstantset proovivõtusagedust. 3D-graafik näeb andmete järgi välja, paljastades nende spiraalse struktuuri:

enter image description here

Järgmine graafik näitab paraglideri kujuteldavat pöörlemiskeskkonda pruunide ringidena. Näete, kuidas see triivib tuulega lat-lon lennukil, samal ajal kui selle ümber tiirutab sinise punktiga näidatud paraglider. Aeg on vertikaalteljel. Ühendasin pöörlemiskeskme paraplaani vastava asukohaga, näidates ainult kahte esimest ringi.

enter image description here

Vastav R-kood:

  teek (plotly)

 para <- read.csv ("para.csv")
 n = 24

   para $ t = 1: 123 # aja parameetri lisamine

   # käivitage PCA
     pZ3 = prcomp (para)
     c3 = colMeans (para) # PCA oli tsentreeritud
     # vaata veergudes olevaid arvuteid
       pZ3 $ pöörlemine
# saada kujuteldav pöörlemiskeskus
       pc31 = t (pZ3  $ rotation [, 1]% *% t (pZ3 $  x [, 1]))
     silm = pc31 + t (t (kordus (1,123)))% *% c3
     eyedata = data.frame (silm)

     p = plot_ly (x = para [1: n, 1], y = para [1: n, 2], z = para [1: n, 3], mode = "read + markerid", type = "scatter3d" )% >%
       küljendus (showlegend = FALSE, stseen = list (xaxis = list (pealkiri = 'lat'), yaxis = list (pealkiri = 'lon'), zaxis = list (pealkiri = 't')))% >%
     add_trace (x = silmadata [1: n, 1], y = silmadata [1: n, 2], z = silmadata [1: n, 3], režiim = "markerid", tüüp = "hajumine3d")
     jaoks (i ühes: n) {
         p = add_trace (p, x = c (eyedata [i, 1], para [i, 1]), y = c (eyedata [i, 2], para [i, 2]), z = c (eyedata [ i, 3], lõige [i, 3]), color = "must", mode = "read", type = "scatter3d")
       }

alamkrunt (p)
 

Paraplaani pöörlemiskeskme triivi põhjustab peamiselt tuul ning triivi tee ja kiirus on korrelatsioonis tuule suuna ja kiirusega, mis on jälgimatud huvitavad muutujad. Nii näeb triiv välja, kui seda prognoosida piklikule tasapinnale:

enter image description here

PCA regressioon

Nii jõudsime varem kindlaks, et regulaarne lineaarne regressioon ei tundu siin eriti hästi töötavat. Mõistsime ka, miks: kuna see ei kajasta põhiprotsessi, kuna paraglideri liikumine on väga mittelineaarne. See on ümmarguse liikumise ja lineaarse triivi kombinatsioon. Samuti arutasime, et selles olukorras võib tegurite analüüs olla kasulik. Siin on toodud ülevaade ühest võimalikust lähenemisviisist nende andmete modelleerimiseks: PCA regressioon. Aga rusikas, ma näitan teile PCA regressiooni fitted kõverat:

enter image description here

See on saadud järgmiselt. Käivitage PCA andmekogumil, millel on lisaveerg t = 1: 123, nagu varem arutletud. Saate kolm peamist komponenti. Esimene neist on lihtsalt t. Teine vastab lon veergule ja kolmas lat veergule.

Sobitan kaks viimast põhikomponenti muutujale kujul $ a \ sin (\ omega t + \ varphi) $ , kus $ \ omega, \ varphi $ eraldatakse komponentide spektraalanalüüsist. Neil on juhtumisi sama sagedus, kuid erinevad faasid, mis pole ümmargust liikumist arvestades üllatav.

see on kõik. Sobitatud väärtuste saamiseks taastatakse andmed sobivatest komponentidest, ühendades PCA pöörlemismaatriksi eeldatud põhikomponentidesse. Minu ülaltoodud R-kood näitab protseduuri osi ja ülejäänud saate hõlpsasti aru saada.

Järeldus

On huvitav näha, kui võimas on PCA ja muud lihtsad tööriistad, kui on tegemist füüsiliste nähtustega, mille aluseks olevad protsessid on stabiilsed ja sisendid muutuvad väljunditeks lineaarsete (või lineariseeritud) suhete kaudu. Nii et meie puhul on ümmargune liikumine väga mittelineaarne, kuid me lineariseerisime selle hõlpsalt, kasutades siinus / koosinus funktsioone aja t parameetril. Minu süžeed toodeti vaid mõne rea R-koodiga, nagu nägite.

Regressioonimudel peaks peegeldama alusprotsessi, siis võite ainult teie eeldada, et selle parameetrid on olulised. Kui see on tuules triiviv paraglider, siis peidab algne küsimuses sarnane lihtne hajutussüstal protsessi ajastruktuuri.

Ka Exceli regressioon oli ristlõikeanalüüs, mille puhul lineaarne regressioon töötab kõige paremini, samas kui teie andmed on aegridade protsess, kus vaatlused on järjestatud ajas. Siin tuleb rakendada aegridade analüüsi ja see tehti PCA regressioonis.

Märkused funktsiooni kohta

Kuna paraglider teeb ringe, on ühel laiuskraadil mitu laiuskraadi.Matemaatikas kaardistab funktsioon $ y = f (x) $ väärtuse $ x $ ühele väärtusele $ y $ .See on suhe paljudele ühele, mis tähendab, et mitu $ x $ võivad vastata $ y $ , kuidmitte mitu $ y $ vastab ühele $ x $ .Seetõttu pole $ lat = f (lon) $ rangelt öeldes funktsioon.

Hea saak spiraalsele struktuurile!Kaks kõrvalkommentaari: alternatiivse parameetrina on lihtsam töötada funktsiooniga $ a \ \ text {sin} \ \ omega {t} + b \ \ text {cos} \ \ omega {t} $.On palju juhtumeid, kus me valime keskmise perioodilisuse, mis pole põhiprobleemi jaoks huvitav ega asjakohane.
* Kas soovite neid kohelda võrdselt või mitte, sõltub eesmärgist.See pole andmete omane kvaliteet. * - Suurepärane punkt ja +1.
@NickCox, on õige, ka seda oleks vähem tööd olnud
Võib-olla tasub märkida, et PCA on peatelje regressiooni üldistamine olukorrale, kus teil on> 2 muutujat.Kuid kuna antud juhul on ainult 2 muutujat, oleks tehnika standardnimi peatelje regressioon (seda nimetatakse mõnikord ka ortogonaalseks regressiooniks või II tüübi regressiooniks).
mkt - Reinstate Monica
2018-03-11 17:51:24 UTC
view on stackexchange narkive permalink

Vastus on tõenäoliselt seotud sellega, kuidas otsustate vaimselt kaugust regressioonijooneni. Standardne (tüüp 1) regressioon minimeerib vea ruudus, kus viga arvutatakse vertikaalse kauguse jooneni põhjal.

2. tüübi regressioon võib olla analoogsem teie hinnanguga parima rea ​​kohta. Selles on miinimumini viidud ruutviga risti sirge kaugus . Sellel erinevusel on mitmeid tagajärgi. Üks oluline on see, et kui vahetate oma graafikul X- ja Y-telje ja muudate joone uuesti, saate 1. tüübi regressiooni muutujate vahel teistsuguse seose. 2. tüübi regressiooni korral jääb seos samaks.

Minu arvates on üsna palju vaieldud selle üle, kus 1. ja 2. tüüpi regressiooni kasutada, ja seetõttu soovitan enne rakendamise otsustamist hoolikalt lugeda erinevusi. 1. tüübi regressiooni soovitatakse sageli juhtudel, kui ühte telge kontrollitakse kas katseliselt või mõõdetakse vähemalt palju vähem veaga kui teist. Kui need tingimused ei ole täidetud, kaldub 1. tüübi regressioon kaldu 0 suunas ja seetõttu on soovitatav 2. tüüpi regressioon. Kuid mõlema telje piisava müra korral kaldub 2. tüübi regressioon ilmselt kallutama neid 1. Warton et al. (2006) ja Smith (2009) on head arutelu mõistmise allikad.

Pange tähele ka seda, et on olemas palju peenelt erinevaid meetodeid, mis kuuluvad 2. tüübi regressiooni laia kategooriasse (peatelje, vähendatud peatelje ja standardse põhitelje regressioon) ning et konkreetsete meetodite terminoloogia ei ole kooskõlas. p>

Warton, D. I., I. J. Wright, D. S. Falster ja M. Westoby. 2006. Kahemõõtmelised joondusmeetodid allomeetria jaoks. Biol. Ilm. 81: 259–291. doi: 10.1017 / S1464793106007007

Smith, R. J. 2009. Redutseeritud peatelje kasutamisest ja väärkasutamisest joone paigaldamiseks. Am. J. Phys. Anthropol. 140: 476–486. doi: 10.1002 / ajpa.21090


EDIT:

@amoeba juhib tähelepanu sellele, et seda, mida ma ülal nimetan 2. tüüpi regressiooniks, nimetatakse ka ortogonaalseks regressiooniks;see võib olla sobivam termin.Nagu ma eespool ütlesin, on selle valdkonna terminoloogia vastuoluline, mis nõuab lisahooldust.

Arutelu selle üle, kas kasutada 1. või 2. tüüpi?Pole midagi vaielda, kui teate, mis on teie eesmärk (objektiivne funktsioon või kaotuse funktsioon).Ja kui te seda ei tee, siis peaksite enne jätkamist selle selgitama.
Tüüp 2 annab ka mõttetuid tulemusi, kui mõlemad teljed kasutavad erinevaid ühikuid.
Kasutate tüüpe 1 ja tüüpi 2, nagu oleksid need tüüptingimused.Kas nad on?Ma pole kunagi juhtinud kedagi, kes tavalist regressiooni ja ortogonaalset regressiooni nimetaks "tüüp 1" ja "tüüp 2".
@amoeba Olen kohanud mitmeid viiteid neile viitamiseks, kuid tüüp 1 ja tüüp 2 olid minu valdkonnas kõige tavalisemad.Mul on hea meel, et seda muudeti üldisema terminoloogiaga.
@RichardHardy Loomulikult on oma konkreetse eesmärgi selgitamine kõige parem.Kuid nagu ma vastuses ütlesin, on minu * mulje * see, et nende kasutamise osas on käimas arutelu juhtumite alagrupis - ja need dokumendid, mida tsiteerin (nagu ka vastuolulised soovitused, mida retsensentidelt saan), näivad sedavälja.
@mkt, tänud selgituse eest.Tõepoolest, võib tekkida mõningane arutelu inimeste seas, kes pole kindlad, mida nad taga ajavad.Seal on arutelu keskmes see, kumb neist on nende teema eesmärgi jaoks asjakohasem.Tahtsin rõhutada, et pärast teie eesmärgi täpset määratlemist ei toimu arutelu, st teema eesmärk on tõlgitud statistikakeelde (mis on vältimatu, kui soovitakse kasutada statistilisi meetodeid).Nii et arvan, et oleme nõus, vaid rõhutame vaidluse erinevaid osi.
@RichardHardy Absoluutselt - teie seisukoht on hästi võetud.Täname, et te siia sisse chimpsite.
gnasher729
2018-03-12 04:23:33 UTC
view on stackexchange narkive permalink

Küsimus, millele Excel püüab vastata, on järgmine: "Eeldades, et y sõltub x-st, milline rida ennustab y-d kõige paremini".Vastus on, et y-i suurte variatsioonide tõttu ei saa ükski rida olla eriti hea ja see, mida Excel kuvab, on parim, mida saate teha.

Kui võtate oma pakutud punase joone ja jätkate seda kuni x = -0,714 ja x = -0,712, leiate, et selle väärtused on graafikust kaugel ja tohutu kaugus vastavatest y väärtustest.

Küsimus, millele Excel vastab, pole "milline rida on andmepunktidele kõige lähemal", vaid "milline rida on kõige parem ennustada y väärtusi x väärtuste põhjal" ja see teeb seda õigesti.

Täpselt nii.Aluseks olev eeldus on "x on antud, y mõõdetakse / ennustatakse".
Flounderer
2018-03-12 00:52:33 UTC
view on stackexchange narkive permalink

Ma ei taha teistele vastustele midagi lisada, kuid tahan öelda, et teid on eksinud halb terminoloogia, eriti mõnes statistikakursuses kasutatud mõiste "kõige paremini sobituv".

Intuitiivselt näeks "kõige paremini sobituv joon" välja nagu teie punane joon.Kuid Exceli toodetud rida ei ole "kõige sobivam rida";see isegi ei püüa olla.See on rida, mis vastab küsimusele: kui anda x väärtus, siis milline on minu parim võimalik ennustus y jaoks? või alternatiivina mis on iga x väärtuse keskmine y väärtus?

Pange tähele siin asümmeetriat x ja y vahel;nime "parim sobivus" kasutamine varjab seda.Nii teeb ka Exceli "trendijooni" kasutamine.

Seda on väga hästi selgitatud järgmisel lingil:

https://www.stat.berkeley.edu/~stark/SticiGui/Text/regression.htm

Võite soovida midagi enamat, nagu ülaltoodud vastuses nn tüüp 2 või Berkeley statistika kursuse lehel SD-rida.

Aganju
2018-03-12 01:39:24 UTC
view on stackexchange narkive permalink

Osa optilisest probleemist pärineb erinevatest skaaladest - kui kasutate mõlemal teljel sama skaalat, näeb see välja juba teistsugune.

Teisisõnu, saate ühe sellise telje skaala laiendades enamiku sellistest kõige paremini sobivatest joontest tunduda ebatundlikud.

Olen nõus, et see on vastus - väärtuste X vahemik on umbes 0,02 lai, kuid Y vahemik vaid umbes 0,005 - tegelikult peaks diagramm olema umbes neli korda nii lai kui kõrge ja oleks ilmne, etkõige paremini sobiks horisontaalselt.Kõnealune nähtus on erinevate skaalade tõttu puhtalt visuaalne.
@RemcoGerlich Võime nõustuda, et nagu küsimusest nähtub, pole graafi kuvasuhe kasulik.Kuid soovitus, et vajate neli korda laiemat graafikut, kuna arvuliselt on vahemikud selles vahekorras, on ebatõenäoline ja kindlasti mitte faktiline.Kui mõlema telje ühikuid muudetaks kordajaga 1000, kas soovitaksite kuvasuhet 4000 või 0,004?4x suhe on tõenäoliselt vaid erinevate üksuste kõrvalmõju.
Teised vastused annavad õige vastuse.See üks kahjuks mitte.Kui muudame väärtused ümber, nii et saame sama visuaalse pildi, kuid võrdsete telgedega, on see ikkagi "tüüp 1" vs "tüüp 2" sobivusprobleem.
Ta räägib "tervest mõistusest", mis sobib kõige paremini, mis on õige "inimsilmale".Ja siis on telgede mõõtkava muutmine peamine asi, mis on asjakohane.
Tal on oma mõte, mõnikord mõjutavad intuitiivse väljanägemist rumalad asjad, näiteks skaleerimine, kuigi see pole nii.Siin on meil tõeline ebakõla selle vahel, mida excel teeb ja mida OP soovib
Bryan
2018-03-14 12:00:35 UTC
view on stackexchange narkive permalink

Mõned üksikud on märkinud, et probleem on visuaalne - kasutatav graafiline skaleerimine annab eksitavat teavet. Täpsemalt öeldes on "lon" skaleerimine selline, et see näib olevat kitsas spiraal, mis viitab sellele, et regressioonijoon pakub kehva sobivust (hinnang, millega ma nõustun, et teie joonistatud punane joon annaks väiksemad ruuduvead, kui andmed oleksid kujundati esitatud viisil).

Allpool esitan Excelis loodud hajumisdiagrammi koos "lon" skaleerimise muutmisega, nii et see ei tekita teie hajumisplaadil tihedat spiraali. Selle muudatusega tagab regressioonijoon nüüd parema visuaalse sobivuse ja ma arvan, et see aitab demonstreerida, kuidas algse hajutisskeemi skaleerimine andis sobivuse eksitava hinnangu.

Ma arvan, et regressioon toimib siin hästi. Ma arvan, et keerukamat analüüsi pole vaja.

enter image description here

Kõigi huviliste jaoks olen andmed joonistanud kaardistamisvahendi abil ja näitanud andmetele sobitatud regressiooni. Punased punktid on salvestatud andmed ja roheline on regressioonijoon.

enter image description here

Ja siin on samad andmed hajutusdiagrammil koos regressioonijoonega; siin käsitletakse lat sõltuvana ja latide skoorid pööratakse ümber, et need sobiksid geograafilise profiiliga.

enter image description here

Regressioon ei näita tuule triivi suunda
Me teame ainult lat ja lon ning esitatud andmete puhul näitab see ühe muutust teise suhtes.
Mida see trendijoon siis tähistab?
Eeldades, et andmefaili esimene punkt on lähtepunkt, näib, et edasine ida kulgeb marsruudil veidi põhja pool.Andmed ei anna teavet tuule tugevuse ega kõrguse kohta, kuid annavad suuna - ida ja põhja vahel.
Parandus: kaardistustarkvara, mida ma kasutasin, nõuab lat-lon, kuid tema andmed on lon-lat, nii et tuule suund oleks ida poolt põhja poolt nõrk, st mida põhja poole edasi kulgeb (või väike lääne liikumine lõunasse) on kerge idapoolne liikuminereisinud).
teie regressioon sobib joonega ainult seetõttu, et vahetasite lati ja loni JA tuule suund on pikkuskraadi lähedal.kui tuul oleks piki laiuskraadi, ei õnnestuks regressioonil tuult näidata samamoodi, nagu OP puhul.OP on tuulest huvitatud ja taandareng seda üldiselt ei näita
Regressioonijoon näitab para-purilennuki üldist rada.See näitab, et tuul lükkas para-purilennukit veidi põhja ja ida suunas.See on lihtne analüüs, kuid see töötab nii, nagu on näidatud postitatud satelliidipildis.Need andmed ei saa lahendada Hemeli keerulisemaid küsimusi - tuule tugevust ja suunda kõrguse järgi -, sest vajalikke andmeid (kulunud aeg ja kõrgus) ei esitata, seega on igasugune väljamõeldud väärtustega analüüs spekulatsioon.
Tom Wenseleers
2018-03-20 03:37:01 UTC
view on stackexchange narkive permalink

Teie segi ajate tavalise väikseimate ruutude (OLS) regressiooni (mis minimeerib prognoositud väärtuste ruutu kõrvalekalde summa (vaadeldav-ennustatud) ^ 2) ja peatelje regressiooni (mis minimeerib risti asetseva vahemaa ruutude summa) iga punkti ja regressioonijoont, mõnikord nimetatakse seda II tüübi regressiooniks, ortogonaalseks regressiooniks või standardkomponendi regressiooniks).

Kui soovite võrrelda neid kahte lähenemist lihtsalt R-s, vaadake järele

  data = read.csv ("https://pastebin.com/raw/4TsstQYm")
nõuab (lmodel2)
fit = lmodel2 (lat ~ lon, andmed = andmed)
graafik (sobiv, meetod = "OLS") # tavaline väikseima ruudu regressioon
 

enter image description here

  graafik (sobivus, meetod = "MA") # põhitelje regressioon
 

enter image description here

Kõige intuitiivsem (teie punane joon) on vaid põhitelje regressioon, mis visuaalselt on tõepoolest kõige loogilisem, kuna see vähendab teie punktidega risti asetsevat kaugust. OLS-i regressioon minimeerib perpendikulaarse kauguse teie punktidest ainult siis, kui muutuja x ja y asuvad samal mõõteskaalal ja / või on sama viga (näete seda lihtsalt Pythagorase teoreemi põhjal). Teie puhul on y muutuja sellel palju rohkem levinud, sellest ka erinevus ...

Andrew Holmgren
2018-03-14 03:31:35 UTC
view on stackexchange narkive permalink

PCA vastus on parim, sest arvan, et just seda peaksite tegema, arvestades teie probleemi kirjeldust, kuid PCA vastus võib segi ajada PCA ja regressiooni, mis on täiesti erinevad asjad.Kui soovite seda konkreetset andmekogumit ekstrapoleerida, peate tegema regressiooni ja tõenäoliselt Demingi regressiooni (mis mõnikord läheb vist II tüübi järgi, pole sellest kirjeldusest kunagi kuulnud).Kuid kui soovite teada saada, millised suunad on kõige olulisemad (omavektorid) ja kui teil on mõõdik nende suhtelisest mõjust andmekogumile (omaväärtused), on PCA õige lähenemine.

See on enamasti rida kommentaare teiste vastuste kohta.Parem oleks kommenteerida igaüht otse.Ma ei näe, et @Aksakal vastus segaks PCA-d ja regressiooni üldse.
Tahtsin kommenteerida otse, kuid polnud piisavalt hea mainega.Ma ei arva, et Aksakal segab regressiooni, kuid arvas, et tasub OP-le välja tuua, et PCA ja regressioon on täiesti erinevad.


See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 3.0-litsentsi eest, mille all seda levitatakse.
Loading...