Küsimus:
Mis on otsustuspuude nõrk külg?
Łukasz Lew
2010-08-05 15:42:44 UTC
view on stackexchange narkive permalink

Otsustuspuud näivad olevat väga arusaadav masinõppemeetod. Pärast selle loomist saab inimene seda hõlpsasti kontrollida, mis on mõnes rakenduses suur eelis.

Mis on otsustuspuude praktilised nõrgad küljed?

Neli vastused:
#1
+37
Simon Byrne
2010-08-05 17:08:24 UTC
view on stackexchange narkive permalink

Siin on paar, kellele ma mõelda suudan:

  • nad võivad olla andmete tundlike väikeste häirete suhtes ülitundlikud: kerge muutuse tulemuseks võib olla hoopis teine ​​puu.
  • Need võivad kergesti üle istuda. Seda saab valideerimismeetodite ja pügamise abil eitada, kuid see on hall ala.
  • Neil võib olla probleeme valimivälise prognoosimisega (see on seotud sellega, et nad pole siledad).

Mõned neist on seotud multikollineaarsuse probleemiga: kui kaks muutujat mõlemad selgitavad ühte ja sama, valib otsustuspuu ahnelt parima, samas kui paljud muud meetodid kasutavad mõlemad. Ansamblimeetodid, nagu juhuslikud metsad, võivad seda teatud määral eitada, kuid kaotate arusaamise lihtsuse.

Suurim probleem on aga vähemalt minu seisukohast põhimõttelise tõenäosusraamistiku puudumine . Paljudel teistel meetoditel on näiteks usaldusvahemikud, tagumised jaotused jne, mis annavad meile aimu, kui hea mudel on. Otsustuspuu on lõppkokkuvõttes ad hoc heuristika, mis võib siiski olla väga kasulik (need sobivad suurepäraselt andmetöötluses esinevate vigade allikate leidmiseks), kuid on oht, et inimesed kohtlevad väljundit õige mudelina (minu arvates kogemusi, seda juhtub turunduses palju).

ML-i seisukohalt saab puid testida samamoodi nagu mis tahes muud klassifikaatorit (näiteks CV). Ikka näitab see pigem seda, et juhtus raske ülerõivastus ;-) Ka RF ei pääse multikollineaarsusest mitte sellepärast, et see oleks ansambel, vaid seetõttu, et selle puud on optimaalsed.
Otsustuspuude tõenäosusliku raamistiku leiate artiklist DTREE (URL: http://www.datamining.monash.edu.au/software/dtree/index.shtml), mis põhineb paberil "Wallace CS & Patrick JD," Coding " Otsustuspuud ", masinõpe, 11, 1993, lk 7-22".
Kas pole võimalik CI-d (ennustuste jaoks) saada alglaadimise abil?
@Simon Byrne, mul on küsimus teie kommentaari kohta "Kuid vähemalt minu arvates on suurim probleem põhimõttelise tõenäosusraamistiku puudumine". Andke andeks mu teadmatus, kuid kas võiksite palun osutada mõnele praktilisele põhimõttelisele tõenäosusraamistikule (eriti klassifitseerimise kontekstis). Mind huvitab see otsustuspuude piiratus väga.
@AmV, üks näide oleks logistiline regressioon: usalduse / usaldusväärsete intervallide saamiseks ja mudeli eelduste kontrollimiseks võime kasutada asjaolu, et iga vaatluse pärineb binoomist.
#2
+25
Rob Hyndman
2010-08-05 16:58:42 UTC
view on stackexchange narkive permalink

Üks puudus on see, et eeldatakse, et kõik mõisted on omavahel seotud. See tähendab, et teil ei saa olla kahte iseseisvat käituvat selgitavat muutujat. Iga puu muutuja on sunnitud suhtlema iga puu allpool asuva muutujaga. See on äärmiselt ebaefektiivne, kui on muutujaid, millel puudub või on nõrk interaktsioon.

ma ei tea, kas see on siiski praktiline piirang - muutuja jaoks, mis klassifitseerimist vaid nõrgalt mõjutab, on minu sisetunne, et puu tõenäoliselt ei jaotu selle muutujaga (st see ei saa olema sõlm), mis omakorda tähendab see on nähtamatu, kuivõrd otsustuspuu klassifikatsioon ulatub.
Ma räägin nõrkast vastastikmõjust, mitte nõrgast mõjust klassifitseerimisele. Koostoime on seos kahe ennustava muutuja vahel.
See võib olla ebaefektiivne, kuid puu struktuur saab sellega hakkama.
Seetõttu ütlesin, et pigem ebaefektiivne kui kallutatud või vale. Kui teil on palju andmeid, pole see eriti oluline. Kuid kui sobitada puu mõnesaja vaatluse alla, võivad eeldatavad vastastikmõjud ennustustäpsust oluliselt vähendada.
Nõus; Tahtsin seda lihtsalt esile tõsta. Sellegipoolest arvan, et ennustustäpsuse vähenemise saab õige treeningu abil eemaldada; fülogeneetikas vähendab sarnast probleemi (ahnust) Monte Carlo võimaliku puuruumi skaneerimine maksimaalse tõenäosuse leidmiseks - ma ei tea, kas statistikas on sarnast lähenemist, ilmselt ei häirinud see probleem kedagi ulatuses.
#3
+12
doug
2010-08-05 17:47:46 UTC
view on stackexchange narkive permalink

Minu vastus on suunatud CART-ile (C 4.5 / C 5 rakendused), kuigi ma ei usu, et sellega piirdun. Ma arvan, et see on see, mida OP silmas peab - tavaliselt mõtleb keegi seda, kui ütleb "Otsustepuu".

Otsustuspuude piirangud :


Madal jõudlus

„Toimivuse” all ei mõtle ma resolutsiooni, vaid täitmiskiirust . Viletsuse põhjuseks on see, et peate oma puu uuesti joonistama iga kord, kui soovite oma CART-mudelit värskendada - andmed on klassifitseeritud juba koolitatud puu järgi, mida soovite seejärel puule lisada (st kasutada treeningu andmepunkt) nõuab, et alustaksite üle - koolituseksemplare ei saa lisada järk-järgult, nagu enamiku teiste juhendatud õppealgoritmide puhul. Parim viis seda väita on see, et otsustuspuid ei saa koolitada võrgurežiimis, pigem ainult partiirežiimis. Ilmselgelt ei märka te seda piirangut, kui te oma klassifikaatorit ei värskenda, kuid siis eeldaksin, et näete eraldusvõime langust.

See on oluline, sest näiteks mitmekihiliste perceptronite puhul saab see pärast koolitust hakata andmeid klassifitseerima; neid andmeid saab kasutada ka juba koolitatud klassifikaatori häälestamiseks, kuigi koos otsustuspuudega peate ümber õppima kogu andmekogumi (koolitusel kasutatud algandmed ja kõik uued juhtumid).


Kehv eraldusvõime muutujate keeruliste suhetega andmete puhul

Otsustuspuud klassifitseeritakse tundmatu klassi andmepunkti järkjärgulise hindamise teel, üks sõlm korraga, alustades juursõlm ja lõpeb terminalisõlmega. Ja igas sõlmes on võimalikud ainult kaks võimalust (vasak-parem), seega on mõned muutujad, mida otsustuspuud lihtsalt õppida ei saa.


Praktiliselt piiratud klassifikatsiooniga tugev>

Otsustuspuud toimivad kõige paremini siis, kui nad on koolitatud andmepunkti määramiseks klassile - eelistatavalt üks vähestest võimalikest klassidest. Ma ei usu, et mul oleks kunagi olnud otsustuspuu kasutamist regressioonirežiimis (s.t pidev väljund, näiteks hind või eeldatav eluaegne tulu). See ei ole formaalne ega omane piirang, vaid praktiline. Enamasti kasutatakse otsustuspuid tegurite või diskreetsete tulemuste prognoosimiseks.


Kehv eraldusvõime pideva ootuse muutujatega

Jällegi on põhimõtteliselt ok, kui teil on sõltumatuid muutujaid nagu „allalaadimise aeg” või „arv päeva möödunud eelmisest veebiostust "- muutke lihtsalt oma jagamiskriteerium dispersiooniks (diskreetsete muutujate puhul on see tavaliselt Information Entropy või Gini Impurity), kuid minu kogemuste kohaselt töötavad otsustamispuud antud juhul harva. Erandiks on sellised juhtumid nagu "õpilase vanus", mis näeb välja pidev, kuid praktikas on väärtuste vahemik üsna väike (eriti kui need on esitatud täisarvudena).

+1 hea nurga korral kõne eest, mis tavaliselt ei saa piisavalt mängu.Olen näinud, et vähemalt suurte andmekogumite jaoks mõeldud tarkvaraplatvormidel (näiteks SQL Server) on otsustuspuudel probleeme jõudlusprobleemidega, vähemalt teiste andmekaevemeetoditega võrreldes.See jääb kõrvale kogu teie ümberõppimise küsimusest.Tundub, et see halveneb juhtudel, kui esineb ülereguleerimist (ehkki seda võib öelda paljude teiste kaevandamisalgoritmide kohta).
#4
+11
gung - Reinstate Monica
2012-06-29 04:27:55 UTC
view on stackexchange narkive permalink

Siin on häid vastuseid, kuid olen üllatunud, et ühte asja pole rõhutatud. CART ei tee andmete, eriti vastusemuutuja, kohta jaotuslikke eeldusi. Seevastu näiteks OLS regressioon (pideva vastuse muutujate puhul) ja logistiline regressioon (teatud kategooriliste reaktsioonimuutujate puhul) teeb tugevaid oletusi; täpsemalt, eeldab OLS-i regressioon, et vastus on jaotatud tingimuslikult normaalselt, ja logistiline eeldab, et vastus on binoomne või multinoomne.

Selliste eelduste puudumine on CARTil kahe otsaga asi. Kui need eeldused pole õigustatud, annab see lähenemisele suhtelise eelise. Teisest küljest, kui need eeldused kehtivad, saab neist faktidest lähtudes saada rohkem teavet. See tähendab, et standardsed regressioonimeetodid võivad olla informatiivsemad kui CART, kui eeldused vastavad tõele.



See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...