Küsimus:
Mis vahe on andmekaevandusel ja statistilisel analüüsil?
Brett
2010-08-11 10:31:51 UTC
view on stackexchange narkive permalink

Mis vahe on andmekaevandusel ja statistilisel analüüsil?

Mõne tausta jaoks on minu statistikaharidus olnud minu arvates pigem traditsiooniline. Esitatakse konkreetne küsimus, kavandatakse uuringuid ning kogutakse ja analüüsitakse andmeid, et sellest küsimusest veidi aru saada. Seetõttu olen alati olnud skeptiline minu arvates "andmete süvendamine", st mustrite otsimine suures andmekogumis ja nende mustrite kasutamine järelduste tegemiseks. Viimast kipun seostama andmekaevandusega ja olen alati pidanud seda mõnevõrra põhimõtteliseks (koos selliste asjadega nagu algoritmilised muutujate valiku rutiinid).

Sellegipoolest on andmekaevanduse kohta laialdane ja kasvav kirjandus. Sageli näen seda silti viidates konkreetsetele tehnikatele nagu klastrite moodustamine, puupõhine klassifikatsioon jne. Kuid vähemalt minu vaatenurgast saab neid tehnikaid andmete kogumis "lahti lasta" või kasutada struktureeritud viisil küsimus. Nimetaksin esimest andmekaevanduseks ja teist statistiliseks analüüsiks.

Töötan akadeemilises halduses ja mul on palutud teha mõned "andmekaevandused" probleemide ja võimaluste tuvastamiseks. Kooskõlas minu taustaga olid minu esimesed küsimused järgmised: mida soovite õppida ja millised on asjad, mis teie arvates kaasa aitavad? Nende vastusest selgus, et minul ja küsimuse esitajal olid erinevad ideed andmekaevanduse olemuse ja väärtuse kohta.

duplikaat? http://stats.stackexchange.com/questions/6/the-two-cultures-statistics-vs-machine-learning
Kui see on duplikaat, võin arvata, et andmete kaevandamine ja masinõpe on sama asi!
@George Dontas Jah, ma tulin siia kommentaaride lingilt, kui teine ​​küsimus lootuses näha ML-i ja ML-i vahel oli erinev.
Kuus vastused:
#1
+20
ars
2010-08-11 15:36:16 UTC
view on stackexchange narkive permalink

Jerome Friedman kirjutas mõni aeg tagasi referaadi: Data Mining and Statistics: What's the Connection? , mis on minu arvates huvitav.

Andmekaevandamine oli suures osas äriline mure ja ajendatud ärivajadustest (koos müüjate vajadusega müüa tarkvara- ja riistvarasüsteeme ettevõtetele). Üks asi, mida Friedman märkis, oli see, et kõik hüppeed "funktsioonid" pärinesid väljaspool statistikat - alates algoritmidest ja meetoditest, nagu närvivõrgud, kuni GUI-põhise andmete analüüsini - ja ükski traditsioonilistest statistilistest pakkumistest ei tundunud olevat osa neist süsteemidest (regressioon, hüpoteeside testimine jne). "Meie põhimetoodikat on suures osas ignoreeritud." Seda müüdi ka kasutaja juhituna vastavalt sellele, mida märkisite: siin on minu andmed, siin on minu "äriküsimus", andke mulle vastus.

Ma arvan, et Friedman üritas provotseerida. Ta ei arvanud, et metoodikal on andmekaevandamisel tõsiseid intellektuaalseid aluseid, kuid et see muutub ja statistikud peaksid selles pigem rolli mängima kui seda ignoreerima.

Minu enda arvates on see enam-vähem juhtunud. Jooned on hägused. Statistikud avaldavad nüüd andmekaevandusajakirjades. Andmekaevuritel näib olevat tänapäeval mingisugune statistiline väljaõpe. Kuigi andmekaevepaketid ei lase endiselt üldistatud lineaarseid mudeleid, on logistiline regressioon analüütikute seas hästi teada - lisaks klastrite ja närvivõrkudele. Optimaalne eksperimentaalne ülesehitus ei pruugi olla osa andmekaevanduse tuumast, kuid tarkvara saab p-väärtuste sülitamiseks lohutada. Edusammud!

See on suurepärane paber ja on kooskõlas minu seisukohaga, mis on andmekaevandamine ja kuidas see erineb statistikast. Saak on, see on aastast 1997! Pange tähele dokumendi süüdistust või soovitust, kuid seda, kuivõrd olen andmete kaevandamisega sammu pidanud. Tundub, et järele jõudmiseks pean haarama praeguse andmekaevanduse raamatu.
Heh, hoidsin kuupäeva meelega väljas, sest arvasin, et ajavahemiku märkamine oleks lõbus. :) Michael Berry ja Gordon Linoffi raamatud on päris head ja meeldivad statistikutele (pigem laiema eksponeerimise kui statistiliste tehnikate õppimise jaoks). Kui soovite tunda selle valdkonna hägusat, "ettevõtlikku" poolt, võib abi olla mõne pakkuja toote raamatu sirvimisest, näiteks SAS-i Enterprise Miner või SPSS-i Clementine. Ma ei soovitaks neid osta, kui te ei hakka tootega ise tegelema.
#2
+10
Shane
2010-08-11 20:20:39 UTC
view on stackexchange narkive permalink

Statistika ja andmekaevanduse erinevus on suures osas ajalooline, kuna need tulid erinevatest traditsioonidest: statistika ja arvutiteadus. Andmekaevandamine kasvas paralleelselt tööst tehisintellekti ja statistika valdkonnas.

Witten & Frank jaotises 1.4 on minu seisukoht kokku võetud, nii et tsiteerin seda pikemalt :

Mis vahe on masinõppel ja statistikal? Küünikud, vaadates pahaselt selle valdkonna ärilise huvi (ja hüppe) plahvatust, võrdsustavad andmekaevanduse statistika pluss turundusega. Tõepoolest, te ei tohiks otsida eraldusjoont masinõppe ja statistika vahel, sest andmete analüüsimise tehnikatest on olemas pidev - ja mitmemõõtmeline. Mõned pärinevad tavalistel statistikakursustel õpetatavatest oskustest ja teised on tihedamalt seotud masinaõppega, mis on tekkinud arvutiteadusest. Ajalooliselt on mõlemal poolel olnud üsna erinevad traditsioonid. Kui sunnitud osutama ühele rõhuasetuse erinevusele, võib juhtuda, et statistika on rohkem tegelenud hüpoteeside testimisega, masinõpe aga pigem üldistamisprotsessi sõnastamisega otsinguna võimalike hüpoteeside kaudu ...

Varem on masinõppes ja statistikas paralleelselt arenenud väga sarnased meetodid ...

Kuid nüüd on need kaks vaatenurka lähenenud.

NB1 IMO, andmekaevandamine ja masinõpe on väga tihedalt seotud mõisted. Ühes mõttes kasutatakse andmekaevanduses masinõppe tehnikaid. Ma näen neid termineid regulaarselt omavahel asendatavatena ja niivõrd, kuivõrd need erinevad, lähevad need tavaliselt kokku. Ma soovitaksin uurida nii paberit "Kaks kultuuri" kui ka muid algse küsimuse teemasid.

N.B.2 Terminil "andmekaevandamine" võib olla kõnekeeles negatiivne varjund, mis tähendab mõnes algoritmis andmetele lahti laskmist ilma kontseptuaalse arusaamiseta. Asi on selles, et andmete kaevandamine toob kaasa võltsitud tulemusi ja sobitamise üle. Tavaliselt väldin selle termini kasutamist mitteasjatundjatega rääkimisel ning kasutan sünonüümina masinõpet või statistilist õppimist.

N.B.2 kohta - arvan, et teil on andmekaevanduse konnotatsiooni osas täpselt õigus ja ma ei olnud masinaõppega ühendust loonud. Minu koolitus rõhutas alati liigse sobitamise, võltsimise ja juhuse ärakasutamise probleeme ning sellisena olen olnud DM-i suhtes skeptiline - ja olen siiani, võib-olla seni, kuni keegi mulle tegelikult ütleb, mida nad teevad ja KUIDAS. Aitäh.
Minu ainus küsimus ML / DM vahet tehes oleks see, et minu arvates on DM laiem. Näiteks sisaldavad OLAP ja sellega seotud tööriistad kaevandamistehnoloogiaid. Kuid need pärinevad pigem arvutiteaduse andmebaasipoolest kui masinõppest. Kaubanduse rolli andmekaevanduse "tähenduse" kujundamisel on raske eirata - see toob vajadusel sisse juhtimisteaduste, operatsiooniuuringute, masinõppe ja statistika elemente. See jätab ka mulje millestki õhkõrnast, kuid tavaliselt on see probleem puristidele, mitte praktikutele.
@ars: Olen nõus. Püüdsin seda veidi öelda öeldes: "andmekaevanduses kasutatakse masinõppe tehnikaid" (st. Andmekaevandamine on ülihulk). Teie seisukoht kommertsrakenduste kohta on samuti tähelepanelik. Ehkki mõni kommertsrakenduses võib mõni päev oma tööd nimetada millekski muuks (nt "andmeteadus").
Eks ma oleksin pidanud ütlema, et üritasin erinevusi täpsustada, selle asemel, et tegelikult teie kirjutatuga mõlgutada. Vabandused vale suunamise eest. Hea punkt aegade ja terminite muutmisel, näiteks "andmeteaduse" kasutuselevõtt. Kas üks Gelmani raamatutest ei alga midagi sellist nagu "statistika on andmeteadus"? Nii et nad varastavad statistikute käest. Jälle. :)
#3
+8
Neil McGuigan
2010-08-11 11:29:23 UTC
view on stackexchange narkive permalink

Andmekaevandus on statistika, mõningate väikeste erinevustega. Võite seda mõelda kui kaubamärgi ümberkujundamise statistikat, sest statistikud on suht imelikud.

Seda seostatakse sageli arvutusstatistikaga, st ainult asjadega, mida saate arvutiga teha.

Andmekaevurid varastasid märkimisväärse osa mitmemõõtmelistest statistikatest ja see on nende endi oma. Kontrollige mis tahes 1990. aastate mitmemõõtmelise raamatu sisukorda ja võrrelge seda uue andmekaeviraamatuga. Väga sarnane.

Statistika on seotud hüpoteeside testimise ja mudeli koostamisega, andmekaevandamine on aga pigem seotud prognoosimise ja klassifitseerimisega, olenemata sellest, kas on olemas arusaadav mudel.

Mis on duplikaat? Ma ei näe midagi ilmset.
Üsna sarnane sellele, mida ma arvasin:
Okei. Otsisin andmekaevandust, mitte masinõpet. Palun hääletage sulgemiseks, kui arvate, et see on duplikaat.
Hmm, nii et andmekaevandamine == masinõpe?
1) Ma ei näe comp stat vahet. Statistikud ei tee palju, mis ei vaja arvutit. Oletan, et mõtlete arvutuslikult intensiivseid protseduure, nagu iteratiivsed lahendused jne? Kuid siis on need levinud ka tänapäevases statistikatöös, mis pole andmete kaevandamine. 2) Olen enda (statistika) töös olnud huvitatud mudeli loomisest selgituste ja prognoosimiseks, olenevalt probleemist - ma poleks seda andmete kaevandamist kaalunud. 3) Jään järeldusele, et tänapäevane DM on statistika konkreetne rakendus, mis minu arvates on hea järeldus.
#4
+8
George Dontas
2010-08-11 19:37:07 UTC
view on stackexchange narkive permalink

Andmekaevandus on liigitatud kas kirjeldavaks või ennustavaks. Kirjeldav andmekaevandamine on massiivsete andmekogumite otsimine ja andmete ootamatute struktuuride või seoste, mustrite, suundumuste, klastrite ja kõrvaliste kohtade avastamine. Teisest küljest on ennustav ülesanne luua regressiooni, klassifitseerimise, mustrituvastuse või masinõppe ülesannete mudelid ja protseduurid ning hinnata nende mudelite ja protseduuride ennustavat täpsust, kui neid värsketele andmetele rakendada.

Mehhanism mustrite või struktuuri otsimiseks kõrgemõõtmelistes andmetes võib olla käsitsi või automatiseeritud; otsimine võib nõuda andmebaasi haldussüsteemi interaktiivset pärimist või see võib hõlmata visualiseerimistarkvara kasutamist andmete anomaaliate tuvastamiseks. Masinõppe mõistes on kirjeldavat andmekaevandamist kutsutud järelevalveta õppeks, ennustavat andmekaevandust aga juhendatud õppeks.

Enamik andmekaevanduses kasutatavaid meetodeid on seotud statistikas ja masinõppes välja töötatud meetoditega. . Nendest meetoditest on kõige olulisemad regressiooni, klassifitseerimise, klastrite moodustamise ja visualiseerimise üldised teemad. Andmekogumite tohutu suuruse tõttu keskenduvad paljud andmekaevanduse rakendused mõõtmete vähendamise tehnikatele (nt muutuja valik) ja olukordadele, kus kahtlustatakse kõrgemõõtmeliste andmete paiknemist madalamate mõõtmetega hüperlennukites. Hiljuti on tähelepanu pööratud mittelineaarsetel pindadel või kollektorites paiknevate kõrgemõõtmeliste andmete tuvastamise meetoditele.

Andmekaevanduses on ka olukordi, kus statistilisel järeldusel - selle klassikalises tähenduses - kas pole mingit tähendust või see on kahtlaselt kehtiv: esimene juhtub siis, kui meil on kogu populatsioon vastuste otsimiseks ja viimane toimub siis, kui andmekogum on pigem mugavuse valim kui juhuslik valim, mis on võetud mõnest suurest populatsioonist. Kui andmeid kogutakse aja jooksul (nt jaemüügitehingud, börsitehingud, patsiendi andmed, ilmaandmed), ei pruugi proovide võtmine olla mõttekas; Vaatluste ajaline järjestus on andmete genereeriva nähtuse mõistmiseks ülioluline ning kui vaatlusi käsitletakse sõltumatutena, kui need võivad olla väga korrelatsioonis, saab tulemusi kallutada.

Andmekaevanduse kesksed komponendid on - lisaks statistikateooriale ja -meetoditele - arvutus- ja arvutustõhusus, automaatne andmetöötlus, dünaamilised ja interaktiivsed andmete visualiseerimise tehnikad ning algoritmide väljatöötamine.

Andmekaevanduse üks olulisemaid probleeme on mastaapsus . Standardsete uurimis- ja kinnitusstatistiliste meetodite arvutamiseks väljatöötatud algoritmid töötati välja nii, et need oleksid väikestele ja keskmise suurusega andmekogumitele rakendatult kiired ja arvutuslikult tõhusad; ometi on näidatud, et enamik neist algoritmidest pole suurte andmekogumite käsitsemise ülesanne. Andmekogumite kasvades näitavad paljud olemasolevad algoritmid kalduvust dramaatiliselt aeglustada (või isegi peatuda).

#5
+6
Jeromy Anglim
2010-08-11 11:25:03 UTC
view on stackexchange narkive permalink

Kirjutasin varem postituse, kus tegin paar tähelepanekut, milles võrreldi andmete kaevandamist psühholoogiaga. Ma arvan, et need tähelepanekud võivad haarata mõningaid teie tuvastatud erinevusi:

  1. "Andmekaevamine näib olevat rohkem seotud prognoosimisega täheldatud muutujate abil kui latentsete muutujate põhjusliku süsteemi mõistmisega; psühholoogia on tavaliselt rohkem mures varjatud muutujate põhjusliku süsteemiga.
  2. Andmekaevandamine hõlmab tavaliselt massilisi andmekogumeid (nt 10 000 + rida), mis on kogutud muul otstarbel kui andmekaevandamise eesmärk. Psühholoogilised andmekogumid on tavaliselt väikesed (nt vähem kui 1000 või 100 rida) ja kogutud selgesõnaliselt uurimisküsimuse uurimiseks.
  3. Psühholoogiline analüüs hõlmab tavaliselt konkreetsete mudelite testimist. Mudelite automatiseeritud väljatöötamine ei ole teoreetiliselt huvitav. " - andmekaevandamine ja R
Ma arvan, et punktid 2 ja 3 on kasulikud kommentaarid ja on kooskõlas minu arvates kahe SA ja DM vahetegemisega. Ma pole nii kindel teie esimeses küsimuses. Olen teinud statistikatööd, kus mind huvitas põhjusliku seose mõistmine. Kuid olen teinud ka statistikat, kus ülesandeks oli võtta teada seoseid ja arendada mudeleid, mille ainus eesmärk oli ennustamine, kuid mis jagasid muid "andmekaevandamise" funktsioone.
#6
+4
robin girard
2010-08-11 12:27:27 UTC
view on stackexchange narkive permalink

Ma ei usu, et teie tehtud erinevus on tegelikult seotud andmete kaevandamise ja statistilise analüüsi erinevusega. Te räägite erinevusest uurimusliku analüüsi ja modelleerimise-ennustamise lähenemise vahel.

Ma arvan, et staatika traditsioon on üles ehitatud kõigi sammudega: uurimuslik analüüs, seejärel modelleerimine, siis hinnang, seejärel testimine, siis prognoosimine / järeldamine. Statistik teeb uurimusanalüüsi, et välja selgitada, kuidas andmed välja näevad (funktsiooni kokkuvõte R all!). Arvatavasti on andmepõhine haldamine vähem struktureeritud ja seda saab tuvastada uurimusliku analüüsiga. Kuid see kasutab statistikas olevaid tehnikaid, mis pärinevad hinnangust, prognoosimisest, klassifitseerimisest ...

Ma oskan seda osta. Andmekaevandamine on statistiliste võtete uurivam rakendamine. Ma arvan, et sellest eristamisest ei piisa. Kui ma teen EDA-d oma kavandatud katse 100 vaatluse komplekti põhjal, ei usu ma, et keegi seda andmete kaevandamiseks nimetaks?


See küsimus ja vastus tõlgiti automaatselt inglise keelest.Algne sisu on saadaval stackexchange-is, mida täname cc by-sa 2.0-litsentsi eest, mille all seda levitatakse.
Loading...