Naučite kako odabrati linearnu regresiju s najboljim učinkom za univarijantne modele

Otkrijte koji model linearne regresije najbolje odgovara vašim podacima

Inspiriran pitanjem iz prethodnog članka, želim se pozabaviti problemom koji se često javlja nakon isprobavanja različitih linearnih modela: Morate odabrati koji model želite koristiti. Preciznije, Khalifa Ardi Sidqi pitao je:

“Kako odrediti koji model najbolje odgovara mojim podacima? Gledam li samo kvadrat R, SSE itd.? Kako će se interpretacija tog modela (kvadratni, korijen, itd.) Vrlo razlikovati, neće li to biti problem? "

Na drugi dio pitanja lako se može odgovoriti. Prvo pronađite model koji najbolje odgovara vašim podacima, a zatim protumačite njegove rezultate. Dobro je ako imate ideje kako se vaši podaci mogu objasniti. Međutim, protumačite samo najbolji model.

Ostatak ovog članka obradit će prvi dio njegova pitanja. Imajte na umu da ću podijelitimoj pristupo tome kakoza odabir modela. Postoji više načina, a drugi bi to mogli učiniti drugačije. Ali opisat ću način koji mi najbolje odgovara.

Uz to, ovaj se pristup odnosi samo na jednovarijantne modele . Univarijatni modeli imaju samo jednu ulaznu varijablu. Planiram daljnji članak, gdje ću vam pokazati kako procijeniti multivarijatne modele s više ulaznih varijabli. Međutim, usredotočimo se danas na osnove i univarijantne modele.

Kako bih vježbao i stekao osjećaj za ovo, napisao sam mali ShinyApp. Koristite ga i igrajte se s različitim skupovima podataka i modelima. Primijetite kako se parametri mijenjaju i postanite sigurniji procjenom jednostavnih linearnih modela. Napokon, aplikaciju možete koristiti i kao okvir za svoje podatke. Samo ga kopirajte s Githuba.

Koristite Prilagođeni R2 za jednovarijantne modele

Ako koristite samo jednu ulaznu varijablu, adjusted R2vrijednost vam daje dobar pokazatelj izvedbe vašeg modela. To ilustrira koliko varijacije objašnjava vaš model.

Za razliku od jednostavnog R2, adjusted R2uzima u obzir broj ulaznih čimbenika. Kažnjava previše ulaznih čimbenika i favorizira štedljive modele.

Na gornjoj snimci zaslona možete vidjeti dva modela s vrijednošću od 71,3% i 84,32%. Čini se da je drugi model bolji od prvog. Međutim, modeli s niskim vrijednostima i dalje mogu biti korisni jer su adjusted R2osjetljivi na količinu šuma u vašim podacima. Kao takav, usporedite ovaj pokazatelj modela samo za isti skup podataka nego ga uspoređujući u različitim skupovima podataka.

Obično je malo potrebe za SSE

Prije nego što nastavite čitati, pobrinimo se da govorimo o istom SSE-u. Na Wikipediji, SSE se odnosi na zbroj kvadrata pogrešaka. U nekim se udžbenicima statistike, međutim, SSE može pozivati ​​na objašnjeni zbroj kvadrata (upravo suprotno). Dakle, pretpostavimo da se za sada SSE odnosi na zbroj kvadrata pogrešaka.

Dakle, adjusted R2približno je 1- SSE / SST. SST koji se odnosi na ukupni zbroj kvadrata.

Ne želim dublje zaranjati u matematiku koja stoji iza ovoga. Ono što ti želim pokazati je da se računa sa SSE . Dakle , SSE vam obično ne daje nikakve dodatne informacije .adjusted R2

Nadalje, adjusted R2normalizira se tako da je uvijek između nule i jedan. Tako je vama i drugima lakše protumačiti nepoznati model sa adjusted R275%, a ne SSE od 394 - iako obje brojke mogu objasniti isti model.

Pogledajte ostatke ili izraze pogrešaka!

Ono što se često zanemaruje su izrazi pogrešaka ili takozvani ostaci. Često vam kažu više od onoga što biste mogli pomisliti.

Reziduali su razlika između vaših predviđenih vrijednosti i stvarnih vrijednosti.

Njihova je korist što vam mogu pokazati i veličinu, i smjer vaših pogrešaka. Pogledajmo primjer :

Ovdje sam pokušao predvidjeti polinomni skup podataka s linearnom funkcijom. Analiza reziduala pokazuje da postoje područja u kojima model ima pristranost prema gore ili prema dolje.

Za t; 100, ostaci su iznad nule. Dakle, na ovom su području stvarne vrijednosti više od predviđenih vrijednosti - naš model ima prednapon prema dolje.50 < x &l

Za 100 < x &lt; 150, međutim, ostaci su ispod nule. Stoga su stvarne vrijednosti niže od predviđenih vrijednosti - model ima pristranost prema gore.

Uvijek je dobro znati da li vaš model predlaže previsoke ili preniske vrijednosti. Ali obično ne želite imati ovakve uzorke.

Reziduali bi u prosjeku trebali biti nula (kao što je naznačeno srednjom vrijednosti) i trebali bi biti jednako raspoređeni. Predviđanje istog skupa podataka s polinomnom funkcijom od 3 degreessugerira mnogo bolje uklapanje:

Osim toga, možete primijetiti povećava li se odstupanje vaših pogrešaka. U statistici se to naziva Heteroscedastičnost. To možete lako popraviti robusnim standardnim pogreškama. Inače, vaši testovi hipoteze vjerojatno će biti pogrešni.

Histogram ostataka

Napokon, histogram sažima veličinu vaših pojmova pogreške. Pruža informacije o širini pojasa pogrešaka i pokazuje koliko često su se pogreške dogodile.

Gornje snimke zaslona prikazuju dva modela za isti skup podataka. U lijevom histogramu pogreške se javljaju u rasponu od -338i 520.

U desnom histogramu pogreške se javljaju unutar -293i 401. Dakle, outlieri su puno niži. Nadalje, većina pogrešaka u modelu desnog histograma bliža je nuli. Stoga bih favorizirao pravi model.

Sažetak

Pri odabiru linearnog modela treba imati na umu sljedeće čimbenike:

  • Usporedite samo linearne modele za isti skup podataka.
  • Pronađite model s visoko prilagođenim R2
  • Provjerite ima li ovaj model jednako raspoređene ostatke oko nule
  • Provjerite nalaze li se pogreške ovog modela u maloj širini pojasa

Ako imate pitanja, napišite komentar ispod ili me kontaktirajte. Cijenim vaše povratne informacije.