Otkrijte koji model linearne regresije najbolje odgovara vašim podacima
Inspiriran pitanjem iz prethodnog članka, želim se pozabaviti problemom koji se često javlja nakon isprobavanja različitih linearnih modela: Morate odabrati koji model želite koristiti. Preciznije, Khalifa Ardi Sidqi pitao je:
“Kako odrediti koji model najbolje odgovara mojim podacima? Gledam li samo kvadrat R, SSE itd.? Kako će se interpretacija tog modela (kvadratni, korijen, itd.) Vrlo razlikovati, neće li to biti problem? "Na drugi dio pitanja lako se može odgovoriti. Prvo pronađite model koji najbolje odgovara vašim podacima, a zatim protumačite njegove rezultate. Dobro je ako imate ideje kako se vaši podaci mogu objasniti. Međutim, protumačite samo najbolji model.
Ostatak ovog članka obradit će prvi dio njegova pitanja. Imajte na umu da ću podijelitimoj pristupo tome kakoza odabir modela. Postoji više načina, a drugi bi to mogli učiniti drugačije. Ali opisat ću način koji mi najbolje odgovara.
Uz to, ovaj se pristup odnosi samo na jednovarijantne modele . Univarijatni modeli imaju samo jednu ulaznu varijablu. Planiram daljnji članak, gdje ću vam pokazati kako procijeniti multivarijatne modele s više ulaznih varijabli. Međutim, usredotočimo se danas na osnove i univarijantne modele.
Kako bih vježbao i stekao osjećaj za ovo, napisao sam mali ShinyApp. Koristite ga i igrajte se s različitim skupovima podataka i modelima. Primijetite kako se parametri mijenjaju i postanite sigurniji procjenom jednostavnih linearnih modela. Napokon, aplikaciju možete koristiti i kao okvir za svoje podatke. Samo ga kopirajte s Githuba.

Koristite Prilagođeni R2 za jednovarijantne modele
Ako koristite samo jednu ulaznu varijablu, adjusted R2
vrijednost vam daje dobar pokazatelj izvedbe vašeg modela. To ilustrira koliko varijacije objašnjava vaš model.
Za razliku od jednostavnog R2
, adjusted R2
uzima u obzir broj ulaznih čimbenika. Kažnjava previše ulaznih čimbenika i favorizira štedljive modele.
Na gornjoj snimci zaslona možete vidjeti dva modela s vrijednošću od 71,3% i 84,32%. Čini se da je drugi model bolji od prvog. Međutim, modeli s niskim vrijednostima i dalje mogu biti korisni jer su adjusted R2
osjetljivi na količinu šuma u vašim podacima. Kao takav, usporedite ovaj pokazatelj modela samo za isti skup podataka nego ga uspoređujući u različitim skupovima podataka.
Obično je malo potrebe za SSE
Prije nego što nastavite čitati, pobrinimo se da govorimo o istom SSE-u. Na Wikipediji, SSE se odnosi na zbroj kvadrata pogrešaka. U nekim se udžbenicima statistike, međutim, SSE može pozivati na objašnjeni zbroj kvadrata (upravo suprotno). Dakle, pretpostavimo da se za sada SSE odnosi na zbroj kvadrata pogrešaka.
Dakle, adjusted R2
približno je 1
- SSE / SST. SST koji se odnosi na ukupni zbroj kvadrata.
Ne želim dublje zaranjati u matematiku koja stoji iza ovoga. Ono što ti želim pokazati je da se računa sa SSE . Dakle , SSE vam obično ne daje nikakve dodatne informacije .adjusted R2
Nadalje, adjusted R2
normalizira se tako da je uvijek između nule i jedan. Tako je vama i drugima lakše protumačiti nepoznati model sa adjusted R2
75%, a ne SSE od 394 - iako obje brojke mogu objasniti isti model.
Pogledajte ostatke ili izraze pogrešaka!
Ono što se često zanemaruje su izrazi pogrešaka ili takozvani ostaci. Često vam kažu više od onoga što biste mogli pomisliti.
Reziduali su razlika između vaših predviđenih vrijednosti i stvarnih vrijednosti.
Njihova je korist što vam mogu pokazati i veličinu, i smjer vaših pogrešaka. Pogledajmo primjer :

Ovdje sam pokušao predvidjeti polinomni skup podataka s linearnom funkcijom. Analiza reziduala pokazuje da postoje područja u kojima model ima pristranost prema gore ili prema dolje.
Za t; 100, ostaci su iznad nule. Dakle, na ovom su području stvarne vrijednosti više od predviđenih vrijednosti - naš model ima prednapon prema dolje.50 < x &l
Za 100 < x &l
t; 150, međutim, ostaci su ispod nule. Stoga su stvarne vrijednosti niže od predviđenih vrijednosti - model ima pristranost prema gore.
Uvijek je dobro znati da li vaš model predlaže previsoke ili preniske vrijednosti. Ali obično ne želite imati ovakve uzorke.
Reziduali bi u prosjeku trebali biti nula (kao što je naznačeno srednjom vrijednosti) i trebali bi biti jednako raspoređeni. Predviđanje istog skupa podataka s polinomnom funkcijom od 3 degrees
sugerira mnogo bolje uklapanje:

Osim toga, možete primijetiti povećava li se odstupanje vaših pogrešaka. U statistici se to naziva Heteroscedastičnost. To možete lako popraviti robusnim standardnim pogreškama. Inače, vaši testovi hipoteze vjerojatno će biti pogrešni.
Histogram ostataka
Napokon, histogram sažima veličinu vaših pojmova pogreške. Pruža informacije o širini pojasa pogrešaka i pokazuje koliko često su se pogreške dogodile.


Gornje snimke zaslona prikazuju dva modela za isti skup podataka. U lijevom histogramu pogreške se javljaju u rasponu od -338
i 520
.
U desnom histogramu pogreške se javljaju unutar -293
i 401
. Dakle, outlieri su puno niži. Nadalje, većina pogrešaka u modelu desnog histograma bliža je nuli. Stoga bih favorizirao pravi model.
Sažetak
Pri odabiru linearnog modela treba imati na umu sljedeće čimbenike:
- Usporedite samo linearne modele za isti skup podataka.
- Pronađite model s visoko prilagođenim R2
- Provjerite ima li ovaj model jednako raspoređene ostatke oko nule
- Provjerite nalaze li se pogreške ovog modela u maloj širini pojasa


Ako imate pitanja, napišite komentar ispod ili me kontaktirajte. Cijenim vaše povratne informacije.