Kako čitati tablicu regresije

Što je regresija?

Regresija je jedan od najvažnijih i najčešće korištenih procesa analize podataka. Jednostavno rečeno, to je statistička metoda koja objašnjava snagu odnosa između ovisne varijable i jedne ili više neovisnih varijabli.

Ovisna varijabla može biti varijabla ili polje koje pokušavate predvidjeti ili razumjeti. Neovisna varijabla mogu biti polja ili podatkovne točke za koje mislite da bi mogle utjecati na ovisnu varijablu.

Pritom odgovara na nekoliko važnih pitanja -

  • Koje su varijable bitne?
  • U kojoj su mjeri ove varijable bitne?
  • Koliko smo sigurni u ove varijable?

Uzmimo primjer ...

Da bih bolje objasnio brojeve u regresijskoj tablici, smatrao sam da bi bilo korisno upotrijebiti uzorak podataka i proći kroz brojeve i njihovu važnost.

Koristim mali skup podataka koji sadrži GRE (test koji studenti polažu kako bi se smatrali prijemnim u gradskim školama u SAD-u) s ocjenom od 500 učenika i njihove šanse za prijem na sveučilište.

Budući da chance of admittanceovisi o GRE score, chance of admittanceovisna je varijabla i GRE scorenezavisna je varijabla.

Regresijska crta

Crtanje ravne crte koja najbolje opisuje odnos između GRE rezultata učenika i njihovih šansi za prijem daje nam linearnu liniju regresije . To je poznato kao linija trenda u raznim BI alatima. Osnovna zamisao crtanja ove crte je minimizirati udaljenost između podatkovnih točaka na datoj x koordinati i y koordinati kroz koju prolazi regresijska crta.

Regresijska linija olakšava nam predstavljanje odnosa. Temelji se na matematičkoj jednadžbi koja povezuje x-koeficijent i y-presjek.

Y- presjek je točka u kojoj crta siječe os y pri x = 0. To je također vrijednost koju bi model uzeo ili predvidio kada je x 0.

Koeficijenti daju utjecaj ili težinu varijable prema cijelom modelu. Drugim riječima, pruža količinu promjene zavisne varijable za jediničnu promjenu neovisne varijable.

Izračunavanje jednadžbe regresijske crte

Da bismo saznali presjek y presijecanja modela, produljimo liniju regresije dovoljno daleko dok ne presijeca os y pri x = 0. Ovo je naš presjek y i iznosi oko -2,5. Broj možda baš i nema smisla za skup podataka na kojem radimo, ali namjera je prikazati samo izračun presijecanja y.

Koeficijent za ovaj model bit će samo nagib regresijske crte i može se izračunati dobivanjem promjene u prihvatljivosti u odnosu na promjenu u GRE rezultatima.

U gornjem primjeru, koeficijent bi samo bio

m = (y2-y1) / (x2-x1)

I u ovom bi slučaju to bilo blizu 0,01.

Formula y = m * x + b pomaže nam u izračunavanju matematičke jednadžbe naše regresijske linije. Zamjenjujući vrijednosti za presjek y i nagib koji smo dobili produženjem regresione crte, možemo formulirati jednadžbu -

y = 0,01x - 2,48

-2,48 je preciznija vrijednost presijecanja y koju sam dobio iz regresijske tablice, kao što je prikazano kasnije u ovom postu.

Ova nam jednadžba omogućuje predviđanje i predviđanje šanse za prijem učenika kada je poznat njegov / njezin GRE rezultat.

Sad kad imamo osnove, krenimo na čitanje i tumačenje regresijske tablice.

Čitanje regresijske tablice

Regresijska tablica može se grubo podijeliti u tri komponente -

  • Analiza varijance (ANOVA): pruža analizu varijance u modelu, kao što naziv govori.
  • regresijska statistika: pružiti numeričke informacije o varijaciji i koliko dobro model objašnjava varijaciju za dane podatke / opažanja.
  • rezidualni izlaz: pruža vrijednost predviđenu modelom i razliku između stvarne promatrane vrijednosti ovisne varijable i njene predviđene vrijednosti regresijskim modelom za svaku podatkovnu točku.

Analiza varijance (ANOVA)

Stupnjevi slobode (df)

Regresija df je broj neovisnih varijabli u našem regresijskom modelu. Budući da u ovom primjeru razmatramo samo GRE rezultate, to je 1.

Preostali df je ukupan broj promatranja (redaka) skupa podataka oduzetih brojem procjenjivanih varijabli. U ovom se primjeru procjenjuju i GRE koeficijent rezultata i konstanta.

Preostali df = 500 - 2 = 498

Ukupni df - zbroj je regresije i zaostalih stupnjeva slobode, koji je jednak veličini skupa podataka minus 1.

Zbroj kvadrata (SS)

Regresija SS je ukupna varijacija u zavisnoj varijabli koja se objašnjava regresijskim modelom. To je zbroj kvadrata razlike između predviđene vrijednosti i srednje vrijednosti svih podatkovnih točaka.

∑ (ŷ - ӯ) ²

Iz ANOVA tablice, regresijski SS je 6,5, a ukupni SS 9,9, što znači da regresijski model objašnjava oko 6,5 / 9,9 (oko 65%) svih varijabilnosti u skupu podataka.

Rezidualni SS - ukupna je varijacija zavisne varijable koja je regresijskim modelom ostala neobjašnjiva. Naziva se i zbrojem kvadrata pogreške i zbroj je kvadrata razlike između stvarnih i predviđenih vrijednosti svih podatkovnih točaka.

∑ (y - ŷ) ²

Iz tablice ANOVA, rezidualni SS je oko 3,4. Općenito, što je pogreška manja, to regresijski model bolje objašnjava varijaciju u skupu podataka, pa bismo obično željeli minimizirati ovu pogrešku.

Ukupni SS - zbroj je i regresije i rezidualnog SS ili za koliko bi šansa za prijem varirala ako se GRE rezultati NE uzimaju u obzir.

Srednje kvadratne pogreške (MS) - su srednja vrijednost zbroja kvadrata ili zbroja kvadrata podijeljenih sa stupnjevima slobode i za regresiju i za ostatke.

MS regresije = ∑ (ŷ - ӯ) ² / Reg. dfResidual MS = ∑ (y - ŷ) ² / rez. df

F - koristi se za testiranje hipoteze da je nagib neovisne varijable jednak nuli. Matematički se može izračunati i kao

F = MS regresije / Rezidualna MS

To se inače izračunava usporedbom F-statistike s F raspodjelom s regresijom df u stupnjevima brojitelja i zaostalim df u stupnjevima nazivnika.

Značaj F - nije ništa drugo do p-vrijednost za nultu hipotezu da je koeficijent neovisne varijable jednak nuli, kao i kod bilo koje p-vrijednosti, niska p-vrijednost ukazuje na to da postoji značajna veza između ovisnih i neovisnih varijabli.

Standardna pogreška - pruža procijenjenu standardnu ​​devijaciju raspodjele koeficijenata. To je iznos za koji se koeficijent razlikuje u različitim slučajevima. Koeficijent mnogo veći od njegove standardne pogreške podrazumijeva vjerojatnost da koeficijent nije 0.

t-Stat - je t-statistika ili t-vrijednost testa i njegova je vrijednost jednaka koeficijentu podijeljenom sa standardnom pogreškom.

t-Stat = Koeficijenti / standardna pogreška

Opet, što je koeficijent veći u odnosu na standardnu ​​pogrešku, to je veći t-Stat i veća je vjerojatnost da se koeficijent udaljava od 0.

p-vrijednost - t-statistika uspoređuje se s t raspodjelom da bi se odredila p-vrijednost. Obično uzimamo u obzir samo p-vrijednost neovisne varijable koja pruža vjerojatnost dobivanja uzorka najbliže onoj koja se koristi za izvođenje regresijske jednadžbe i provjeravamo je li nagib regresijske linije zapravo nula ili je koeficijent blizak dobiveni koeficijent.

Vrijednost p ispod 0,05 ukazuje na 95% pouzdanosti da nagib regresijske linije nije nula i stoga postoji značajan linearni odnos između ovisnih i neovisnih varijabli.

Vrijednost p veća od 0,05 ukazuje da nagib regresijske crte može biti nula i da na razini pouzdanosti od 95% nema dovoljno dokaza da postoji značajna linearna veza između ovisnih i neovisnih varijabli.

Budući da je p-vrijednost neovisne varijable GRE rezultata vrlo blizu 0, možemo biti izuzetno sigurni da postoji značajna linearna veza između GRE rezultata i šanse za prijem.

Donja i Gornja 95% - Budući da uglavnom koristimo uzorak podataka za procjenu regresijske crte i njezinih koeficijenata, oni su uglavnom aproksimacija pravih koeficijenata, a zauzvrat prava linija regresije. Donja i gornja granica od 95% daju 95. interval pouzdanosti donje i gornje granice za svaki koeficijent.

Budući da je interval pouzdanosti od 95% za GRE rezultate 0,009 i 0,01, granice ne sadrže nulu, pa tako možemo biti 95% sigurni da postoji značajna linearna veza između GRE rezultata i šanse za prijem.

Imajte na umu da se razina pouzdanosti od 95% široko koristi, ali razina koja nije 95% moguća je i može se postaviti tijekom regresijske analize.

Statistika regresije

R² (R kvadrat) - predstavlja snagu modela. Prikazuje količinu varijacije u zavisnoj varijabli koju objašnjava neovisna varijabla i uvijek leži između vrijednosti 0 i 1. Kako se R² povećava, model objašnjava sve veće varijacije u podacima i bolji model kod predviđanja. Nizak R² značio bi da model ne odgovara podacima dobro i da neovisna varijabla ne objašnjava dobro varijaciju u zavisnoj varijabli.

R² = Regresijski zbroj kvadrata / Ukupni zbroj kvadrata

Međutim, R kvadrat ne može odrediti jesu li procjene i predviđanja koeficijenta pristrana, zbog čega morate procijeniti rezidualne grafikone o kojima će biti riječi kasnije u ovom članku.

R-kvadrat također ne pokazuje je li regresijski model primjeren. Možete dobiti nisku vrijednost R-kvadrata za dobar model ili visoku vrijednost R-kvadrata za model koji ne odgovara podacima.

R², u ovom slučaju, iznosi 65%, što znači da GRE rezultati mogu objasniti 65% varijacije u šansi za prijem.

Prilagođeni R² - je R² pomnožen s faktorom prilagodbe. To se koristi prilikom usporedbe različitih regresijskih modela s različitim neovisnim varijablama. Ovaj broj dobro dođe dok se odlučuje o pravim neovisnim varijablama u višestrukim regresijskim modelima.

Višestruki R - pozitivan je kvadratni korijen R²

Standardna pogreška - razlikuje se od standardne pogreške koeficijenata. Ovo je procijenjena standardna devijacija pogreške regresijske jednadžbe i dobra je mjera točnosti regresijske crte. To je kvadratni korijen preostalih srednjih kvadrata pogrešaka.

Std. Pogreška = √ (Res.MS)

Preostali izlaz

Rezidualni su razlike između stvarne vrijednosti i predviđene vrijednosti regresijskog modela, a rezidualni izlaz je predviđena vrijednost ovisne varijable regresijskim modelom i rezidualna za svaku točku podataka.

Kao što i samo ime govori, rezidualna ploha je raspršena ploha između rezidualne i neovisne varijable, što je u ovom slučaju GRE rezultat svakog učenika.

Rezidualna je crta važna za otkrivanje stvari poput heteroskedastičnosti , nelinearnosti i odstupanja . Postupak njihovog otkrivanja ne raspravlja se u sklopu ovog članka, ali činjenica da rezidualna parcela za naš primjer ima slučajno raspršene podatke pomaže nam u utvrđivanju činjenice da je odnos između varijabli u ovom modelu linearan.

Namjera

Namjera ovog članka nije izgraditi djelotvorni regresijski model, već pružiti opis svih regresijskih varijabli i njihove važnosti po potrebi s uzorkom podataka u regresijskoj tablici.

Iako ovaj članak daje objašnjenje s jednom varijablom linearne regresije kao primjer, imajte na umu da bi neke od tih varijabli mogle imati veću važnost u slučajevima s više varijabli ili u drugim situacijama.

Reference

  • Skup podataka za upis na postdiplomske studije
  • 10 stvari o čitanju regresijske tablice
  • Osvježavanje regresijske analize