Statistički obračun zaključaka: Frekventisti protiv Bayesijanaca

Zaključak

Statističko zaključivanje vrlo je važna tema koja pokreće suvremene algoritme strojnog učenja i dubokog učenja. Ovaj će vam članak pomoći da se upoznate s pojmovima i matematikom koji čine zaključak.

Zamislite da neke prijatelje želimo zavarati nepravednim novčićem. Imamo 10 novčića i želimo prosuditi je li bilo koji od njih nepravedan - što znači da će se pojavljivati ​​kao glave češće nego repovi, ili obrnuto.

Dakle, uzmemo svaki novčić, bacimo ga hrpu puta - recimo 100 - i zabilježimo rezultate. Stvar je u tome što sada imamo podskup mjerenja iz prave raspodjele (uzorak) za svaki novčić. Razmotrili smo stanje palca i zaključili da bi prikupljanje dodatnih podataka bilo vrlo zamorno.

Neobično je znati parametre prave distribucije. Često želimo iz uzorka zaključiti istinske parametre populacije.

Dakle, sada želimo procijeniti vjerojatnost slijetanja novčića na Heads. Zanima nas srednja vrijednost uzorka .

Do sada ste već pomislili: "Samo prebroj broj glava i podijeli s ukupnim brojem pokušaja!" Da, ovo je način da pronađemo nepravedan novčić, ali kako bismo mogli doći do ove formule ako je uopće nismo znali?

Zaključak stomatologa

Prisjetimo se da je bacanje novčića najbolje modelirati s Bernoullijevom distribucijom, pa smo sigurni da dobro predstavlja naše podatke. Funkcija mase vjerojatnosti (PMF) za Bernoullijevu raspodjelu izgleda ovako:

x je slučajna varijabla koja predstavlja promatranje bacanja novčića (pretpostavimo 1 za Glave i 0 za Repove), a p je parametar - vjerojatnost Glava. Na sve moguće parametre odnosit ćemo se kao θ nadalje . Ova funkcija predstavlja koliko je vjerojatna svaka vrijednost x prema zakonu raspodjele koji smo odabrali.

Kad je x jednako 1, dobivamo f (1; p) = p, a kada je nula f (0; p) = 1-p. Dakle, Bernoullijeva raspodjela odgovara na pitanje 'Koliko je vjerojatno da ćemo dobiti glave s novčićem koji slijeće na glave s vjerojatnosti p? '. Zapravo je to jedan od najjednostavnijih primjera diskretne raspodjele vjerojatnosti.

Dakle, nas zanima odrediti parametar p iz podataka. Frekvencijski statističar vjerojatno će predložiti upotrebu postupka procjene maksimalne vjerojatnosti (MLE). Ova metoda uzima pristup maksimiziranju vjerojatnosti parametara s obzirom na skup podataka D :

To znači da se vjerojatnost definira kao vjerojatnost podataka danih parametara modela. Da bismo maksimizirali ovu vjerojatnost, morat ćemo pronaći parametre koji pomažu našem modelu da što bliže podudara podatke. Ne izgleda li to kao učenje ? Maksimalna vjerojatnost jedna je od metoda koja tjera učenje pod nadzorom.

Pretpostavimo sada da su sva zapažanja koja izvodimo neovisna. To znači da se zajednička vjerojatnost u gore navedenom izrazu može pojednostaviti na proizvod osnovnim pravilima vjerojatnosti:

Sada ide glavni dio: kako maksimizirati funkciju vjerojatnosti? U pomoć pozivamo računicu, razlikujemo funkciju vjerojatnosti u odnosu na parametre modela θ , postavljamo je na 0 i rješavamo jednadžbu. Postoji uredan trik koji diferencijaciju u većini slučajeva čini mnogo lakšom - logaritmi ne mijenjaju ekstreme funkcije (minimum i maksimum).

Procjena maksimalne vjerojatnosti ima ogromnu važnost i gotovo svaki algoritam strojnog učenja. To je jedan od najpopularnijih načina matematičkog formuliranja procesa učenja.

A sada primijenimo ono što smo naučili i poigrajmo se svojim novčićima. Odradili smo n neovisnih Bernoullijevih pokusa kako bismo procijenili poštenost naše kovanice. Dakle, sve se vjerojatnosti mogu pomnožiti i funkcija vjerojatnosti izgledat će ovako:

Uzimanje izvedenice gornjeg izraza neće biti lijepo. Dakle, moramo pronaći vjerojatnost dnevnika:

To izgleda lakše. Prelazak na diferencijaciju

Ovdje dijelimo izvedenice koristeći standard d (f + g) = df + dg. Zatim pomičemo konstante i razlikujemo logaritme:

Posljednji korak može se činiti smiješnim zbog okretanja znaka. Uzrok je tome što je log (1-p) zapravo sastav dvije funkcije i ovdje moramo koristiti lančano pravilo:

Voilà, gotovi smo s vjerojatnošću dnevnika! Sada smo blizu da pronađemo statistiku maksimalne vjerojatnosti za sredinu Bernoullijeve distribucije. Posljednji korak je rješavanje jednadžbe:

Množeći sve s p (1-p) i proširujući zagradu dobivamo

Otkazivanje uvjeta i preslagivanje:

Dakle, evo izvoda iz našegintuitivna formula?. Y ou sada može igrati s Bernoullijeva distribuciju i njegove MLE procjena srednje vrijednosti u vizualizaciji ispod

Čestitamo na vašoj novoj sjajnoj vještini procjene maksimalne vjerojatnosti! Ili samo za osvježavanje postojećeg znanja.

Bayesov zaključak

Prisjetimo se da postoji još jedan pristup vjerojatnosti. Bayesova statistika ima svoj način donošenja vjerojatnosnih zaključaka. Želimo pronaći raspodjelu vjerojatnosti parametara THETA datog uzorka - P (THETA | D) . Ali kako možemo zaključiti o toj vjerojatnosti? Bayesov teorem dolazi do spašavanja:

  • P (θ) naziva se prethodnom raspodjelom i uključuje naša uvjerenja u to koji bi parametri mogli biti prije nego što vidimo bilo kakve podatke. Sposobnost iznošenja prethodnih uvjerenja jedna je od glavnih razlika između maksimalne vjerojatnosti i Bayesova zaključivanja. Međutim, to je ujedno i glavna kritika za Bayesov pristup. Kako navesti prethodnu raspodjelu ako ne znamo ništa o problemu koji nas zanima? Što ako odaberemo lošeg prethodnika?
  • P (D | θ) je vjerojatnost, susreli smo je u procjeni maksimalne vjerojatnosti
  • P (D) naziva se dokazom ili marginalnom vjerojatnošću

P (D) naziva se i normalizacijskom konstantom jer osigurava da rezultati koje dobijemo budu valjana raspodjela vjerojatnosti. Ako P (D) prepišemo kao

Vidjet ćemo da je sličan brojniku u Bayesovom teoremu, ali zbrajanje prelazi sve moguće parametre θ . Na ovaj način dobivamo dvije stvari:

  • Izlaz je uvijek valjana raspodjela vjerojatnosti u domeni [0, 1].
  • Glavne poteškoće kada pokušavamo izračunati P (D) jer to zahtijeva integriranje ili zbrajanje svih mogućih parametara. To je nemoguće u većini stvarnih problema s riječima.

No čini li marginalna vjerojatnost P (D) sve Bayesovsko nepraktičnim? Odgovor nije sasvim. U većini ćemo se slučajeva riješiti ovog problema pomoću jedne od dvije mogućnosti.

Prvo je nekako približiti P (D) . To se može postići korištenjem različitih metoda uzorkovanja kao što su Važno uzorkovanje ili Gibbsovsko uzorkovanje, ili tehnikom zvanom Variational Inference (što je usputno ime?).

Drugo je potpuno izbaciti iz jednadžbe. Istražimo ovaj pristup detaljnije. Što ako se usredotočimo na pronalaženje jedne najvjerojatnije kombinacije parametara (koja je najbolja moguća)? Taj se postupak naziva Procjena maksimalnog posteriorija (MAP).

Jednadžba gore znači da želimo pronaći θ za koji izraz u Arg max uzima maksimalnu vrijednost - arg ument od max Imum. Ovdje treba primijetiti da je P (D) neovisan o parametrima i može se izuzeti iz arg max :

Drugim riječima, P (D) će uvijek biti konstantan s obzirom na parametre modela, a njegov će derivat biti jednak 1 .

Ta se činjenica toliko koristi da je uobičajeno vidjeti Bayesov teorem napisan u ovom obliku:

Žičani znak nepotpune beskonačnosti u gore navedenom izrazu znači "proporcionalan" ili "jednak konstanti".

Dakle, uklonili smo računalno najteži dio MAP-a. To ima smisla jer smo u osnovi odbacili sve moguće vrijednosti parametara iz raspodjele vjerojatnosti i samo uklonili onu najvjerojatniju.

Veza između MLE-a i MAP-a

A sada razmotrite što se događa kad pretpostavimo da je prior jednolik (stalna vjerojatnost).

Izbacili smo konstantu C iz arg max, jer to ne utječe na rezultat kao što je bilo s dokazima. Svakako izgleda slično procjeni maksimalne vjerojatnosti! Na kraju, matematički jaz između frekvencijskog i Bayesova zaključivanja nije toliko velik.

Također možemo graditi most s druge strane i promatrati procjenu najveće vjerojatnosti kroz Bayesove naočale. Konkretno, može se pokazati da su Bayesovi priori usko povezani s pojmovima regularizacije. Ali ta tema zaslužuje još jedan post (za više detalja pogledajte ovo SO pitanje i ESLR knjigu).

Zaključak

Te se razlike u početku mogu činiti suptilne, ali one pokreću dvije škole statistike. Frekvencijski i Bayesov pristup ne razlikuju se samo u matematičkom liječenju, već i u filozofskim pogledima na temeljne pojmove u statistici.

Ako uzmete Bayesov šešir, nepoznanice promatrate kao raspodjelu vjerojatnosti, a podatke kao ne slučajna fiksna opažanja. Uključujete prethodna uvjerenja da biste zaključili o događajima koje promatrate.

Kao frekventni liječnik vjerujete da postoji jedna istinska vrijednost za nepoznanice koje tražimo, a to su podaci koji su slučajni i nepotpuni. Fentističar nasumično uzorkuje podatke nepoznate populacije i pomoću ovog uzorka zaključuje o pravim vrijednostima nepoznatih parametara.

Na kraju, Bayesov i Frekvencijski pristup imaju svoje vlastite snage i slabosti. Svaki od njih ima alate za rješavanje gotovo svih problema koje drugi mogu. Kao i različite programske jezike, i njih treba smatrati alatima jednake snage koji mogu bolje odgovarati određenom problemu, a nedostajati drugima. Upotrijebite ih oboje, pametno ih upotrijebite i ne upadajte u bijes svetog rata između dva tabora statističara!

Nešto ste naučili? Pritisnite? reći "hvala!" i pomozite drugima da pronađu ovaj članak.