Zašto korelacija ne implicira uzročnost - značenje ove uobičajene izreke u statistici

Možda se sjećate ove jednostavne mantre iz razreda statistike:

"Korelacija ne podrazumijeva uzročnost."

Pa možda mislite da znate što znači ova fraza.

Kao, ako ste jako marljivo učili statistiku, dobili dobru ocjenu i onda upisali fakultet, to mora značiti da ste na fakultet ušli jer ste završili nastavu iz statistike.

Iako je ta ocjena, zajedno sa vještinama koje ste naučili, vjerojatno pomogla, ne možete zanemariti ostale čimbenike u igri - i vjerojatno ne možete tvrditi da je vaša ocjena iz statistike bila razlog vašeg prihvaćanja na fakultetu.

Prvo najprije - zašto koreliramo korelaciju s uzročno-posljedičnom povezanošću?

Lako je pomisliti da samo zato što se dvije stvari čine povezanima, jedna mora biti uzrok druge. Ali to može biti glupa i ponekad opasna pretpostavka.

Na primjer, pretpostavimo da pokušavate otkriti što ljude čini manje mrzovoljnima. Izvodite studiju koja otkriva da su ljudi, kad spavaju barem x sati noć, manje mrzovoljni.

No jeste li ovdje uzeli u obzir sve čimbenike? Možda su i oni počeli više vježbati kao posljedica dobrog odmora, a to je ono što je promijenilo njihova raspoloženja.

Nisu svi primjeri toliko benigni - a neki su posve besmisleni.

Da biste ilustrirali koliko zavaravajuće može biti pretpostavka da korelacija podrazumijeva uzročnost, pogledajte sljedeći graf iz Lažnih korelacija Tylera Vigena:

Iako slučajno postoji snažna korelacija između ova dva čimbenika, sumnjam da biste mogli učinkovito tvrditi da je jedan uzrokovao drugi. Možda će ovo biti izazov za ljude da pokušaju dokazati.

Evo još jednog dragulja iz Tylerove kolekcije:

Pogledajte tu lijepu korelaciju. Ali teško ćete tvrditi da će, samo zato što je netko jeo više sira, vjerojatnije da će se smrtno zaplesti u svoje plahte.

Što je korelacija u statistici?

Prema rječniku, korelacija je međusobni odnos ili veza između dviju ili više stvari (ili varijabli) - posebno one koja se ne očekuje samo na osnovu slučajnosti.

Upotrijebimo to u rečenici: Čini se da ogromna veličina moje domaće rajčice korelira s dodatnom kišom koju smo imali ovog ljeta.

Sad pretpostavljam da su moje biljke rajčice poludjele i proizvele čudovišne rajčice, jer je kiša padala malo više nego inače.

No je li to jedini faktor? Što je s kompostom bogatim hranjivim tvarima koji sam koristio u podignutim krevetima? Što je s kvalitetom biljaka koje sam kupio iz vrtića? Što je s mojom pažljivom rezidbom i njegom?

Kao što vidite, iako postoji korelacija između mojih velikih rajčica i našeg kišnog ljeta, to ne znači nužno uzročnost.

Što je uzročnost u statistici?

Vrijeme je za drugu definiciju. Uzročnost je , prema rječniku, čin ili djelovanje koje proizvodi učinak.

Idemo malo preciznije. Uzročnost znači da postoji veza između dva događaja u kojima jedan događaj utječe na drugi. U statistikama, kada vrijednost događaja - ili varijable - naraste ili padne zbog drugog događaja ili varijable, možemo reći da je postojala uzročnost. Izazvao B dogoditi.

Može primjer za ovaj? Možda radite samostalno za časopis koji plaća riječ. Što je priča duža (i što sadrži više riječi), to ćete više biti plaćeni.

Dakle, postoji izravna korelacija između toga koliko riječi napišete i koliko vam se plaća. Ali tu je i uzročnost (jer ste više napisali, platili ste više).

Zašto je tako lako to pogrešno shvatiti?

Zašto je tako lako pomisliti da korelacija podrazumijeva uzročnost? Pa, ako se dvije stvari čine povezane, skloni smo povezivanju i pretpostavljamo da utječu jedna na drugu. Kad je hladno vrijeme, ljudi provode više vremena unutra. Oko praznika šoping centri su prepuni. Kad uzmete malo ibuprofena, glavobolja nestaje.

Iako su ove okolnosti sigurno povezane - a neke mogu čak i implicirati uzročnost - one se ne moraju nužno suprotstaviti znanstvenoj analizi.

Postoji nekoliko razloga zbog kojih bismo pogrešno mogli zaključiti da je uzročnost uzrokovana korelacijom.

Što je zbunjujuća varijabla?

Prije svega, možda imate zbunjujuću varijablu u miksu. Ovo je varijabla koja utječe i na neovisne i na ovisne varijable u vašem odnosu - i tako zbunjuje vašu sposobnost da odredite prirodu te veze.

Na primjer, ako se nova obitelj preseli u susjedstvo, a kriminal poraste, stanovnici tog područja mogu pretpostaviti da je to zbog te nove obitelji. Ali što ako se istodobno u blizini otvori pritvorski centar? To je vjerojatniji uzrok povećanog kriminala.

Što je obrnuta uzročnost?

Drugo, možda imate posla s obrnutom uzročno-posljedičnom povezanošću . To se događa kada ih, umjesto da pravilno pretpostavite da A uzrokuje B, pomiješate i pretpostavite da B uzrokuje A.

Možda će biti teško zamisliti kako se to događa, ali razmislite kako rade solarni paneli. Oni proizvode više energije kada je sunce duže na nebu.

Ali sunce više nije na nebu jer paneli proizvode više energije. Paneli proizvode više energije jer sunce sja duže vrijeme.

Što je slučajnost?

Treće, ne smijemo zaboraviti snagu slučajnosti . Kad se dogodi da se dvije stvari dogode istodobno, primamljivo je vidjeti uzročnost. No, baš kao i onaj glupi grafikon gore, s arkadama i CS stupnjevima, mnogi su samo slučajnosti.

Na kraju - zašto nas briga?

Možda pokušavate otkriti čini li određeni novi lijek boljim osjećajima. Ili biste željeli znati zbog čega ljudi kupuju određeni proizvod.

Bez obzira na vašu motivaciju, često je vrlo korisno otkriti uzrokuje li A B, zajedno s tim kako i zašto.

Ali kao što smo vidjeli, to nije tako lako. Morate kontrolirati što više čimbenika, smanjiti vjerojatnost zbunjivanja varijabli i slučajnosti i svesti podatke na ono što je relevantno.

Nećemo ulaziti u dublje filozofsko pitanje kako bez sumnje doista možemo uspostaviti uzročnost. To je za drugi put.

Sad barem znate da - iako se dva događaja ili varijable mogu činiti povezanima - ne znači da jedan ima izravni uzročni utjecaj na drugi.