Čije ocjene biste trebali vjerovati? IMDB, Rotten Tomatoes, Metacritic ili Fandango?

Istraživač podataka istražuje

Trebate li pogledati film? Pa, treba uzeti u obzir puno čimbenika, poput redatelja, glumaca i proračuna filma. Većina nas svoju odluku temelji na recenziji, kratkom najavi ili samo provjerom ocjene filma.

Postoji nekoliko dobrih razloga zbog kojih biste željeli izbjeći čitanje kritika ili gledanje najave, iako oni donose mnogo više informacija od ocjena.

Prvo, možda biste željeli potpuno izbjeći spojlere, bez obzira koliko mali bili. Ja razumijem da je!

Drugo, može biti da želite neovlašteno iskustvo gledanja tog filma. To se obično odnosi samo na kritike koje su posute okvirima, poput "ovo je film o složenosti svemira" ili "ovaj film zaista nije o ljubavi". Jednom kad se ovi okviri kodiraju u vašu kratkotrajnu memoriju, stvarno ih je teško spriječiti da ometaju vaše vlastito filmsko iskustvo.

Još jedan dobar razlog je taj što ako ste umorni ili požurjeni, možda ne biste željeli čitati recenziju, a kamoli gledati dvominutni trailer.

Dakle, čini se da je numerička ocjena filmova dobro rješenje u dosta situacija, za popriličan broj ljudi.

Ovaj članak ima za cilj preporučiti jedno web mjesto za brzo dobivanje točne ocjene filmova i nudi čvrstu argumentaciju na temelju podataka.

Kriteriji za "najbolje"

Davanje takve preporuke nalik je na izgovaranje "ovo je najbolje mjesto za traženje filmske ocjene", što je ocjenjivačka izjava koja počiva na nekim kriterijima koji se koriste za određivanje što je bolje, što je gore ili najgore, a što najbolje , u ovom slučaju. Kao svoju preporuku koristit ću jedan jedini kriterij: normalna raspodjela.

Najbolje mjesto za traženje ocjene filma je vidjeti čije su ocjene raspodijeljene u uzorku koji najviše sliči ili je identičan obrascu normalne distribucije, a to je ovo: s obzirom na skup vrijednosti koji leže u određenom intervalu , većina ih je usred njega, a nekolicina ostalih u ekstremima tog intervala. Općenito, ovako izgleda normalna (također nazvana Gaussova) raspodjela:

Koje je obrazloženje ovog kriterija? Pa, iz vlastitog iskustva koje se sastoji od nekoliko stotina filmova, mogu reći da sam vidio:

  • nekoliko izvanrednih koje sam gledao nekoliko puta
  • par koji je zaista bio zastrašujući i natjerao me da požalim zbog vremena provedenog u njihovom gledanju
  • i cijela hrpa prosječnih, za većinu kojih se više ni ne mogu sjetiti radnje.

Vjerujem da je većina ljudi - bilo kritičari, cinephili ili samo redoviti filmofili - imala slično iskustvo.

Ako ocjene filmova doista izražavaju kvalitetu filma, tada bismo trebali vidjeti isti obrazac za oboje.

S obzirom na to da većina nas većinu filmova ocjenjuje prosječnom kvalitetom, trebali bismo vidjeti isti obrazac kada analiziramo ocjenu filmova. Slična logika vrijedi za loše i dobre filmove.

Ako još niste uvjereni da bi trebala postojati takva podudarnost između uzoraka, razmislite o raspodjeli ocjena za jedan film. Kao što mnogi ljudi ocjenjuju film, nije skok vjere pretpostaviti da će ih najčešće biti mnogo sa sličnim preferencijama. Općenito će se složiti da je film ili loš, prosječan ili dobar (kasnije ću kvantificirati ove kvalitativne vrijednosti). Također, bit će nekolicina koji film ocjenjuju s jednom od druge dvije kvalitativne vrijednosti.

Kad bismo vizualizirali raspodjelu svih ocjena za pojedini film, najvjerojatnije bismo vidjeli da se jedan skup stvara u jednom od područja koja odgovaraju niskoj, prosječnoj ili visokoj ocjeni.

Pod uvjetom da se većina filmova smatra prosjekom, klaster oko prosječne površine ima najveću vjerojatnost da se dogodi, a ostala dva klastera imaju manju (ali i dalje značajnu) vjerojatnost. (Imajte na umu da se sve ove vjerojatnosti u načelu mogu kvantificirati, ali to bi zahtijevalo puno podataka i moglo bi pretvoriti ovaj članak u knjigu.)

Najmanja vjerojatnost bila bi jednolična raspodjela u kojoj nema klastera, a sklonosti ljudi podijeljene su gotovo podjednako na sve tri kvalitativne vrijednosti.

S obzirom na ove vjerojatnosti, distribucija ocjena za dovoljno velik uzorak filmova trebala bi biti ona s tupim nakupinama u prosječnom području, obrubljenim trakama opadajuće visine (frekvencije), što nalikuje, dakle, normalnoj distribuciji.

Ako vam je sve ovo teško razumjeti, razmotrite ovu ilustraciju:

IMDB, Rotten Tomatoes, Fandango ili Metacritic?

Sad kad imamo kriterij za rad, zaronimo u podatke.

Postoji puno web stranica koje imaju vlastite filmove. Odabrao sam samo četiri, uglavnom na temelju njihove popularnosti, kako bih mogao dobiti ocjene za filmove s prihvatljivim brojem glasova. Sretni pobjednici su IMDB, Fandango, Rotten Tomatoes i Metacritic.

U posljednje dvije fokusirao sam se samo na njihove kultne vrste ocjenjivanja - naime tomatometar i metarezultat -uglavnom zato što su korisniku vidljiviji na svakoj od web stranica (što znači da ih je brže pronaći). Oni se također dijele na druge dvije web stranice (metarezultati se dijele na IMDB-u, a tomatometar na Fandangu). Osim ovih kultnih ocjena, obje web stranice imaju i manje istaknutu ocjenu na kojoj samo korisnici mogu dati svoj doprinos.

Prikupio sam ocjene za neke od filmova s ​​najviše glasova i recenzija u 2016. i 2017. Očišćeni skup podataka ima ocjene za 214 filmova i može se preuzeti s ovog Github repo-a.

Nisam prikupljao ocjene za filmove objavljene prije 2016. godine, jednostavno zato što se ubrzo nakon analize Walta Hickeyja dogodila mala promjena u Fandangovom sustavu ocjenjivanja, na koju ću se pozvati kasnije u ovom članku.

Svjestan sam da je rad s malim uzorkom rizičan, ali barem se to nadoknađuje dobivanjem najnovije snimke raspodjele ocjena.

Prije crtanja i tumačenja distribucija, dozvolite mi da kvantificiram kvalitativne vrijednosti koje sam ranije koristio: na skali od 0 do 10 loš je film negdje između 0 i 3, prosječan između 3 i 7, a dobar između 7 i 10 .

Imajte na umu razliku između kvalitete i količine. Da bi se moglo prepoznati u nastavku, nazvat ću ocjene (kvantitete) niskim, prosječnim ili visokim. Kao i prije, kvaliteta filma izražava se kao loša, prosječna ili dobra. Ako se brinete da li je "prosječni" pojam isti, nemojte jer ću se pobrinuti da izbjegnem bilo kakve nejasnoće.

Pogledajmo sada distribucije:

Jednostavnim pogledom može se primijetiti da histogram metarezultata (tako se naziva ova vrsta grafa) najviše sliči normalnoj raspodjeli. Ima gust skup u prosječnom području sastavljen od šipki nepravilne visine, što čini vrh ni tupim, ni oštrim.

Međutim, oni su brojniji i viši od šipki u svakom od druga dva područja, koja se više ili manje postupno smanjuju u visinu prema ekstremima. Sve to jasno ukazuje na to da većina metarezultata ima prosječnu vrijednost, što je uglavnom ono što tražimo.

U slučaju IMDB-a, većina distribucije također je u prosječnom području, ali očito je iskorak prema najvišim prosječnim vrijednostima. Područje visokih ocjena izgleda slično onome što bi se moglo očekivati ​​za normalnu raspodjelu u tom dijelu histograma. Međutim, zapanjujuća je značajka da je područje koje predstavlja nisku gledanost filmova potpuno prazno, što postavlja veliki upitnik.

U početku sam krivicu svalio na mali uzorak, misleći da bi veći imao više pravde za IMDB. Srećom, uspio sam pronaći gotov skup podataka na Kaggleu koji sadrži IMDB ocjene za 4.917 različitih filmova. Na moje veliko iznenađenje, distribucija je izgledala ovako:

Oblik distribucije izgleda gotovo isti kao i u uzorku s 214 filmova, osim područja s niskom gledanošću, koje je u ovom slučaju slabo naseljeno s 46 filmova (od 4917). Glavnina vrijednosti još je uvijek u prosječnom području, što čini IMDB ocjenu vrijednom daljnjeg razmatranja za preporuku, iako je očito teško nadmetati se s metarezultatom, s tim iskrivljenjem.

U svakom slučaju, ono što je stvarno sjajno u ovom ishodu jest to što se on može koristiti kao snažan argument u prilog tezi da je uzorak od 214 filmova prilično reprezentativan za cijelu populaciju. Drugim riječima, sada postoji veće povjerenje da bi rezultati ove analize bili jednaki - ili barem slični - rezultatima postignutim kada bi se analizirale apsolutno sve ocjene filmova sa sva četiri web mjesta.

S ovim povećanim samopouzdanjem, prijeđimo na ispitivanje raspodjele Fandangovih ocjena, što se čini da se nije puno promijenilo od Hickeyjeve analize. Nagib je i dalje vidljiv prema višem dijelu spektra gledanosti filmova, gdje se nalazi većina ocjena. Područje za donju polovicu prosječne ocjene potpuno je prazno, baš kao i ono za nisku ocjenu. Lako se može zaključiti da je raspodjela poprilično daleko od mog kriterija. Slijedom toga, neću dalje razmatrati moguću preporuku.

(Obećavam da će muke pomicanja uskoro završiti. Puno je lakše uspoređivati ​​distribucije ako su postavljene jedna blizu druge, umjesto da su raštrkane po članku.)

I na kraju, raspodjela tomatometra je neočekivano ujednačena i izgledala bi još ravnije pod drugom strategijom spajanja (strategija spajanja definirana je ukupnim brojem traka i njihovim rasponima; s ova dva parametra možete se igrati kada generirate histogram) .

Ovu distribuciju nije lako protumačiti u kontekstu, jer tomatometar nije klasična ocjena, već predstavlja postotak kritičara koji su pozitivno ocijenili film. To ga čini neprikladnim za kvalitativni okvir loše-prosječno-dobro, jer filmove čini ili dobrima, ili lošima. U svakom slučaju, pretpostavljam da bi se to ipak trebalo svesti na istu normalnu distribuciju, s tim da većina filmova ima umjerenu razliku između broja pozitivnih kritika i negativnih (što daje mnoge ocjene od 30% - 70% pozitivnih kritika) i nekoliko filmova koji imaju znatno veću razliku, na ovaj ili onaj način.

S obzirom na posljednje razmatranje i oblik raspodjele, tomatometar ne zadovoljava moj kriterij. To bi moglo biti da bi to veći uzorak to više pravde, ali čak i tako, ako su za preporučiti, ja bih to učiniti s nekim rezervama zbog nejasne pozitivne ili negativne sustava ocjenjivanja.

U ovom trenutku analize mogao bih reći da je gledanjem distribucija moja preporuka metarezultat.

Međutim, čini se da vrijedi razmotriti i distribuciju IMDB-a, pogotovo ako malo podesite rejting intervale za tri kvalitativne kategorije (intervale koje sam više-manje proizvoljno definirao). Iz ove perspektive, preporuka metarezultata uglavnom vizualnim pregledom očito nije dovoljna.

Dakle, pokušat ću razgraničiti to dvoje pomoću kvantitativne metode.

Ideja je koristiti varijablu Fandango kao negativnu referencu, a zatim odrediti koja je varijabla, prema IMDB ocjeni i metarezultatu, najmanje povezana s njom (te varijable nazivam jer mogu poprimiti različite vrijednosti - na primjer, metarezultat) je varijabla jer uzima različite vrijednosti, ovisno o filmu).

Jednostavno ću izračunati neke koeficijente korelacije, a varijabla s najmanjom vrijednošću bit će moja preporuka (tada ću objasniti kako ti koeficijenti korelacije rade). Ali prije toga, dopustite mi da ukratko obrazložim odabir varijable Fandango kao negativnu referencu.

Korisnici Fandanga previše vole filmove

Jedan od razloga za ovaj izbor je taj što je distribucija Fandangovih filmskih gledanosti najdalja od one uobičajene, s onim očitim iskorom prema višem dijelu spektra filmskih ocjena.

Drugi razlog je oblak sumnje oko Fandanga koji je ostavio analiza Walta Hickeyja. U listopadu 2015. bio je zbunjen sličnom distribucijom i otkrio da su na Fandangovoj web stranici numeričke ocjene uvijek zaokružene na sljedeću najvišu zvjezdicu, a ne na najbližu (na primjer, prosječna ocjena za film od 4,1 zaokruženi su na 4,5 zvjezdice, umjesto na 4,0).

Tim Fandanga popravio je pristrani sustav ocjenjivanja i rekao Hickeyju da je logika ocjenjivanja prilično "softverska greška" na njihovoj web stranici, ukazujući na nepristrani sustav u njihovoj mobilnoj aplikaciji. (Više o ovome u Hickeyevom članku.) Prilagodba je promijenila neke statističke parametre na bolje, ali nedovoljno da me uvjeri da ne radim s Fandango varijablom kao negativnom referencom.

Ovako izgleda promjena:

A sada, zumirajmo Fandango:

Između metarezultata i IMDB ocjene, koja je najmanje povezana s ocjenom Fandango?

Najmanje korelirano s ocjenom Fandango je metarezultat. Ima Pearsonovu r vrijednost 0,38 u odnosu na Fandango, dok IMDB ocjena ima vrijednost 0,63.

Sad da objasnim sve ovo.

Kako se dvije varijable mijenjaju, uzimajući različite vrijednosti, one su u korelaciji ako postoji obrazac koji odgovara obje promjene. Mjerenje korelacije jednostavno znači mjerenje u kojoj mjeri postoji takav obrazac.

Jedan od načina izvođenja ove mjere je izračunavanje Pearsonove r. Ako je vrijednost +1,0, znači da postoji savršena pozitivna korelacija, a ako je -1,0, znači da postoji savršena negativna korelacija.

Mjera u kojoj su varijable korelirane smanjuje se kako se Pearsonov r približava 0, i s negativne i s pozitivne strane.

Idemo to bolje vizualizirati:

Sada, da stavimo apstrakciju gore u kontekst, ako usporedimo kako se vrijednosti za dvije vrste ocjena mijenjaju - recimo Fandangovu i IMDB-ovu - možemo odrediti stupanj u kojem postoji obrazac koji odgovara obje promjene.

S obzirom na upravo spomenute koeficijente korelacije, postoji obrazac između Fandanga i IMDB-a u većoj mjeri nego što je to slučaj s Fandangom i metarezultatom. Oba su koeficijenta pozitivna i, kao takva, korelacija je pozitivna, što znači da, kako Fandangova ocjena raste, rastu i IMDB-ove ocjene, više nego što to čine metarezultati.

Drugim riječima, za bilo koju filmsku ocjenu na Fandangu vjerojatnije je da će se metarezultati razlikovati od njega prema IMDB ocjeni.

Presuda: upotrijebite Metacriticov metarezultat

Sve u svemu, preporučujem provjeru metarezultata kad god tražite ocjenu filma. Evo kako to funkcionira i njegove negativne strane.

Ukratko, metarezultati su ponderirani prosjek mnogih kritika koje dolaze od poznatih kritičara. Metacritic tim čita recenzije i dodjeljuje im ocjenu 0–100, koja se zatim daje težinu, uglavnom na temelju kvalitete recenzije i izvora. Više o njihovom sustavu ocjenjivanja možete pronaći ovdje.

Sada bih samo htio ukazati na nekoliko nedostataka metarezultata:

  • Ponderirani koeficijenti su povjerljivi, tako da nećete moći vidjeti u kojoj se mjeri svaki pregled računa u metarezultatu.
  • Teško ćete imati vremena pronaći metarezure za manje poznate filmove koji su se pojavili prije 1999. godine, godine kada je Metacritic stvoren.
  • Neki najnoviji filmovi čiji glavni jezik nije engleski nisu čak ni navedeni na Metacriticu. Na primjer, rumunjski filmovi Dvije lutrijske karte (2016.) i Eastern Business (2016.) nisu navedeni na Metacriticu, dok su na IMDB-u, s ocjenama.

Još nekoliko riječi

Da rezimiram, u ovom sam članku dao jednu preporuku gdje potražiti ocjenu filma. Preporučio sam metarezultat na temelju dva argumenta: njegova distribucija nalikuje najobičnijoj, a najmanje je povezana s ocjenom Fandango.

Svi su kvantitativni i vizualni elementi članka ponovljivi u Pythonu, kao što je ovdje prikazano.

Hvala na čitanju! I sretan film!