Uvod u ROUGE i kako ga koristiti za procjenu sažetaka

Uvod u ROUGE i kako ga koristiti za procjenu sažetaka

ROUGE je skraćenica od Recall-Oriented Understudy for Gisting Evaluation. To je u osnovi skup mjernih podataka za procjenu automatskog sažimanja tekstova kao i strojnih prijevoda.

Djeluje uspoređujući automatski proizvedeni sažetak ili prijevod sa skupom referentnih sažetaka (obično proizvedenih u čovjeku). Recimo da imamo sljedeći sustav i sažetke referenci:

Sažetak sustava (što je stroj proizveo):

the cat was found under the bed

Sažetak reference (zlatni standard - obično ljudi):

the cat was under the bed

Ako uzmemo u obzir samo pojedine riječi, broj preklapajućih riječi između sažetka sustava i sažetka reference iznosi 6. To vam, međutim, ne govori puno kao mjerni podatak. Da bismo dobili dobru kvantitativnu vrijednost, zapravo možemo izračunati preciznost i opozvati pomoću preklapanja.

Jednostavno rečeno, podsjetnik (u kontekstu ROUGE) odnosi se na to koji dio referentnog sažetkasažetak sustav oporavlja ili hvatanje. Ako samo razmatramo pojedine riječi, to se može izračunati kao:

U ovom primjeru opoziv bi tako bio:

To znači da je sažetak sustava zabilježio sve riječi u referentnom sažetku , što je doista slučaj u ovom primjeru. Voila!

Ovo izgleda jako dobro za sustav sažimanja teksta. Ali to vam ne govori drugu stranu priče. Strojno generirani sažetak (sažetak sustava) može biti izuzetno dug, hvatajući sve riječi u sažetku reference. Ali, mnoge riječi u sažetku sustava mogu biti beskorisne, čineći sažetak nepotrebno opširnim.

Tu na scenu stupa preciznost. Što se tiče preciznosti, ono što zapravo mjerite jest koliko je sažetak sustava zapravo bio relevantan ili potreban ? Preciznost se mjeri kao:

U ovom primjeru, preciznost bi tako bila:

To jednostavno znači da je 6 od 7 riječi u sažetku sustava zapravo bilo relevantno ili potrebno. Ako bismo imali sljedeći sažetak sustava, za razliku od gornjeg primjera -

Sažetak sustava 2:

the tiny little cat was found under the big funny bed

Preciznost sada postaje:

Sad, ovo ne izgleda tako dobro, zar ne? To je zato što u sažetku imamo poprilično nepotrebnih riječi. Preciznost aspekt postaje vrlo važno kada pokušavate generirati sažetke koji su sažet u prirodi. Stoga je uvijek najbolje izračunati i preciznost i opoziv, a zatim prijaviti F-mjeru .

Ako su vaši sažeci na neki način prisiljeni biti sažeti kroz neka ograničenja, tada biste mogli razmisliti o korištenju samo opoziva, jer je preciznost u ovom scenariju manje zabrinjavajuća.

ROUGE-N, ROUGE-S i ROUGE-L mogu se smatrati granularnošću tekstova koji se uspoređuju između sažetaka sustava i referentnih sažetaka.

  • ROUGE N - mjere unigramskoj , Bigram , Trigramii preklapanje n-grama višeg reda
  • ROUGE-L - mjeri najdulji slijed riječi pomoću LCS-a. Prednost korištenja LCS-a je što ne zahtijeva uzastopna podudaranja, već podudaranja u slijedu koja odražavaju redoslijed riječi na razini rečenice. Budući da automatski uključuje najduže uobičajene n-grame u nizu, ne trebate unaprijed definiranu duljinu od n-grama.
  • ROUGE-S - Je li bilo koji par riječi u rečenici redom, omogućavajući proizvoljne praznine. To se također može nazvati preskakanjem grama. Na primjer, skip-bigram mjeri preklapanje parova riječi koji između riječi mogu imati najviše dva razmaka. Kao primjer, za frazu "mačka u šeširu" preskočni bigrami bili bi "mačka u, mačka, mačji šešir, u, u šeširu, šešir".

Na primjer, ROUGE-1 odnosi se na preklapanje unigrama između sažetka sustava i sažetka reference. ROUGE-2 odnosi se na preklapanje bigrama između sustava i referentnih sažetaka.

Uzmimo primjer odozgo. Recimo da želimo izračunati preciznost ROUGE-2 i prisjetiti se rezultata.

Sažetak sustava:

the cat was found under the bed

Sažetak reference:

the cat was under the bed

Bigrami sažetka sustava:

the cat, cat was, was found, found under, under the, the bed

Bigrami sažetka reference:

the cat, cat was, was under, under the, the bed

Na temelju gornjih bigrama, opoziv ROUGE-2 je sljedeći:

U osnovi, sažetak sustava oporavio je 4 bigrama od 5 bigrama iz referentnog sažetka, što je prilično dobro! Sada je preciznost ROUGE-2 sljedeća:

Preciznost ovdje govori nam da se od svih bigrama sustava sažetka, 67% preklapa s referentnim sažetkom. Ni ovo nije loše. Imajte na umu da će sažeci (i sistemski i referentni sažeci) postajati sve duži i duži, bit će sve manje preklapajućih bigrama. To je osobito istinito u slučaju apstraktnog sažimanja, gdje rečenice ne upotrebljavate izravno za sažimanje.

Razlog zbog kojeg bi se ROUGE-1 koristio preko ili zajedno s ROUGE-2 (ili drugim ROUGE mjerama finije zrnatosti) jest taj što pokazuje i fluidnost sažetaka ili prijevoda. Intuicija je da ako pažljivije slijedite redoslijed riječi referentnog sažetka, tada je vaš sažetak tečniji.

Za detaljnije informacije o ovim mjernim podacima možete se obratiti Linovu radu. Koju ćete mjeru koristiti ovisi o konkretnom zadatku koji pokušavate procijeniti. Ako radite na ekstraktivnom sažimanju s prilično opširnim sustavom i referentnim sažetcima, tada bi moglo biti logično koristiti ROUGE-1 i ROUGE-L. Za vrlo sažete sažetke možda će biti dovoljan samo ROUGE-1, pogotovo ako također primjenjujete korijenje i zaustavljanje uklanjanja riječi.

Radovi za čitanje

  • ROUGE: Paket za automatsko vrednovanje sažetaka