T-61.281 Luonnollisten kielten tilastollinen käsittely
Vastaukset 4, ti 18.2.2004, 16:15-18:00 Tiedon haku, Versio 1.0
Seuraavassa taulukossa on annettu mittojen määritelmät ja sijoitettu
luvut.
|
F-mitta määritellään tarkuuden ja palautuksen avulla:
Interpoloimatonta keskitarkkuutta laskiessa katsotaan tarkkuutta
aina kun löydetään relevantti dokumentti ja keskiarvoistetaan näiden
tarkkuuksien yli.
Residuaalisen käänteisen dokumenttifrekvenssin (RIDF) kohdalla kirjan ensimmäisessä painoksessa on runsaasti virheitä. RIDF:n kantava idea perustuu seuraavanlaiselle päättelylle: voimme mallintaa sanan esiintymistä Poisson-jakaumalla . Tämä toimii hyvin sanoille, jotka ovat suhteellisen tasaisesti jakautuneet korpuksessa. Sisällöllisesti merkittävät sanat esiintyvät yleensä ryhmissä, asiaa käsittelevän dokumentin sisällä ja Poisson-jakauma antaa siis tällöin väärän ennusteen sanojen yleisyydestä. RIDF:ssä mitataan käänteisen dokumenttifrekvenssin ja Poisson-jakauman välistä eroa. Mitä suurempi ero, sitä enemmän sana kuvaa dokumentin sisältöä.
Tässä siis Poisson-jakauman käyttölogiikka on seuraava: Approksimodaan, että dokumentissä esiintyy sana keskimäärin kertaa. Todennäköisyys sille, että jossain tietyssä dokumentissä sana esiintyy kertaa saadaan Poisson-jakaumasta
RIDF määritellään siis
Sievennellään RIDF:n lauseketta:
Sijoitellaan kaavaan luvut:
Huomataan, että RIDF painotti sanaa 2.5 kertaa enemmän kuin IDF. Molempien menetelmien mielestä on relevantimpi hakutermi kuin .
SVD-hajotelmassa puretaan matriisi palasiksi:
|
|
|
|
|
Tiputetaan sisäinen dimensio kahteen jättämällä ja -matriiseista muut dimensiot pois ja ottamalla -matriisista vain kaksi suurinta ominaisarvoa. Nyt dokumenttien samankaltaisuutta voi verrata matriisilla . Jos matriisin sarakeet skaalataan yhden pituisiksi, on helppo laskea korrelaatioita rivien välillä. Tällainen skaalattu matriisi on esitetty taulukossa 7 ja siitä lasketut korrelaatiot taulukossa 8. Sanojen samankaltaisuutta voitaisiin verrata matriisista . Korrelaatiomatriisista huomataan, että formula-artikkelit ja tähtitiedeartikkelit korreloivat sisäisesti paljon enemmän kuin ristiin. Alunperin täysin korreloimattomata dokumentit ja korreloivat nyt selvästi. Olemme projisoineet datan 2-ulotteiseen avaruuteen ja samantyyppiset artikkelit ovat päätyneet lähekkäin tähän alempiulotteiseen avaruuteen.
Lopuksi vielä pieni varoitus: kirjan kappaleessa 15 on runsaasti pikkuvirheitä, kannattaa tarkastaa kirjan errata (http://www-nlp.stanford.edu/fsnlp/errata.html).