Tehtävänannossa annettiin sanojen dokumenttifrekvenssit:
ja
. Lisäksi tiedetään että
kokoelmafrekvenssit ovat
ja
. Kaikenkaikkiaan
kokoelmassa on
dokumenttia. Käänteinen
dokumenttifrekvenssi määritellään
, joten
sanalle
se on
ja sanalle
se on
.
Residuaalisen käänteisen dokumenttifrekvenssin (RIDF) kohdalla kirjan
ensimmäisessä painoksessa on runsaasti virheitä. RIDF:n kantava
idea perustuu seuraavanlaiselle päättelylle: voimme mallintaa
sanan esiintymistä Poisson-jakaumalla
. Tämä toimii hyvin
sanoille, jotka ovat suhteellisen tasaisesti jakautuneet
korpuksessa. Sisällöllisesti merkittävät sanat esiintyvät yleensä
ryhmissä, asiaa käsittelevän dokumentin sisällä ja Poisson-jakauma
antaa siis tällöin väärän ennusteen sanojen yleisyydestä. RIDF:ssä
mitataan käänteisen dokumenttifrekvenssin ja Poisson-jakauman
välistä eroa. Mitä suurempi ero, sitä enemmän sana kuvaa
dokumentin sisältöä.
Tässä siis Poisson-jakauman käyttölogiikka on seuraava:
Approksimodaan, että dokumentissä esiintyy sana
keskimäärin
kertaa. Todennäköisyys sille, että
jossain tietyssä dokumentissä sana
esiintyy
kertaa
saadaan Poisson-jakaumasta
RIDF määritellään siis
Tässä siis Poisson-jakaumasta otetaan todennäköisyys, että
dokumentissä esiintyy haluttu sana vähintään kerran
(
)).
Sievennellään RIDF:n lauseketta:
Sijoitellaan kaavaan luvut:
Huomataan, että RIDF painotti sanaa
2.5 kertaa enemmän kuin
IDF. Molempien menetelmien mielestä
on relevantimpi
hakutermi kuin
.
Pyydetty dokumentti-sanamatriisi on esitetty taulukossa 3.
Taulukko:
Dokumentti-sana-matriisi
|
 |
 |
 |
 |
 |
 |
 |
Schumacher |
0 |
1 |
0 |
1 |
0 |
0 |
0 |
rata |
1 |
1 |
1 |
0 |
0 |
1 |
0 |
formula |
1 |
0 |
1 |
1 |
0 |
0 |
0 |
kolari |
0 |
0 |
1 |
1 |
0 |
0 |
0 |
galaksi |
0 |
0 |
0 |
0 |
1 |
1 |
0 |
tähti |
0 |
0 |
1 |
0 |
0 |
1 |
1 |
planeetta |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
meteoriitti |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
|
SVD-hajotelmassa puretaan matriisi
palasiksi:
Tässä
on
matriisi,
on
ja
. Matriisit on esitetty taulukoissa 4,
5, 6.
Taulukko:
|
 |
 |
 |
 |
 |
 |
 |
 |
Schumacher |
-0.200 |
-0.336 |
0.290 |
0.115 |
0.823 |
0.007 |
0.121 |
-0.243 |
rata |
-0.590 |
0.007 |
0.184 |
0.686 |
-0.232 |
-0.183 |
0.025 |
0.243 |
formula |
-0.435 |
-0.464 |
-0.040 |
-0.225 |
-0.333 |
0.609 |
0.045 |
-0.243 |
kolari |
-0.317 |
-0.361 |
-0.108 |
-0.494 |
0.071 |
-0.438 |
-0.285 |
0.485 |
galaksi |
-0.200 |
0.400 |
0.602 |
-0.242 |
-0.053 |
0.028 |
-0.563 |
-0.243 |
tähti |
-0.464 |
0.376 |
-0.408 |
-0.213 |
0.034 |
-0.345 |
0.275 |
-0.485 |
planeetta |
-0.257 |
0.476 |
-0.234 |
-0.070 |
0.363 |
0.530 |
-0.007 |
0.485 |
meteoriitti |
-0.026 |
0.116 |
0.534 |
-0.336 |
-0.132 |
-0.048 |
0.713 |
0.243 |
|
Taulukko:
2.949 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
2.107 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1.459 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1.311 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1.183 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0.638 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0.460 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
|
Taulukko:
|
 |
 |
 |
 |
 |
 |
 |
 |
-0.348 |
-0.217 |
0.099 |
0.352 |
-0.478 |
0.669 |
0.152 |
 |
-0.268 |
-0.156 |
0.325 |
0.611 |
0.499 |
-0.275 |
0.316 |
 |
-0.613 |
-0.210 |
-0.255 |
-0.187 |
-0.390 |
-0.559 |
0.130 |
 |
-0.323 |
-0.551 |
0.098 |
-0.460 |
0.474 |
0.279 |
-0.261 |
 |
-0.077 |
0.245 |
0.779 |
-0.440 |
-0.157 |
-0.030 |
0.328 |
 |
-0.512 |
0.598 |
0.099 |
0.124 |
0.094 |
0.048 |
-0.587 |
 |
-0.244 |
0.404 |
-0.440 |
-0.216 |
0.335 |
0.290 |
0.583 |
|
Taulukko:
Skaalattu
|
 |
 |
 |
 |
 |
 |
 |
 |
-0.913 |
-0.924 |
-0.971 |
-0.634 |
-0.400 |
-0.768 |
-0.646 |
 |
-0.407 |
-0.384 |
-0.238 |
-0.773 |
0.917 |
0.640 |
0.764 |
|
Taulukko:
Korrelaatiot
|
 |
 |
 |
 |
 |
 |
 |
 |
1.000 |
|
|
|
|
|
|
 |
1.000 |
1.000 |
|
|
|
|
|
 |
0.984 |
0.988 |
1.000 |
|
|
|
|
 |
0.894 |
0.882 |
0.800 |
1.000 |
|
|
|
 |
-0.008 |
0.018 |
0.171 |
-0.455 |
1.000 |
|
|
 |
0.441 |
0.464 |
0.594 |
-0.008 |
0.894 |
1.000 |
|
 |
0.279 |
0.304 |
0.446 |
-0.180 |
0.958 |
0.985 |
1.000 |
|
Tiputetaan sisäinen dimensio kahteen jättämällä
ja
-matriiseista muut dimensiot pois ja ottamalla
-matriisista vain
kaksi suurinta ominaisarvoa. Nyt dokumenttien samankaltaisuutta voi
verrata matriisilla
. Jos matriisin sarakeet skaalataan yhden
pituisiksi, on helppo laskea korrelaatioita rivien välillä. Tällainen
skaalattu matriisi on esitetty taulukossa 7 ja siitä
lasketut korrelaatiot taulukossa 8. Sanojen
samankaltaisuutta voitaisiin verrata matriisista
.
Korrelaatiomatriisista huomataan, että formula-artikkelit ja
tähtitiedeartikkelit korreloivat sisäisesti paljon enemmän kuin
ristiin. Alunperin täysin korreloimattomata dokumentit
ja
korreloivat nyt selvästi. Olemme projisoineet datan
2-ulotteiseen avaruuteen ja samantyyppiset artikkelit ovat päätyneet
lähekkäin tähän alempiulotteiseen avaruuteen.
Lopuksi vielä pieni varoitus: kirjan kappaleessa 15 on runsaasti
pikkuvirheitä, kannattaa tarkastaa kirjan errata (http://www-nlp.stanford.edu/fsnlp/errata.html).