T-61.5020 Luonnollisen kielen tilastollinen käsittely
Harjoitus 2, ke 31.1.2007, 12:15-14:00 -- Entropia ja hämmentyneisyys
Versio 1.0
| W | P(W) |
| 'kissa' |
|
| 'tuuli' |
|
| 'kiipeilijä' |
|
| 'naukaisi' |
|
| 'tuivertaa' |
|
| 'katosi' |
|
| 'naukaisi' | 'tuivertaa' | 'katosi' | ||
| 'kissa' |
|
0 |
|
|
| 'tuuli' |
|
|
|
|
| 'kiipeilijä' |
|
0 |
|
|
|
|
|
|
Laske kunkin mallin hämmentyneisyys (perplexity) molemmille testilauseille. Ovatko tulokset keskenään vertailukelpoisia?
Hämmentyneisyys voidaan määritellä testijoukon sanojen todennäköisyyksien geometrisen keskiarvon käänteislukuna:
| Malli 1 | Malli 2 |
| P(sana='kissa')=0.1 | P(sana=subjekti)=0.33 |
| P(sana='koira')=0.1 | P(sana=verbi)=0.33 |
| P(sana='valas')=0.1 | P(sana=kohde)=0.33 |
| P(sana='kala')=0.1 | |
| P(sana='istui')=0.1 | |
| P(sana='menee')=0.1 | |
| P(sana='on')=0.1 | |
| P(sana='puuhun')=0.1 | |
| P(sana='kuuhun')=0.1 | |
| P(sana='suuhun')=0.1 |
| Malli 3 | |
| P(sana='kissa' | sana=ensimmäinen) | =0.25 |
| P(sana='koira' | sana=ensimmäinen) | =0.25 |
| P(sana='valas' | sana=ensimmäinen) | =0.25 |
| P(sana='kala' | sana=ensimmäinen) | =0.25 |
| P(sana='istui' | edellinen_sana |
=0.33 |
| P(sana='menee' | edellinen_sana |
=0.33 |
| P(sana='on' | edellinen_sana |
=0.33 |
| P(sana='puuhun' | edellinen_sana |
=0.33 |
| P(sana='kuuhun' | edellinen_sana |
=0.33 |
| P(sana='suuhun' | edellinen_sana |
=0.33 |