T-61.281 Luonnollisten kielten tilastollinen käsittely
Vastaukset 7, ti 9.3.2004, 8:30-10:00 Sanaluokkien merkitseminen, Versio 1.0
![]() |
Havaintotodennäköisyyksien
suurimman uskottavuuden
estimaattori on
. Eli esimerkiksi
todennäköisyys sille, että VB-tilassa olessa havaitaan sana bear
on
![]() |
|
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
![]() |
Ratkaistaan todennäköisyyksien suhde:
![]() |
![]() |
![]() |
![]() |
|||
![]() |
![]() |
||
![]() |
![]() |
Katsellaan vielä havaintotodennäköisyyksiä, ettei sieltä tule
mitään yllätyksiä sekoittamaan edellisen kohdan perusteella
tehtyjä päätelmiä:
![]() |
|||
![]() |
![]() |
||
![]() |
![]() |
Lasketaan tässä esimerkiksi muutaman tilan arvo. Koska sana the
voi tulla vain tilasta AT (koska
ja
), täytyy
ensimmäisen tilan siis olla AT. Siihen kertyvä todennäköisyys on
.
Sana bear voi tulla tiloista NN tai VB, mutta tilasta AT
voidaan siirty vain tilaan NN. Seuraavan tilan täytyy siis olla
NN. Siihen on kertynyt todennäköisyyttä
.
Samalla tavalla jatkamalla huomataan, että on ainoastaan yksi
polku, joka johtaa alusta loppuun. Muissa kohdissa joko
havaintomatriisin tai siirtymämatriisin nollat katkaisevat reitin.
Paras polku on piirretty kuvaan 1. Siitä voidaan
lukea, että paras tilasekvenssi
.
![]() |
Seuraava sääntö sopii vain toiseen lauseeseen. Muutetaan
Kolmas sääntö sopii vain jos sana wanted on luokiteltu
:ksi ja sitä seuraa TO. Tämä sopii ensimmäiseen lauseeseen ja
muutetaan siis
Viimeinen sääntö sopii vain ensimmäiseen lauseeseen:
Korjatut lauseet ovat siis:
PN | VBD | TO | VB | IN | AT | NN |
I | wanted | to | look | inside | the | box |
PN | BEZ | RB | VBN | IN | AT | NN |
It | was | clearly | marked | on | the | board |
AT | NN | PN | BEZ | AT | VB | NN |
The | plane | he | is | on | will | crash |