T-61.281 Luonnollisten kielten tilastollinen käsittely
Vastaukset 7, ti 9.3.2004, 8:30-10:00 Sanaluokkien merkitseminen, Versio 1.0
Havaintotodennäköisyyksien suurimman uskottavuuden estimaattori on . Eli esimerkiksi todennäköisyys sille, että VB-tilassa olessa havaitaan sana bear on
|
Ratkaistaan todennäköisyyksien suhde:
Katsellaan vielä havaintotodennäköisyyksiä, ettei sieltä tule
mitään yllätyksiä sekoittamaan edellisen kohdan perusteella
tehtyjä päätelmiä:
Lasketaan tässä esimerkiksi muutaman tilan arvo. Koska sana the voi tulla vain tilasta AT (koska ja ), täytyy ensimmäisen tilan siis olla AT. Siihen kertyvä todennäköisyys on .
Sana bear voi tulla tiloista NN tai VB, mutta tilasta AT voidaan siirty vain tilaan NN. Seuraavan tilan täytyy siis olla NN. Siihen on kertynyt todennäköisyyttä .
Samalla tavalla jatkamalla huomataan, että on ainoastaan yksi polku, joka johtaa alusta loppuun. Muissa kohdissa joko havaintomatriisin tai siirtymämatriisin nollat katkaisevat reitin. Paras polku on piirretty kuvaan 1. Siitä voidaan lukea, että paras tilasekvenssi .
Seuraava sääntö sopii vain toiseen lauseeseen. Muutetaan
Kolmas sääntö sopii vain jos sana wanted on luokiteltu :ksi ja sitä seuraa TO. Tämä sopii ensimmäiseen lauseeseen ja muutetaan siis
Viimeinen sääntö sopii vain ensimmäiseen lauseeseen:
Korjatut lauseet ovat siis:
PN | VBD | TO | VB | IN | AT | NN |
I | wanted | to | look | inside | the | box |
PN | BEZ | RB | VBN | IN | AT | NN |
It | was | clearly | marked | on | the | board |
AT | NN | PN | BEZ | AT | VB | NN |
The | plane | he | is | on | will | crash |