T-61.281 Luonnollisen kielen tilastollinen käsittely
Vastaukset 8, ti 18.3.2002, 16:15-18:00 Tilastolliset yhteydettömät
kieliopit, Versio 1.0
Nyt voimmekin laskea kummankin jäsennyksen todennäköisyydet
kertomalla kaikki kuvasta löytyvät todennäköisyydet
Merkitään todennäköisyyttä, että puulla, joka kattaa sanat :stä :hen on juurena jäsennys . Nyt siis voimme alustaa algoritmin arvot lehdille. Koska suurin osa lauseen sanoista voi olla kotoisin vain yhdestä ei-terminaalisymbolista, alustus on helppoa:
Lasketaanpa sitten seuraavat arvot. Nyt kukin alipuulla koostuu kahdesta lapsesta ja juuresta:
Koskapa kieliopissa yhdellä solmulla olla vain kaksi lasta, saadaan seuraavalle kierrokselle todennäköisyydet summaamalla:
Vielä on pari kierrosta jäljellä:
Lasketaanpa vielä homma loppuun ennen tarkempia pohdintoja.
Kuvaan 2 on piirretty mahdolliset jäsennykset. Mallin mukaan hieman todennäköisempi jäsennys on väärä, johtunee siitä että alkuperäinen malli oli hihasta ravistettu.
Oletetaan, että sarja konvergoi johonkin arvoon (todistetaan
myöhemmin). Tällaisessa tilanteessa
eli
0 | |||
0 |
0 | |||
0 |
Jos olisi ovelampi matemaatikko, tehtävän pystyisi ratkaisemaan muutamalla rivillä. Tarkastelemalla mallin generoimien ei-terminaalien määrän oletusarvoa verrattuna mallin generoimien terminaalien määrän oletusarvoon, päätynee samaan tulokseen.