T-61.281 Luonnollisten kielten tilastollinen käsittely
Harjoitus 11, ti 8.4.2003, 16:15-18:00 Klusterointi, Konekääntäminen. Versio 1.0
1.
2-ulotteiseen avaruuteen on projisoitu sanoja. Sanat, jotka
esiintyvät samankaltaisissa lauseissa ovat lähekkäin tässä
avaruudessa. Piirrä dendrogrammit taulukossa 1 olevien
sanojen klusteroinnin muodostumiselle käyttäen
a)
yksinkertaisen linkin (single link) klusterointia
b)
kokonaisen linkin (complete link) klusterointia
Taulukko:klusteroitavat sanat
koordinaatit
sana
(-4,2)
puukko
(-2,2)
tuppi
(-2,-1)
kaivuri
(-3,-2)
zetor
(1,-3)
kenraali
(2,2)
maija
(2.5,1)
matti
(4,2)
jens
2.
Etsi k-means -klusteroinnilla edellisen tehtävän sanoista 3
klusteria. Oletetaan, että klusterien lähtöarvoiksi on arvottu
(2,3), (2,0.5) ja (4,1).
3.
Taulukossa 2 on kaksiulotteiseen avaruuteen
projisoituja sanoja.
a)
Käytetään knn-luokitinta 3:lla naapurilla. Arvioi
sanoille, joille ei ole merkitty sanaluokkaa, paras sanaluokka.
b)
Korvaa samaan sanaluokkaan kuuluvien sanojen vektorit
niiden keskiarvolla. Vertaa uusia sanoja kahteen muodostuneeseen
prototyyppivektoriin. Minkälainen luokittelutulos nyt tulee ?
c)
Mitä etua ja haittoja b)-kohdan menetelmällä on
verrattuna a)-kohdan menetelmään ?
Taulukko:knn, data
sana
luokka
koordinaatit
vetää
verbi
(2.5,3)
työntää
verbi
(1,2)
nostaa
verbi
(3,2)
moukari
substantiivi
(1,1)
naama
substantiivi
(-1,2)
hius
substantiivi
(-5,1)
heittää
?
(2.7,2.7)
kihartuminen
?
(-3,2)
kuula
?
(0.5,2)
4.
Olet klusteroinut samankaltaiset sanat
ryhmiin. Perinteisessä trigrammimallissa arvioidaan seuraavan sanan
todennäköisyys perustuen edellisiin sanoihin (
). Mallin kokoa rajoittaaksesi haluat nyt kuitenkin arvioida
seuraavan sanan todennäköisyyden niin, että käytät historiana vain
edellisten sanojen klustereita, etkä sanoja sinällään. Johda
tällaisen kieliopin matemaattinen muoto.
5.
Etsit ratkaisua hevosmiehiä pitkään pohdituttaneeseen
ongelmaan, ``Varför får hästen inte gå i bastun?''. Ratkaisun
ongelmaan tuntevat vain ruotsalaiset (``Den blir ren och äter
laven''). Osaat englantia ja käytössäsi on sekä taulukon
3 kielimalli ja käännöstiedot. Sinulla on kaksi vahvaa
ehdokasta vastauksen käännökseksi:
It becomes clean and eats the seats
It turns into a reindeer and eats lichen
Kumpi on todennäköisempi ?
Taulukko:Vasemmalla unigrammikielimalli, oikealla käännöstodennäköisyydet.