T-61.5020 Luonnollisen kielen tilastollinen käsittely, 5 op
Tentin 9.5.2007 tulokset

Suoritusmerkintä annetaan myöhemmin opiskelijoille, jotka ovat myös suorittaneet pakollisen harjoitustyön hyväksytysti.

Alustavat tulokset on annettu alla. Mikäli haluatte keskustella arvosteluperusteista, olkaa hyvä ja ottakaa yhteyttä allekirjoittaneeseen.

Toivon myös, että vastaatte kurssipalautekyselyyn, joka löytyy sivulta http://www.cs.hut.fi/Opinnot/Palaute/kurssipalaute.html.

Tulokset

Op.no     Tehtävä            Yht.   As
---------------------------------------
          1    2    3    4 
---------------------------------------
49897D   5.5   5   5.5   5    21    3
51066R    4    4    4    3    15    1
51195L    3    4    6    6    19    2
51478J   3.5  5.5   5    9    23    3
54427N    5    4    6   12    27    5
55459V   5.5  4.5   5    7    22    3
57545R    3    5    5    6    19    2
60356P    6    5    6   12    29    5
60628W    5    5    6    5    21    3
61262H    6    5    6    9    26    4
62948B   5.5  4.5   6    8    24    4
62950D    4   4.5  5.5   4    18    2
---------------------------------------
k.a.     4.67 4.67 5.50 7.17

Arvosanarajat:

1:  14 - 16
2:  17 - 20
3:  21 - 23
4:  24 - 26
5:  27 - 30

Vastaukset kysymykseen 1 olivat suurimmalta osin mallikelpoisia. Suurin 
syy pisteiden puuttumiseen oli joihinkin osakysymyksiin vastaamatta
jättäminen. Suurimpia vaikeuksia tuotti termi kompositionaalisuus.

Kysymyksessä 2 ongelmia tuottivat eniten seuraavat vastaavassa
laskuharjoitusten vastauksissa esilletuodut seikat:

- Informaatiosäteen laskemista varten muodostetaan suurimman 
  uskottavuuden estimaatit.

- KL-divergenssi ei ole symmetrinen, vaan pitäisi aina päättää kumpi
  lääke on referenssilääke, mihin toista verrataan. Toinen ongelma on
  siinä, että jos vertailtavalla jakaumalla on nollatodennäköisyys
  jossain, missä referenssijakauma ei ole nolla, niin KL-divergenssi 
  menee äärettömyyksiin.

Kysymykseen 3 vastattiin yleisesti hyvin.

Kysymys 4 oli haastava ja myös vastauksissa oli paljon hajontaa.
Arvostelussa lähdettiin siitä, että on olemassa monenlaisia 
perusteltuja ja hyviä ratkaisuja. Kysymyksessä kuitenkin todettiin,
että kyse on tilastollisiin menetelmiin perustuvasta oppivasta 
järjestelmästä, joten kovin suuresta olemassaolevien resurssien
olettamisesta vähennettiin pisteitä. Joissakin tapauksissa vastaus
oli aika ylimalkainen eikä menetelmällisiä puitteita selitetty.
Yksi keskeinen mainittava asia oli tilastollisen konekäännöksen
perusmalli (ks. esim. vastaava luento).

Taskulaskimen puuttumisesta ei "rokotettu", jos vastaus oli muuten 
kohdallaan.

Espoossa, 20.5.2007
Timo Honkela