T-61.5020 Luonnollisen kielen tilastollinen käsittely, 5 op
Tentin 9.5.2007 tulokset

Suoritusmerkintä annetaan myöhemmin opiskelijoille, jotka ovat myös suorittaneet pakollisen harjoitustyön hyväksytysti.

Alustavat tulokset on annettu alla. Mikäli haluatte keskustella arvosteluperusteista, olkaa hyvä ja ottakaa yhteyttä allekirjoittaneeseen.

Toivon myös, että vastaatte kurssipalautekyselyyn, joka löytyy sivulta http://www.cs.hut.fi/Opinnot/Palaute/kurssipalaute.html.

Tulokset

Op.no   Tehtävä      Yht.  As
---------------------------------------
     1  2  3  4 
---------------------------------------
49897D  5.5  5  5.5  5  21  3
51066R  4  4  4  3  15  1
51195L  3  4  6  6  19  2
51478J  3.5 5.5  5  9  23  3
54427N  5  4  6  12  27  5
55459V  5.5 4.5  5  7  22  3
57545R  3  5  5  6  19  2
60356P  6  5  6  12  29  5
60628W  5  5  6  5  21  3
61262H  6  5  6  9  26  4
62948B  5.5 4.5  6  8  24  4
62950D  4  4.5 5.5  4  18  2
---------------------------------------
k.a.   4.67 4.67 5.50 7.17

Arvosanarajat:

1: 14 - 16
2: 17 - 20
3: 21 - 23
4: 24 - 26
5: 27 - 30

Vastaukset kysymykseen 1 olivat suurimmalta osin mallikelpoisia. Suurin 
syy pisteiden puuttumiseen oli joihinkin osakysymyksiin vastaamatta
jättäminen. Suurimpia vaikeuksia tuotti termi kompositionaalisuus.

Kysymyksessä 2 ongelmia tuottivat eniten seuraavat vastaavassa
laskuharjoitusten vastauksissa esilletuodut seikat:

- Informaatiosäteen laskemista varten muodostetaan suurimman 
 uskottavuuden estimaatit.

- KL-divergenssi ei ole symmetrinen, vaan pitäisi aina päättää kumpi
 lääke on referenssilääke, mihin toista verrataan. Toinen ongelma on
 siinä, että jos vertailtavalla jakaumalla on nollatodennäköisyys
 jossain, missä referenssijakauma ei ole nolla, niin KL-divergenssi 
 menee äärettömyyksiin.

Kysymykseen 3 vastattiin yleisesti hyvin.

Kysymys 4 oli haastava ja myös vastauksissa oli paljon hajontaa.
Arvostelussa lähdettiin siitä, että on olemassa monenlaisia 
perusteltuja ja hyviä ratkaisuja. Kysymyksessä kuitenkin todettiin,
että kyse on tilastollisiin menetelmiin perustuvasta oppivasta 
järjestelmästä, joten kovin suuresta olemassaolevien resurssien
olettamisesta vähennettiin pisteitä. Joissakin tapauksissa vastaus
oli aika ylimalkainen eikä menetelmällisiä puitteita selitetty.
Yksi keskeinen mainittava asia oli tilastollisen konekäännöksen
perusmalli (ks. esim. vastaava luento).

Taskulaskimen puuttumisesta ei "rokotettu", jos vastaus oli muuten 
kohdallaan.

Espoossa, 20.5.2007
Timo Honkela