T-61.281 Luonnollisten kielten tilastollinen käsittely

Ratkaisut 1. harjoitukseen ti 28.1.2003, 16:15-18:00 - Palautellaan mieliin todennäköisyyslaskuja
Versio 1.1

1.
Todennäköisyyksistä ensimmäinen $ P(~\textrm{sana=lyhenne} ~\vert~ \textrm{sana=kolmikirjaimi-}$ $ \textrm{nen}~) = 0.8 $ kertoo, että jos me näemme kolmikirjaimisen sanan, se on todennäköisyydellä $ 0.8$ lyhenne ja todennäköisyydellä $ 0.2$ jotain muuta.

Toinen kaava $ P(~\textrm{sana=kolmikirjaiminen}~) = 0.0003 $ kertoo, että satunnainen sana on todennäköisyydellä $ 0.0003$ kolmikirjaiminen ja todennäköisyydellä $ 0.9997$ jotain muuta.

Todennäköisyys, että satunnainen sana on kolmikirjaiminen lyhenne saadaan kertomalla edellä annetut todennäköisyydet keskenään. Eli ensin katsotaan, kuinka todennäköistä on, että sana on kolmikirjaiminen ja sitten vielä kuinka todennäköistä on, että kolmikirjaiminen sana olisi lyhenne:

    $\displaystyle P(~\textrm{sana=lyhenne},\textrm{sana=kolmikirjaiminen}~)$  
  $\displaystyle =$ $\displaystyle P(~\textrm{sana=kolmikirjaiminen}~)\cdot P(~\textrm{sana=lyhenne} ~\vert~ \textrm{sana=kolmikirj.}~)$  
  $\displaystyle =$ $\displaystyle 0.0003*0.8=0.00024$  

Sivuhuomautuksena sanottakoon, että annetut todennäköisyydet eivät varmaankan päde todelliselle englannin kielelle.

2.
Kokeillaan ensin paria hypoteesia: Oletetaan, että kaikki veljenpojat arvaavat innoissaan satunnaisen värin. Kaikilla on siis puolen todennäköisyys arvata oikein ja pelin voittotodennäköisyys on siis $ 0.5 \cdot 0.5 \cdot 0.5 = 0.125$. Tämä ei ilmeisestikään ole hyvä strategia.

Jos pojat olisivat vain hieman ovelampia, he päättäisivät,, että vain yksi heistä arvaa ja muut ovat hiljaa. Tällöinhän voittotodennäköisyys olisi $ 0.5$.

Muttu Pupu ei puhunut puppua. Jos tarkastelemme mahdollisia tuloksia, löydämme vielä paremman strategian (taulukko 1). Kaikki taulukon tapahtumat ovat yhtä todennäköisiä.



Taulukko: Mahdolliset tulokset, kukin veljenpoika on merkitty nimen alkukirjaimella (R,K,P) ja lippiksen väri värin ensimmäisellä kirjaimella (p,s)
R K P punaisia sinisiä
s s s 0 3
s s p 1 2
s p s 1 2
s p p 2 1
p s s 1 2
p s p 2 1
p p s 2 1
p p p 3 0

Huomaamme, että on vain kahdenlaisia tuloksia:
1)
Kaikilla veljeksillä on samanvärinen hattu päässään
2)
Yhdellä veljistä on erivärinen hattu kuin muilla.
Luomalla strategian, jolla voitamme kun kaikilla veljeksillä on samanvärinen hattu päässään, katamme 2 kahdeksasta tuloksesta, eli voittotodennäköisyys olisi $ 0.25$. Tämä ei meitä kiinnosta.

Veljesten keksimä strategia kattoi tapaukset, jossa yhdellä veljellä oli erivärinen hattu kuin muilla. Tässä tilanteessa pitää sen veljen, joka näkee kaksi samanväristä hattua veikata omaa hattuaan eriväriseksi. Ne jotka näkevät kaksi eriväristä hattua pitävät suunsa kiinni. Tällä strategialla katetaan 6 kahdeksasta alkeistapauksesta, ja saadaan voittotodennäköisyydeksi $ 0.75$.

Kuinka paljon poikien kannattaisi maksaa peliin osallistumisesta ? Voittonahan oli yhteensä 1 euron arvoiset jätskit. Jos peliä pelattaisiin äärettömän monta kertaa, keskimääräinen voitto olisi

$\displaystyle E(voitto)= 1 \textrm{\euro} *0.75= 0.75 \textrm{\euro}$    

Kun peliä kuitenkin pelataan vain kerran, on hyvin subjektiivinen kysymys, miten paljon kannattaa sijoittaa. Jos pitää pelaamisesta, voi maksaa paljonkin ilman mitään toivoa voitosta (flipperi), toisaalta jos ei halua riskeerata säästöjään, ei ehkä kannata tarjota juuri mitään peliin osallistumisesta. Pojilla oli taskunpohjalle jäänyt 10 senttiä Sudenpentujen Käsikirjan uuden painoksen ostamisen jälkeen ja tämän he suostuivat asettamaan pelipanokseksi.

3.
Merkitään kantamuotoa ``se'' $ C_1$:llä ja kantamuotoa ``siittää'' $ C_2$:lla. Tunnistustulos olkoon $ T$ ja oikea luokka $ O$. Kirjoitetaan tehtävässä annetut todennäköisyydet:
$\displaystyle P(T=C_1\vert O=C_1)$ $\displaystyle =$ $\displaystyle 0.95$  
$\displaystyle P(T=C_1\vert O=C_2)$ $\displaystyle =$ $\displaystyle 0.05$  
$\displaystyle P(T=C_2\vert O=C_1)$ $\displaystyle =$ $\displaystyle 0.05$  
$\displaystyle P(T=C_2\vert O=C_2)$ $\displaystyle =$ $\displaystyle 0.95$  
$\displaystyle P(O=C_1)$ $\displaystyle =$ $\displaystyle 0.999$  
$\displaystyle P(O=C_2)$ $\displaystyle =$ $\displaystyle 0.001$  

Nyt voimme laskea Bayesin kaavaan

$\displaystyle P(B_j\vert A)=\frac{P(A\vert B_j)P(B_j)}{P(A)}=\frac{P(A\vert B_j)P(B_j)}{\sum_i P(A\vert B_i)P(B_i)}$    

avulla todennäköisyyden, että laiteen väittäessä sanan perusmuodoksi ``siittää'' se on myös oikeassa.
$\displaystyle P(O\!$ $\displaystyle =$ $\displaystyle C_2\vert T = C_2)$  
  $\displaystyle =$ $\displaystyle \frac{P(T\!=\!C_2\vert O\!=\!C_2)P(O\!=\!C_2)}{P(T\!=\!C_2\vert O\!=\!C_2)P(O\!=\!C_2) +
P(T\!=\!C_2\vert O\!=\!C_1)P(O\!=\!C_1)}$  
  $\displaystyle =$ $\displaystyle \frac{0.95 \cdot 0.001}{0.95 \cdot 0.001+ 0.05 * 0.999} \approx 0.019$  

Sanoista, joiden perusmuodoksi laite on ehdottanut ``siittää'' vain joka viideskymmenes on oikein jäsennetty. Vaikka Åke olikin saanut ihan hyvät tunnistustulokset sinänsä, käytännön testejen jälkeen hän päätti romuttaa tunnistimensa ja ryhtyä jazz-muusikoksi.

4.
Jotta tällainen satunnainen kieli generoisi yksikirjaimisen sanan, sen pitää generoida kaksi merkkiä (joku muu kuin sanaväli ja sanaväli).

$\displaystyle P(s=t_1)=\frac{1}{30}\cdot \frac{1}{30}$    

Tällaisia sanoja on 29 kappaletta.

Vastaavasti, tietyn kahden merkin pituisen sanan todennäköisyys on

$\displaystyle P(s=t_1,t_1)=\frac{1}{30} \cdot \frac{1}{30} \cdot \frac{1}{30}$    

Tällaisia sanoja on $ 29^2$ kappaletta. Kolmikirjaimiset sanat

$\displaystyle P(s=3)=\frac{1}{30} \cdot \frac{1}{30} \cdot \frac{1}{30} \cdot \frac{1}{30}$    

ja näitä sanoja on siis $ 29^3$ kappaletta.

Koska sanan esiintymistodennäköisyys on suoraan verrannollinen sen odotettuun esiintymistiheyteen testiaineistossa, voimme tehdä kirjan taulukon 1.3 kaltaisen taulukon suoraan laskemalla todennäköisyyksiä. Koska samanpituiset sanat ovat yhtä todennäköisiä eikä niitä voi asettaa yleisyysjärjestykseen, laskemme $ k$:n arvon vain yhdelle samanpituisista sanoista. Tulokset on esitetty taulukossa 2 ja piirretty kuvaan 1.


Taulukko: Zipfin vakio. Taulukon vasempaan sarakkeeseen on merkitty kuinka monenneksi yleisin sana on kyseessä. Keskellä lukee, kuinka monta kertaa voimme odottaa näkevämme sanan 1000000 sanan pitusessa aineistossa. Oikealla on laskettu vakio $ k$, kahden ensimmäisen sarakkeen tulo.
$ r$ $ f$ $ k$
15 1111 16111
450 37.04 16648
13064 1.235 16129
378900 0.0412 15593
1098800 0.00137 15073
318660000 0.0000457 14570

Kuva: $ k$ $ r$:n funktiona
\begin{figure}\begin{center}
\epsfig{file=zipf.eps,width=0.5\linewidth}\end{center}
\end{figure}

Huomataan, että satunnaisellakin kielellä $ k$ pysyttelee melko samansuuruisena hyvin suurella $ r$:n vaihteluvälilläkin. Zipfin löytö ei ehkä tunnu tämän faktan valossa aivan niin hämmästyttävltä.

5.
Tehtävän ratkaisussa oletetaan tunnetuksi seuraavat kaavat:
$\displaystyle E(x)$ $\displaystyle =$ $\displaystyle \int_{-\infty}^\infty xp(x)dx$  
$\displaystyle Var(x)$ $\displaystyle =$ $\displaystyle \int_{-\infty}^\infty (x-E(x))^2 p(x) dx$  

a)
Lasketaan odotusarvo yhden heiton silmäluvuksi. Noppa laskeutuu jokaiselle 101:lle sivustaan yhtä todennäköisesti, eli jokaisen tapahtuman todennäköisyys $ p(x)=\frac{1}{101}$.

Odotusarvo:


$\displaystyle E(x)$ $\displaystyle =$ $\displaystyle \sum_{i=0}^{100} ip(x=i)$  
  $\displaystyle =$ $\displaystyle \frac{1}{101}(1+2+3+4+\dots+100)$  
  $\displaystyle =$ $\displaystyle \frac{1}{101}\left((1+100)+(2+99)+(3+98)+\dots+(50+51)\right)$  
  $\displaystyle =$ $\displaystyle \frac{50*101}{101}=50$  

Varianssi voidaan laskea kaavalla:

$\displaystyle Var(x)$ $\displaystyle =$ $\displaystyle \sum_{i=0}^{100} (i-E(x))^2p(x=i)$  
  $\displaystyle =$ $\displaystyle \frac{1}{101}(50^2+49^2+\dots+1+0+1+2^2+\dots+49^2+50^2)$  
  $\displaystyle =$ $\displaystyle \frac{2}{101}(1+2^2+\dots+49^2+50^2)$  

Nyt voimme käyttää avuksemme seuraava kaavaa

$\displaystyle 1+2^2+3^2+4^2+\dots+n^2=\frac{n(n+1)(2n+1)}{6}$    

jolloin saamme tulokseksi
$\displaystyle Var(x)$ $\displaystyle =$ $\displaystyle \frac{2}{101}\frac{50\cdot 51\cdot 101}{6}=850$  

b)
Ratkaistaksemme tämän tehtävä, tarvitsemme muutamia todennäköisyyslaskun peruskaavoja. Kaavat on tässä johdettu, mutta niiden johtamisen osaaminen ei ole olennaista kurssin kannalta.

Riippumattomien satunnaismuuttujien summan oletusarvo

Olkonn satunnaismuuttujat x ja y riippumattomia. Lasketaan näiden satunnaismuuttujien summan oletusarvo.

$\displaystyle E(x+y)$ $\displaystyle =$ $\displaystyle \int (x+y)p(x,y)dxdy$  
  $\displaystyle =$ $\displaystyle \int (x+y)p(x)p(y)dxdy$  
  $\displaystyle =$ $\displaystyle \int xp(x)p(y)dxdy + \int yp(x)p(y)dxdy$  
  $\displaystyle =$ $\displaystyle \int p(y)dy \int xp(x) dx +\int p(x)dx \int yp(y) dy$  
  $\displaystyle =$ $\displaystyle 1\cdot \int xp(x) dx +1\cdot \int yp(y) dy$  
  $\displaystyle =$ $\displaystyle E(x)+E(y)$  

Vakiolla kerrotun satunnaismuuttujan varianssi


$\displaystyle Var(ax)$ $\displaystyle =$ $\displaystyle \int (ax-E(ax))^2p(x)dx$  
  $\displaystyle =$ $\displaystyle \int(ax-aE(x))^2p(x)dx$  
  $\displaystyle =$ $\displaystyle a^2\int(x-E(x))^2p(x)$  
  $\displaystyle =$ $\displaystyle a^2Var(x)$  

Riippumattomien satunnaismuuttujien summan varianssi

Olkoon satunnaismuuttujat x ja y riippumattomia. Lasketaan näiden satunnaismuuttujien summan varianssi.

$\displaystyle Var(x+y)$ $\displaystyle =$ $\displaystyle \int\int(x+y-E(x+y))^2p(x,y)dxdy$  
  $\displaystyle =$ $\displaystyle \int\int(x+y)^2p(x,y)dxdy-2\int\int(x+y)E(x+y)p(x,y)dxdy$  
    $\displaystyle +\int\int
E(x+y)^2p(x,y)dxdy$  
  $\displaystyle =$ $\displaystyle E((x+y)^2)-2E(x+y)^2+E(x+y)^2$  
  $\displaystyle =$ $\displaystyle E((x+y)^2)-E(x+y)^2$  
  $\displaystyle =$ $\displaystyle E(x^2+2xy+y^2)-(E(x)+E(y))^2$  
  $\displaystyle =$ $\displaystyle E(x^2)+E(2xy)+E(y^2)-E(x)^2-2E(x)E(y)-E(y)^2$  
  $\displaystyle =$ $\displaystyle E(x^2)-E(x)^2 + E(y^2)-E(y)^2$  
    $\displaystyle +\int\int 2xyp(x)p(y)dxdy -2\int xp(x)dx\int yp(y)dy$  
  $\displaystyle =$ $\displaystyle E(x^2)-E(x)^2 + E(y^2)-E(y)^2$  
  $\displaystyle =$ $\displaystyle Var(x)+Var(y)$  

Tämän pakerruksen jälkeen päästään itse asiaan. Nyt halutaan laskea oletusarvo lauseelle $ x+y$, missä $ x$ on ensimmäiseen heittoon liittyvä satunnaismuuttuha ja $ y$ on toiseen heittoon liittyvä satunnaismuuttuja.

$\displaystyle E(\frac{x+y}{2})=\frac{1}{2}(E(x)+E(y))=\frac 12 (50 +50 ) = 50$    

Huomaamme siis, että odotusarvo ei muutu. Entä miten käykään varianssin ?
    $\displaystyle Var(\frac{x+y}{2})=Var(\frac x2)+Var(\frac y2)=\frac 14 Var(x)+ \frac
14 Var(y)$  
    $\displaystyle = \frac 14 ( 850 +850) = 425$  

c)
Heitämme kymmentä noppaa, sovellamme edelle opittuja tuloksia. Odotusarvo

$\displaystyle E(\frac{x_1+x_2+\dots+x_{10}}{10})=\frac{1}{10}\cdot10\cdot 50= 50$    

Varianssi

$\displaystyle Var(\frac{x_1+x_2+\dots+x_{10}}{10})= \frac {1}{100}\cdot 10 \cdot850 = 85$    

d)
Kun heitämme yhä useampaa noppaa, tarkentuu jakauma odotusarvon ympärille. Rajalla odotusarvo on 50 ja varianssi 0 eli saamme aina varmasti tulokseksi 50.

Odotusarvo ja varianssi eivät suinkaan kerro kaikkea jakaumasta. Kuvassa 2 on simuloitu matlabilla erilaisia määriä nopanheittoa. Huomaamme että jakauman muoto muuttuu, mitä useampaa nopaa heitetään. Muoto tulee lähemmäksi ja lähemmäksi normaalijakaumaa. Tämän takia useita luonnollisia ilmiöitä mallinnetaan normaalijakaumalla: Jos tulokseen vaikuttaa monta pientä satunnaista asiaa, tulos on normaalisti jakautunut. Tämä on myös hyvä tekosyy käyttää normaalijakaumaa, jolla saadaan laskut usein helppoon muotoon.

Formaalimpi todistelu siitä, että jakauma lähestyy normaalijakaumaa löytyy http:// mathworld.wolfram.com/CentralLimitTheorem.html

Kuva: Nopanheittoa. Kutakin kuvaa varten on koe toistettu 100000 kertaa.
\begin{figure}\begin{center}
\epsfig{file=noppa.eps,width=\textwidth}\end{center}
\end{figure}



vsiivola@cis.hut.fi