T-61.5020 Luonnollisten kielten tilastollinen käsittely
Harjoitus 9, ke 28.3.2007, 12:15-14:00 -- Tilastollinen konekääntäminen
Versio 1.0
Valitaan rinnakkaiskorpuksista suomi-englanti -aineisto2. Tekstit sisältävät XML-tyylisiä tageja ynnä muuta ``turhaa'' informaatiota, jotka siivotaan pois. Kurssin sivuilta löytyy valmis Python-ohjelma tätä varten3. Aineistossa on erilliset tiedostot englannin- ja suomenkielisille lauselle, ja samassa tiedostossa samalla rivinumerolla olevat lauseet vastaavat toisiaan.
Valitse seuraavaksi suhteellisen yleinen aineistosta löytyvä
suomenkielinen sana (), esimerkiksi ``tosiasia''. Etsi suomekielisistä
teksteistä kaikki lauseet joissa sana esiintyy, ja kerää vastaavista
englanninkielisistä lauseista mahdolliset käännössanat (
), sekä
jokaiselle sanalle esiintymien yhteismäärä niissä lauseissa,
joissa valittu suomenkielinen sana esiintyi (
).