Harjoitustyö suositellaan tehtäväksi ennen tenttiä. Mikäli haluaa saada harjoitustyönsä arvostelluksi kevään aikana, on se palautettava viimeistään 31.5.2002. Tätä myöhemmin palautetut harjoitustyöt arvostellaan kun ehditään.
Harjoitustyö palautetaan infolabran edessä (T-talon 3.krs) olevaan postilaatikkoon, jossa lukee "T-61.281 harjoitustyö" tai vaihtoehtoisesti suoraan kurssin luennoitsijalle.
Raportti aloitetaan otsikkosivulla jossa on kurssin nimi ja koodi, opiskelijan nimi ja opintokirjannumero sekä harjoitustyöaiheen otsikko.
Raportissa kuvataan lyhyesti tutkimusongelma, käytetyt menetelmät, tehdyt kokeet, tulokset ja johtopäätökset sekä lähdeviitteet.
Mikäli käytät jotain muuta kuin annettua aineistoa, kuvaa raportissa myös aineisto sekä liitä mukaan näytteitä siitä.
Ohjelmakoodi laitetaan raportin liitteeksi, ja sitä ei lasketa sivumäärään. Mikäli käytät joitain valmiita ohjelmistoja tai työkaluja esim. tekstin esikäsittelyssä, mainitse myös nämä.
Raportin pituus saa olla 5-10 sivua.
Lisäksi työ on tehtävä laajennettuna versiona, esim. soveltamalla useampia eri menetelmiä tai useampiin/laajempiin aineistoihin, tai syventämällä työtä muulla tavalla. Raportti voi tällöin olla vastaavasti pidempi (10-15 sivua).
Parityö on erityisen suositeltava mikäli haluaa perehtyä johonkin aiheeseen syvällisemmin, mutta työmäärä kasvaisi muuten kohtuuttoman suureksi.
Harjoitustyön arvosana 1 voi vaikuttaa kurssiarvosanaan alentavasti ja 5 vastaavasti nostavasti silloin kun tentissä saatu pistemäärä on 1-2 pisteen päässä arvosanarajasta (poikkeuksena tentin arvosana 5 jota ei voi nostaa).
Vaihtoehtoisesti voit valita vain yhden menetelmän ja soveltaa sitä kummankinkieliseen aineistoon, sekä pohtia menetelmän soveltuvuutta näille kielille.
Huom: sanakirja-aineisto on mukana vain siltä varalta että joku haluaa soveltaa sanakirjapohjaista menetelmää. Välttämättä sitä ei siis tarvita.
Tarkemmat tiedot aineistosta ja sen käytöstä ilmestyvät tänne myöhemmin (tai niitä voi kysellä Antilta).
Tuota vähintään 2 pseudosanaa (ts. sanaparia tai useamman sanan yhdistelmää) joihin sovellat menetelmää. Raportoi tulokset STT-aineistosta erotetulla erillisellä testiaineistolla.
Aineiston kuvaus, STT-aineisto siivottuna ja vielä perusmuotoistettuna.
Toimita kurssin luennoitsijalle noin puolen A4:n mittainen kuvaus ehdottamastasi aiheesta, nimeten tutkimusongelman, aineiston joka on käytettävissäsi, ja menetelmät joita ajattelit soveltaa. Keskustele aiheen sopivuudesta tarvittaessa luennoijan kanssa.
Mikäli toimitat aihe-ehdotuksen kevätlukukaudella 2002, saat viikon kuluessa palautteen sekä tiedon onko aihe hyväksytty. Muina aikoina asiasta on sovittava erikseen luennoijan kanssa.
Tietyn kentän (tässä 3. vasemmalta lukien) valitseminen kultakin riviltä kun kenttäerotin on whitespace, ja tuloksen kompressointi ja ohjaus tiedostoon res.txt.gz
gzcat MunData.txt.gz | awk '{ print $3 }' | gzip -c > res.txt.gz
Tietyn kentän (tässä 3. vasemmalta lukien) valitseminen kultakin riviltä kun kenttäerotin on kaksoispiste:
gzcat MunData.txt.gz | awk -F':' '{ print $3 }'
Kirjainten A-Z korvaaminen vastaavalla pienellä kirjaimella:
gzcat MunData.txt.gz | tr "[A-Z]" "[a-z]"
Poimitaan rivit jotka sisältävät kirjainjonon 'tärkeä':
gzcat MunData.txt.gz | grep 'tärkeä'
Poistetaan rivit joilla on kirjainjono 'foobar':
gzcat MunData.txt.gz | grep -v 'foobar'Korvataan kaikki kirjainjonon 'banaani' esiintymät jonolla 'banaaniovi':
gzcat MunData.txt.gz | perl -e 'while(<>) { s/banaani/banaaniovi/; print;}'