HUT/NNRC-TEKSTIKOKOELMA ----------------------- Käyttötarkoitus: Kurssin Luonnollisen kielen tilastollinen käsittely (T-61.281) harjoitustyötä varten (Muita käyttötarkoituksia varten kysyttävä erikseen lupa ja/tai tarkistettava kunkin käytetyn dokumentin käyttöoikeudet ja huolehdittava asianmukaisista viittauksista) Aineisto: Joukko osoitteesta http://www.cis.hut.fi/ kerättyjä dokumentteja jossakin määrin esikäsiteltyinä. Mukana on seuraavanlaisia dokumentteja: - SOM Toolbox -nimisen matlab-paketin dokumentaatiota http://www.cis.hut.fi/projects/somtoolbox/package/docs2/ - Otteita Aapo Hyvärisen ICA-tutoriaalista IJCNN99-konferenssiin http://www.cis.hut.fi/aapo/papers/IJCNN99_tutorialweb/ - Otteita informaatiotekniikan laboratorion ja Neuroverkkojen tutkimusyksikön kaksivuotisraportista vuosille 2000-2001 http://www.cis.hut.fi/research/reports/biennial00-01/ - Otteita Timo Honkelan väitöskirjan johdanto-osuudesta http://www.cis.hut.fi/tho/thesis/ - WSOM'97-konferenssin abstraktit http://www.cis.hut.fi/wsom97/ Kunkin osuuden kirjoittajien oikeudet säilyvät muuttumattomina. Tiedostomuoto: Aineiston saa käyttöön seuraavilla unix-komennoilla: > gunzip hut_nnrc_collection03.tar.gz > tar xvf hut_nnrc_collection03.tar Huomaa, että kokoelma purkautuu samaan hakemistoon kuin missä tar-komento annetaan. Aineistossa on 370 dokumenttia, jotka on koodattu xml-tyyliin seuraavasti: ... mistä dokumentti on saatu ... ... kirjoittaja(t) ... ... leipäteksti ... Joissakin tiedostoissa on author-kenttä on ennen source-kenttää. WSOM-kokoelmassa author-tagit ovat eri rivillä kuin itse kirjoittajien tiedot. Käsittely- vinkkejä: Perl-ohjelma, jolla voi poimia yksittäisestä tiedostosta pelkästään tekstiosuuden on annettu seuraavassa. Ohjelma ei ole lyhin mahdollinen eikä se myöskään toimi kaikissa periaatteessa samanlaista xml-formaattia noudattavissa dokumenteissa. #!/usr/bin/perl $tekstiosuus = 0; while(<>) { if( // ) { $tekstiosuus = 1; } elsif( /<\/text>/ ) { $tekstiosuus = 0; } elsif( $tekstiosuus ) { print $_; } } Kokoaja: Timo Honkela, Fri Jan 24, 2003 timo.honkela@hut.fi