Tyylianalyysi

Tavoitteena on, että opiskelija ymmärtää pääpiirteissään sen prosessin, jolla joukosta dokumentteja tuotetaan itseorganisoivaan karttaan (Self-Organizing Map, SOM) perustuva dokumenttikartta perustuen merkityssisältöä kuvaaviin piirteisiin (ks. aihetta koskeva luentokerta) ja toisaalta tyyliä kuvaaviin piirteisiin.

Esikäsittely ja datan luominen

Dokumenttikartan tuottaminen SOM-menetelmällä

Tässä esimerkissä käytetään SOM_PAK-ohjelmistoa (ks. myös ohjeet). Vaihtoehtoinen tapa on käyttää esimerkiksi Matlab-ympäristössä toimivaa monipuolisempaa SOM Toolbox -pakettia.

Skripti kartan tuottamiseen löytyy tiedostosta doc_map_creation.run:

randinit -din style.dat -cout style.ini -topol rect -neigh bubble -xdim 4 -ydim 7
vsom -din style.dat -cin style.ini -cout style.first.cod  -rlen 1000 -alpha
0.2 -radius 5
vsom -din style.dat -cin style.first.cod -cout style.cod  -rlen 20000 -alpha 0.02 -radius 1
vcal -din style.dat -cin style.cod -cout style.lab -numlabs 0
umat -cin style.lab -o style_umat.eps -eps 1 -average 1 -fontsize 0.50 -notitle -median
umat -cin style.lab -o style_umat.ps -ps 1 -average 1 -fontsize 0.50 -notitle -median

Lopputuloksena syntyvän style_umat.ps-tiedoston voi vielä halutessaan muuttaa pdf-muotoon:

psp2df style_umat.ps style_umat.pdf

Tyylipiirteistä

Ks. esim. http://www.stat.rutgers.edu/~madigan/AUTHORID/bibliography.html.

Karlgren (2000) (Figure 7.2) (ks. em. lista) esittää väitöskirjassaan joukon käyttämiään piirteitä, esimerkiksi: