Esimerkki: opetus- ja testijoukko (train & test)

Tutkitaan esimerkin omaisesti neljästä mittauksesta vai yhtä.

Alla opetusjoukon muuttujan 'Sepal width' eli 'aluslehden leveys' (sTrainD.data(:,2)) arvoista. Koska opetusjoukko, niin kutakin arvoa vastaava oikea laji tunnetaan. Voidaan havaita, että lajilla 'Setosa' on aluslehti jonkin verran leveämpi kuin kahdella muulla.


Analyysin perusteella voisimme sanoa, että jos leveys on enemmän kuin 3,4 mm, niin kyseessä on varsin todennäköisesti 'Setosa'.

Jos saisimme uusia mittauksia aluslehden leveyksistä, niin ne voitaisiin piirtää arvoina kuten alla.


Tehtävänä olisi siis pelkän leveyden perusteella arvata/tietää, mikä on oikea laji. Äsken esitetyn perusteella voisimme luokitella kaikki näytteet yli 3,4 mm 'Setosa'-lajiksi. Todennäköisesti tekisimme myös luokitteluvirheitä: luokittelisimme 'Virginicaa' ja 'Versicoloria' erheellisesti 'Setosaksi' ja toisaalta virheellisesti luokittelisimme jonkun oikean 'Setosan' joko 'Virginicaksi' tai 'Versicoloriksi'.

Jotta voisimme ylipäätään arvioida, miten hyvä keksimämme luokitin on, niin yleensä käytössä oleva datajoukko jaetaan (ainakin) kahteen osaan. Testijoukolla, josta siis tunnemme myös luokan, voimme laskea helposti väärinluokittuneet. Jos kaikki yli 3,4 mm levyiset luokiteltaisiin 'Sertosaksi', niin ainakin yksi 'Versicolor' (indeksi 26) tulisi väärin luokitelluksi. Lisäksi usea 'Setosa' tulisi luokitelluksi väärin joko 'Versicoloriksi' tai 'Virginicaksi'.

HUOM! Nyt siis neljä eri mittausta per kukka, kaikkia käytetään hyväksi ja tehdään luokittelu ensisijaisesti käyttämällä kNN-luokitinta.