MitÄ signaalinkÄsittely voi kertoa meille ihmisen nÄkÖjÄrjestelmÄstÄ?

(esitys Tieteen Päivillä 2001)

Aapo Hyvärinen ja Patrik Hoyer
Neuroverkkojen tutkimusyksikkö
Teknillinen Korkeakoulu

Ihmisen tärkein aisti on näköaisti, joten on selvää, että jo pitkään on yritetty selvittää, kuinka näkeminen oikein tapahtuu. Mehän näemme koko ajan sujuvasti, mitä ympäristössämme on, mutta tämän näennäisen helppouden taa kätkeytyy erittäin monimutkainen järjestelmä, jonka toimintaperiaatteista tajutaan vain pieni osa. Tämän esitelmän tarkoituksena on selittää, kuinka matematiikan ja tietotekniikan tutkimus voisi auttaa näkemään jotain tämän järjestelmän rakenteesta.

NÄkÖtutkimuksen ongelmia

Näkötutkimus on jakautunut kahteen haaraan: toisaalta pyritään selvittämään, kuinka ihmisen ja muiden eläinten näköjärjestelmä toimii, ja toisaalta pyritään tekemään laitteita, jotka pystyisivät ``näkemään'' eli tunnistamaan joitain asioita tai esineitä.

Ihmisen näköjärjestelmä on laaja ja monimutkainen. Silmän verkkokalvolta hermoimpulssit välittävät tietoa takaraivossa sijaitsevalle primaariselle näköaivokuorelle, siinä välissä aivojen keskiosassa sijaitsevan talamuksen kautta kiertäen. Tästä osasta näköjärjestelmää tiedetään jonkin verran, joskin paljon on vielä selvittämättä. Primaariselta näköaivokuorelta hermoimpulssit välittävät tietoa muille näköaivokuoren alueille, joiden toiminnasta tiedetään hyvin vähän.

Ihmisen näköjärjestelmää tutkivat ennen kaikkea psykologit ja aivotutkijat. Psykologit (tai kognitiotieteilijät) tyypillisesti käyttävät ns. psykofysikaalisia metodeja eli näyttävät ihmisille erilaisia yksinkertaisia kuvia ja kysyvät eri tavoin, mitä nämä koehenkilöt niissä näkevät. Lääketieteellisen tai biologisen koulutuksen saaneet näkötutkijat taas yleensä mittaavat koe-eläinten (tai joskus koehenkilöiden) aivojen toimintaa kun niille näytetään erilaisia vänkyröitä.

Ihmisen näköjärjestelmän tutkimus on hyvin kiehtova ongelma. Se on aivotutkimuksen tärkeimpiä osa-alueita, joten se pohjimmiltaan auttaa osaltaan eräässä nykytieteen suurimmista ongelmista: Kuinka aivot toimivat? Ihmisen näön tutkimuksella on myös monia käytännön sovelluksia. Tutkimustuloksia voidaan hyödyntää silmävammojen ja -sairauksien hoidossa, ja toisaalta esim. tehtäessä parempia tietokonemonitoreja ja käyttäjäystävällisempiä ohjelmia. Kuten edellä jo kävi ilmi, näkeminen voidaan mieltää tiedon käsittelyksi, joten ei ole yllättävää, että tietotekniikassa on pohdittu samankaltaisia ongelmia.

Tietokonenäköä tutkivat yleensä insinöörit, jotka pyrkivät rakentamaan tietokoneita ja muita vempaimia, jotka jollain tavalla näkisivät ympäristössään olevat esineet. Esimerkiksi robotti voisi kulkea ympäristössään koko aikaa seiniin törmäilemättä, jos se pystyisi hahmottamaan ympäristönsä, vaikkapa sen päähän ruuvatun videokameran antaman tiedon perusteella. Tällainen videokamera syöttää robotin keskusprosessoriin jatkuvasti valtavan monimutkaista videosignaalia, jonka käsittely on oma ongelmansa. Ehkä yksinkertaisempi sovellus samoille menetelmille olisi WWW:ssä olevien kuvien osasten tunnistaminen, jolloin hakukoneella voisi hakea vaikkapa Paavo Väyrystä esittäviä kuvia (tosin tällaisesta henkilöllisyyden tunnistuksesta on nykytekniikka vielä hyvin kaukana).

Kuvamateriaali on vaikeaa käsitellä, koska se on yleensä hyvin monimutkaista ja sitä täytyy analysoida valtavan suuria määriä. Esim. videokamera voi yhdessä minuutissa suoltaa dataa niin paljon, että tavallisen PC:n kovalevy täyttyy kokonaan. Pelkästään tällaisen datamäärän mekaaninen läpikäyminen voi viedä tietokoneen prosessorin koko kapasiteetin, niin että syvällisempään analysointiin, kuten esineiden tunnistamiseen, ei enää jää aikaa.

Toinen keskeinen ongelma on se, että esim. ihmisen kasvojen tunnistaminen on kaikkea muuta kuin yksinkertainen mekaaninen toimenpide, ja tietokoneethan osaavat suorittaa lähinnä mekaanisia tomenpiteitä. Kasvot näyttävät aika erilaisilta eri kuvakulmista, eri valaistusolosuhteissa, eri ilmeissä ja niin edespäin. Kuinka tämä vaihtelevuus voitaisiin ohjelmoida tunnistusohjelmaan? Vaikka tietokoneiden kapasiteetti kasvaa koko ajan, ongelmaksi muodostuu siis jo sekin, ettei kukaan hirveän hyvin tiedä, kuinka tietokoneen voisi ohjelmoida suorittamaan tällaisia toimenpiteitä.

Kuvan esitys ja signaalinkÄsittely

Keskeinen ongelma kuvan käsittelyssä on sopivan esityksen löytäminen. Itse asiassa koko aivotutkimuksen ja kognitiotieteen tärkeimpiä ongelmia on se, kuinka kuvat ja muut ajatuksen kohteet esitetään aivoissa (tai mikä on niiden ``edustus'' aivoissa, vaihtoehtoisen sanamuodon mukaan). Sama ongelma kohdataan myös muiden aistihavaintojen, kielen ja mielikuvien suhteen.

Asiaa voi havainnollistaa esimerkillä kognitio- ja aivotutkimuksen toiselta alueelta. Numerot voi esittää arabialaisin numeroin tai roomalaisin numeroin. Lisäksi ne voi esittää normaalisti kymmenkantaisina tai binaarilukuina kuten tietokoneiden sisällä. Siten esimerkiksi luku 42 voidaan esittää kolmella eri tavalla:
42
XLII
101010
Eri tilanteissa eri esitykset ovat kätevämpiä. Tietokoneet perustuvat binaariseen esitykseen, koska se on helpoin toteuttaa elektronisina piireinä. Me ihmiset käytämme yleensä kymmenkantaista arabialaista esitystä, koska se on kätevämpi esim. jos haluaa laskea yhteen tai kertoa lukuja paperilla. Roomalainen esitys ei sovellu juuri muuhun kuin kuninkaiden järjestysluvuiksi.

Signaalinkäsittelyn tutkimuksessa on kehitetty monenmoisia matemaattisia metodeja signaalien, ja siis vaikkapa kuvatiedon esittämiseen. Signaalinkäsittelyn esitykset ovat nk. matalan tason esityksiä, ts. ne perustuvat yksinkertaisiin muunnoksiin, ja kuvaavat yksinkertaisia ominaisuuksia. Jotkut näistä pohjautuvat klassisiin matemaattisiin ideoihin, kuten Fourier-analyysi. Toiset käyttävät hyvin äskettäin, mahdollisesti juuri tätä tarkoitusta varten kehitettyjä teorioita, kuten nk. aallokkeet ja riippumattomien komponenttien analyysi.

Yksinkertaisin esitys mustavalkoisille kuville on jakaa ne pieniin neliöihin (joita kutsutaan pikseleiksi) ja laskea kunkin neliön keskimääräinen tummuus/vaaleusaste. Voisimme vaikka sanoa, että täysin valkea neliö saa arvon 10, ja täysin tumma neliö arvon 0, ja muut tummuusasteet ilmaistaan desimaaliluvuilla 0 ja 10 välillä. Tämänkaltainen esitys on kaiken kuvan käsittelyn perustana. Ihmisen verkkokalvolla muodostuu jossainmäärin tämänkaltainen esitys (varsinkin hämärässä, jolloin värinäkö ei kunnolla toimi).

Tyypillisesti kuvankäsittelyssä käytetään nk. aalloke tai Gabor -esityksiä, joissa perusideana on esittää kuva lyhyiden ääriviivanpätkien summana. Tämä esitys ei ole kaukana siitä mitä primaarisen näköaivokuoren nk. simppelit solut tekevät.

Esityksen oppiminen tilastollisilla periaatteilla

Meidän tutkimuksemme lähtökohtana on idea, että paras tapa esittää kuva on se, ettei käytetä mitään etukäteen määrättyä esitystä, vaan annetaan esityksen muotoutua sen mukaan, mitä täytyy esittää. Toisin sanoen: hyvä esitys voidaan oppia kunhan meillä on riittävä määrä esimerkkejä siitä tietojoukosta, joka täytyy esittää.

Käsittelemme kuvadataa tilastomatematiikan menetelmin. Yritämme kuvata ``luonnollisten'' kuvien rakennetta todennäköisyyslaskennan ja tilastotieteen avulla. Oletamme, että kuvat, joita silmämme näkevät normaalissa elämässä, sisältävät tilastollisia lainalaisuuksia. On asioita, joita niissä esiintyy usein, ja asioita, joita esiintyy harvoin. Tietyt asiat esiintyvät yleensä yhdessä, kun taas toiset eivät koskaan esiinny yhdessä. Esimerkiksi: Näet usein tuoleja, kun taas harvemmin pieniä vihreitä miehiä.

Tilastollinen suhtautuminen kuviin soveltuu parhaiten edellämainittujen alhaisen tason esitysten tutkimiseen. Esimerkiksi on helppo todeta, että luonnollisissa kuvissa on paljon ääriviivoja. Tämä intuitiivinen havainto on tärkeä pohja tutkimuksessamme.

Mitä tilastollisia malleja sitten käytämme kuville? Mallimme perustuvat äskettäin kehitettyn nk. riippumattomien komponenttien analyysiin. Tämä on faktorianalyysiä suuresti muistuttava metodi, joka kuitenkin eroaa klassisesta faktorianalyysistä siten, että faktorit eli komponentit ovat epägaussisesti jakautuneita. Yleensä tämä epägaussisuus ilmenee siten, että faktorien itseisarvot ovat suhteellisen usein joko hyvin suuria tai hyvin pieniä, ja harvemmin siinä välissä olevia (verrattuna vastaavaan gaussiseen eli normaalijakaumaan). Kun tämä malli estimoidaan suuresta määrästä luonnollisten kuvien palasia, saadaan opittua kuvasta nuo halutut piirteet.

Riippumattomien komponenttien analyysi voidaan kuvien kyseessä ollessa tulkita intuitiivisesti nk. harvakoodauksena. Tämä tarkoittaa, että piirteet ovat harvoja, ts. ne ovat suurimman osan ajasta poissa päältä. (Mikä johtuu juuri edellä kuvatun tapaisesta faktorien epägaussisuudesta.) Yksittäinen kuva voidaan siis kuvata käyttäen vain pientä määrää piirteitä; suurin osa piirteistä on tarpeettomia annetulle kuvalle. Tarvitut piirteet ovat kuitenkin erilaisia eri kuville.

Harvakoodauksessa siis tilanne on hieman samankaltainen kuin jos kuvia kuvaltaisiin verbaalisesti: Yhtä kuvaa kuvailtaessa tarvitaan ehkä vain muutamia kymmeniä sanoja kielemme suuresta sanavarastosta. Mutta jos täytyy kuvata suuri määrä erilaisia kuvia, niin loppujen lopuksi hyvin suuri määrä sanoja tulee käytettyä: käytetyt sanat vain ovat eri sanoja eri kuville.

Riipumattomien komponenttien analyysi sellaisenaan soveltuu mallintamaan primaarisen näköaivokuoren simppelien solujen perusominaisuuksia. Se nimittäin esittää kuvan juuri lyhyiden ääriviivojen pätkien summana, pitkälti kuten aallokkeet ja Gabor-analyysi. Mikä ei ole mikään ihme, koska kuten edellä todettiin, luonnollisten kuvien perusominaisuus näyttää olevan juuri ääriviivat.

Olemme kehittäneet kaksi uutta mallia, riippumattomien aliavaruuksien analyysin, ja topografisten komponenttien analyysin, jotka mallintavat nk. kompleksien solujen ominaisuuksia, ja simppelien solujen jakautumista näköaivokuorella. Pyrkimyksenämme on rakentaa lisää malleja, joilla voisimme kuvata yhä enemmän primaarisen näköaivokuoren ominaisuuksia, ja ehkä muidenkin näköaivokuoren osien.

Vastataksemme otsikon kysymykseen: signaalinkäsittelyn tilastolliset mallit kertovat, että osa ihmisen näköjärjestelmässä tapahtuvasta tiedonkäsittelystä on optimaalisesti sopeutunutta luonnollisten kuvien tilastollisiin ominaisuuksiin. Riippumattomien komponenttien analyysi (ja harvakoodaus) näyttävät olevan tärkeitä periaatteita kuvailtaessa näköinformaation käsittelyä aivoissa.

Lue lisää asiasta tästä projektinkuvauksesta. Tutkimusryhmämme kotisivu on täällä.



Sivu kirjoitettu 16 Jan 2001