Tekoäly analysoi asiakaskyselyn avoimia tekstivastauksia

Useissa asiakastyytyväisyyskyselyissä kysytään numeerisia arvosteluja ja annetaan mahdollisuus perustella vastauksia avoimissa tekstikentissä. Kun vastauksia oli kertynyt asiakkaalle yli 10 000, volyymi vaati koneellista käsittelyä. Cybercom rakensi vastausten analysointiin tekoälytyökalun, joka mahdollistaa jatkossa vastausten nopean analysoinnin ja epäkohtiin puuttumisen.

Cybercom pääsi rakentamaan tekoälyratkaisun asiakkaansa asiakastyytyväisyyskyselyn analysointiin. Kyselyn kysymykset oli muodostettu sekä Likert-asteikolla että avoimilla tekstikenttäkommenteilla. Erityisesti haluttiin analysoida tekstikommentteja ja etsiä niistä syitä sille, miksi tietyn palvelun asiakasryhmä on toista tyytymättömämpi.

Analysoitavia vastauksia oli kertynyt jo yli 10 000, joten manuaalisesti sen läpikäyminen ei ollut enää mahdollista, vaikka sitäkin oli yritetty ja joitain löydöksiäkin saatu. Tekstidatan manuaalinen analysointi on kuitenkin erittäin aikaa vievää ja myös altista inhimillisille virheille. Lisäksi vastaava kysely toistetaan vuosittain. Siksi ratkaisu haluttiin rakentaa kerralla sellaiseksi, että se palvelee myös tulevien kyselyiden kohdalla ja säästää jatkossa merkittävästi henkilötyötunteja.

Vastausten tulkinnan lisäksi data-analyysi auttaa jatkossa muotoilemaan kysymyksiä parhaalla mahdollisella tavalla, ja ennen kaikkea kysymään juuri oikeita asioita. Kun pohjatyö on kerran tehty, tuloksia voidaan jatkossa analysoida nopeammin ja sen myötä puuttua juuri niihin asioihin, joilla on palvelun käyttäjille merkitystä.

Erkki Ruskio, Customer Service Manager, Cybercom

NLP-teknologian avulla pyrittiin etsimään toistuvia tekijöitä

Analyysissa haluttiin tutkia, löytyykö avoimista tekstikentistä selityksiä heikommille numeroarvosanoille. Tekoälyn avulla pyrittiin vastaamaan esimerkiksi seuraavanlaisiin kysymyksiin:

  • Kokoa viimeisestä kysymyksestä (Muut terveisesi) kymmenen useimmin mainittua tai käyttäjien mielestä merkittävintä tekijää.
  • Mitkä tekstimuotoisissa vapaissa kommenteissa mainitut tekijät vaikuttavat hyvien (>3) arvosanojen muodostumiseen?
  • Mitkä tekstimuotoisissa vapaissa kommenteissa mainitut tekijät vaikuttavat negatiivisten (<3) arvosanojen muodostumiseen?

Ensimmäisen kysymyksen tutkimiseksi muodostettiin baseline perinteisellä ngram-menetelmällä, jonka avulla haluttiin tietää, onko tekstikentässä ensinnäkään merkittäviä tekijöitä. Tekstissä todettiin esiintyvän mm. yleisiä sanapareja, joten teksti oli mahdollista jakaa aihealueisiin. Jakoon valittiin neuroverkkoihin perustuva FinBERT, joka on mallinnettu käyttäen suomenkielisiä tekstejä. Sen avulla kukin teksti voidaan projisoida noin 700-ulotteiseen avaruuteen, jolloin samankaltaiset aiheet voitiin ryhmitellä käyttäen perinteisiä luokittelumenetelmiä. Koska tekstissä esiintyi suomenkielen lisäksi myös ruotsin- että englanninkieleisiä kommentteja, kokeiltiin myös vastaavaa monikielistä LaBSE-menetelmää. Asiakkaan kanssa pohdittiin, montako aihealuetta haluttiin tarkasteltavaksi.

"Suomen kieli on agglutinatiivinen kieli, eli sanarunkoon voidaan lisätä runsaasti erimuotoisia osia. Tämän vuoksi ideaalisten mallien opettamiseen tarvittaisiin hypoteettisesti kaikkia sanamuotoja kaikissa eri aiheyhteyksissä esiintyviä tekstejä. Koska opettamiseen käytetty aineisto on aina rajallinen, mallien suorituskyky on myöskin rajallinen", kertoo projektissa data scientistina toiminut Cybercomin Petri Puustinen.

LaBSE-menetelmällä saatiin kuitenkin riittävän hyviä aihealueita eristetyksi, koska sen avulla myös englannin- ja ruotsinkieliset aiheet saatiin samoihin alueisiin suomalaisten tekstien kanssa. Jatkokysymysten suhteen haasteena oli liittää muodostetut aihealueet negatiivisiin ja positiivisiin arvosanoihin.

Vastausten analysointiin päätettiin käyttää NLP- eli Natural Language Processing teknologiaa. Koneoppimisen ja luonnollisen kielen prosessoinnin avulla on mahdollista analysoida suuria määriä tietoa nopeasti ja kustannustehokkaasti.

Haasteena teknologioiden suomen kielen taito

NLP-teknologiat ovat kehittyneet merkittävästi viime vuosien aikana ja niiden avulla voidaan tehostaa prosesseja huomattavasti. Vaikka puhutuimmille kielille on suoraan tarjolla valmiita ratkaisuja, NLP-ratkaisujen suomen kielen taito on vielä tällä hetkellä hyvin rajallista. Tässä toteutuksessa oman haasteensa aiheutti se, että vastauksia oli annettu kolmella kielellä ja osa käytetystä sanastosta oli asiakkaan sisäistä.

Nykyisillä koneoppimis-/tekoälymenetelmillä ei ole ylipäätään mahdollista täydellisesti “ymmärtää” tekstiä. Yksi haaste oli tälle datalle sopivan klusterointitavan löytäminen.

Lopputuloksena selkeä kansankielinen esitys

Analyysin lopputuloksena vastausten ja arvosanojen todettiin jakautuvan tiettyjen ehtojen mukaan. Lopputuotteena oli selkeä kansankielinen esitys, jossa löydöksiä esiteltiin. Data-analyysi todettiin hyödylliseksi ja sitä jatketaan tulevien kyselyiden myötä.

"Vastausten tulkinnan lisäksi data-analyysi auttaa jatkossa muotoilemaan kysymyksiä parhaalla mahdollisella tavalla, ja ennen kaikkea kysymään juuri oikeita asioita. Kun pohjatyö on kerran tehty, tuloksia voidaan jatkossa analysoida nopeammin ja sen myötä puuttua juuri niihin asioihin, joilla on palvelun käyttäjille merkitystä", kertoo projektipäällikkönä toiminut Cybercomin Erkki Ruskio.

Analyysin avulla päästään nopeammin kiinni vastausten syihin ja ongelmiin voidaan puuttua. Reagointi nostaa käyttäjien motivaatiota vastata kyselyihin jatkossakin.

Jaa

Kiinnostuitko tekoälyn tuomista mahdollisuuksista? Ota yhteyttä, olemme apunasi!

Jyri Lintunen

Sales Executive

Varmista, että tietosi ovat oikein jokaisessa kohdassa.

Kiitos, viesti on lähetetty.