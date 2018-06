Kommunene kan sitte på noe som kan bli gull for norsk språkteknologi – uten å være klar over det.

I mars i år arrangerte Språkrådet Språkdagen. Der diskuterte forskere, næringsliv og politikere framtida til norsk i digitale verktøy.

Ett av eksemplene var – av alle ting – et kjøleskap, som ikke bare holder melken kald, men som sier fra når det er tomt for melk, og setter det på handlelisten din. Du kan også legge til ting på listen bare ved å snakke til kjøleskapet.

Foreløpig forstår og snakker slike intelligente kjøleskap bare engelsk. Vi vil at de skal forstå og snakke norsk, uten at oslofolk, siddiser eller setesdøler skal behøve å legge om dialekten sin.

Det kan være fint å ha et kjøleskap man kan snakke med, men enda finere kan det være å ha en egen personlig assistent å kommunisere med. De som jobber i helsevesenet, kjenner kanskje til den stemmestyrte norske Tuva, som kan skrive dokumenter og betjene en datamaskin.

Noen har kanskje snakket med Siri, som er installert på Apples mobiltelefoner. De som kjenner henne, vet at hun svarer på spørsmål så godt hun kan, men Siri skjønner ikke alltid hva man ber henne om. Også Google og Amazon selger i disse dager liknende teknologi – som foreløpig bare tilbys på engelsk, men den kommer forhåpentlig snart på norsk også.

I et intervju med Dagens Næringsliv 10. januar i år forklarer Tilke Judd, lederen for utviklingen av Google Assistant i Europa, hva som skal til for at denne digitale assistenten kan lære nye språk: «Systemet er basert på maskinlæring som krever opplæringsmateriale å lære av. Jo mer muntlig og skriftlig materiale som er tilgjengelig, jo raskere og mer presis blir læringen. Hvilke språk som støttes, handler ikke direkte om hvor stort eller viktig et marked er, men tilgangen på læringsmateriell og hvor komplekst et språk er.»

Hva innebærer alt dette for oss i Norge? Ganske enkelt at uten nok norske språkdata kan denne typen datateknologi ikke utvikles på norsk. I verdenssammenheng er norsk faktisk et ganske stort språk, men for internasjonale utviklere utgjør fem millioner morsmålsbrukere et relativt lite marked med tanke på de investeringene som må til for å utvikle nye teknologiske ressurser i norsk språkdrakt.

Det er ønskelig at alle framtidige dataløsninger skal kunne finnes på norsk. Derfor samarbeider Språkrådet og Nasjonalbiblioteket om å gjøre tilgjengelig ressurser som på lengre sikt skal bli store nok og gode nok til at bedrifter som utvikler språkteknologiske produkter, skal kunne nyttiggjøre seg dem. Ressursene er samlet inn fra både offentlige og private virksomheter, og de lagres og deles gjennom den norske Språkbanken.

Hovedtanken er å gjenbruke data som det er kostnadskrevende å produsere. Språkteknologien utvikler seg i en rasende fart. Det som trengs for at denne teknologien skal være tilgjengelig på norsk, er enda større datamengder som maskinene kan arbeide med. I tillegg trengs det et regelverk som sikrer at offentlige virksomheter bestiller teknologi med norskspråklig innhold.

Mange kommuner har vært med på å utvikle prateroboter, eller chatbots, som svarer automatisk på skriftlige spørsmål, enten de er stilt på bokmål eller nynorsk. Hvis roboten er koblet til en talegjenkjenner som kan gjøre tale om til skrift, kan man stille spørsmålene muntlig – på norsk.

Hvor gode svar en slik robot gir, kommer blant annet an på hvor flink den er til å forstå spørsmålene den får. Roboten skal forstå dialekten din og koble synonymer, slik at du får samme svar enten du har spørsmål om måkebilen eller brøytebilen. Så langt det er mulig, skal den også gjennomskue stavefeil. Jo mer språkdata den er fôret med, jo bedre er den i stand til å svare.

For å få disse språkdataene trenger vi rutiner for å sikre at alle typer språkdata som utvikles for offentlige midler, blir samlet inn til Språkbanken. Data som hver for seg virker små, kan samlet utgjøre en ressurs som kan benyttes til både kjente – og kanskje også hittil ukjente – produkter.

Vi tror at det både i offentlig og privat sektor i Norge ligger mange ulike datasamlinger som kan brukes til helt andre teknologiske formål enn det de opprinnelig var samlet inn til. Kommunene kan altså sitte på noe som kan bli gull for norsk språkteknologi – helt uten å være klar over det!

Sentrale mål for den norske språkpolitikken er å sikre norsk som fullverdig bruksspråk, å sikre begge de to norske skriftspråkene (bokmål og nynorsk) og å sikre språklig mangfold i Norge.

Hvis vi skal bevare dialektmangfoldet vårt i framtida, er det viktig at digitale produkter kan forstå norske dialekter. Da trenger vi store mengder digitale dialektdata som kan mates inn i disse produktene. Det er bare vi som kan bestemme om vi skal snakke norsk eller engelsk til kjøleskapet vårt i framtida.