Om systemet

Automatisk innhenting og bearbeiding av korpustekst

Ved Aksis har det siden 1998 blitt samlet inn et omfattende tekstmateriale bestående av norske avistekster. Databasen inneholder per i dag (2008-11) ca. 700 millioner ord, og er dermed den desidert største av sitt slag. I mangel av et stort norsk korpus og i påvente av etableringen av en norsk språkbank, har vi etablert et system for automatisk innhenting av store mengder tekst fra norske avisers nettsteder. Materialet vokser hver eneste dag. Av de 200.000-250.000 løpende ordene som daglig legges til i databasen, er 1000-1500 nyord. Samlet utgjør dette en verdifull kilde til informasjon om det norske språkets utvikling, nyorddanning, bruken av lånord og språklige bruksmønstre mer generelt. På grunnlag av bruksfrekvens blir de mest aktuelle ordene valgt ut og manuelt klassifisert. Disse ordene blir til slutt en del av databasen Norskordbank.

Nedenfor beskrives det automatiske systemet for innhenting og bearbeiding av tekst, steg for steg.

  1. Programmet w3mir laster ned den dagsaktuelle versjonen av et utvalg norske nettaviser (se egen oversikt).
  2. Programmet ekstraherer kjerneteksten. Det innebærer at det ignorerer annonsetekst, navigeringsmenyer, metatekst, html-kommentarer, og lignende.
  3. Tekstene blir automatisk klassifisert som bokmål eller nynorsk (eller engelsk, som forkastes).
  4. Materialet blir merket (Oslo-Bergen-taggeren).
  5. Programmet importerer både merket og umerket tekst inn i databasen.
  6. Nye tekster blir sjekket mot allerede registrerte ordformer.
  7. Programmet genererer til slutt en liste over ord som ikke var registrert fra før. Disse blir lagt inn i den totale ordlisten.
  8. Et frekvensbasert utvalg av de mest aktuelle ordene blir manuelt klassifisert og lagt inn i Norsk ordbank. 

 

Prinsippskisse

Prinsippskisse

 

 

Side-alternativer
Mai 2017
Mai
MaTiOnToFr
1234567
891011121314
15161718192021
22232425262728
293031