Om ord, frekvens og korpuslingvistik

Jeg har i mange år tænkt over, hvilket ordforråd jeg kan forvente hos mine elever og hvilke ord de bør lære i løbet af 2 – 3 års tyskundervisning på gymnasiet.

Hvilke ord får de brug for senere i livet i forbindelse med uddannelse og arbejde? Hvilket ordforråd kan hjælpe dem med at læse de tekster, de møder i gymnasiet? Hvordan får de mest effektivt et velfungerende ordforråd?

På grund af disse spørgsmål er jeg blevet en begejstret korpuslingvist.

Korpuslingvistik

Korpuslingvistik beskæftiger sig med kvalitative eller kvantitative undersøgelser af sproget med henblik på at kunne analysere sprogbrugen inden for et givent felt eller et helt sprogområde.

Det betyder, at du kan udtale sig om sprogbrug ved at analysere store tekstsamlinger.

Tekstsamlinger (korpora) 

Der findes ikke mange tilgængelige tyske tekstkorpora, men jeg har brugt wortschatz.uni-leipzig.de og Sketch Engine, der begge er enorme tekstsamlinger, hvor du kan finde viden om tyske ords hyppighed, deres kollokationer og meget andet.

Uni-Leipzig til den daglige undervisning

 Denne portal vil jeg anbefale til brug i den daglige undervisning eller i forbindelse med eksempelvis oversættelsesarbejde.

Her kan du hurtigt undersøge, om et givent ord bruges hyppigt på tysk og hvilke ord det oftest forbindes med. Det har både jeg og mine elever brugt ved fx sagprosa med særlige udtryk, hvor du har brug for mere end en almindelig ordbog. Deres tekstsamling er med 1 million sætninger mindre end Sketch Engine, men til gengæld er deres søgefunktion meget lettere at bruge.

Sketch Engine er den største samling af ord

Sketch Engine har jeg brugt til at lave mine egne frekvenslister over det tyske sprog.

I deres korpus German Web 2013 finder du 16 milliarder ord samlet fra tyske kilder på internettet i 2013. Kilderne består af så forskellige sites som nyhedsmedier, personlige blogs, kirke- og kultursider, handelssider og sågar litteratursamlinger, så det giver et pålideligt billede af moderne tysk skriftsprog.

Opdatering: I deres nye korpus German Web 2018 er der 5,346,041,196 ord samlet fra 13,772,016 dokumenter i december 2018 og januar 2019. Som i 2013 består kilderne af et bredt udsnit af websider. Jeg har sammenlignet de hyppigste 500 ord i de to korpora, og der er ikke stor forskel på, hvilke ord, der optræder. De typiske forskelle består i et par pladser op eller ned på listen, f.eks. fra plads 103 til plads 108.

Det er meget betryggende (og det giver god mening), at det tyske skriftsprog mht. de højfrekvente ord ikke har ændret sig fra 2013 til 2018. 

Ved at analyse dette store tekstkorpus har jeg lavet frekvenslister (ordlister), som jeg siden hen har inddelt i ordklasser og emner. Nogle af ordlisterne kan downloades rundt omkring på derdiedas.dk.

 

Skriv en kommentar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

This site uses Akismet to reduce spam. Learn how your comment data is processed.