Leksikalsk analyse af krimitekster – sammenhæng ml. ordforråd & læsning?

Jeg har lavet en leksikalsk frekvensanalyse af udvalgte krimitekster fra et gammelt, men godt forløb om Tod, Mord und Rache. De anvendte tekster i analysen er en lille samling avisartikler samt en lille novelle (se nederst).

Hvorfor nu det?

Det drejer sig om tekstdækning (text coverage)

Fremmedsprogsforskningen har vist, at en læser har brug for at kende op mod 98 % af ordene i en tekst for at kunne forstå den. Hvis teksten læses med hjælpemidler (som i den danske tyskundervisning med gloser og ordbog), anslås tallet at være 90 %.

Hvis vi analyserer frekvensen af de ord, der optræder i en tekst, er det måske muligt at finde ud af, hvor stort et ordforråd eleven skal have for at opnå 90 % tekstdækning (text coverage).

Det kan være en hjælp, når vi som lærere skal vurdere teksters sværhedsgrad.

Derudover vil jeg gerne blive klogere på læsningen i tyskfaget, hvis jeg skal retfærdiggøre brugen af ordforrådstests. Det er jo kun relevant at tage en ordforrådstest, hvis man samtidig ved, om testresultatet kan relatere sig til mere generelle sproglige kompetencer som at læse.

Hvor meget fylder fx de hyppigste 500 ord på tysk?

I analysen har jeg samlet de tyske ord fra teksterne og så inddelt dem efter frekvens/hyppighed – både den hyppighed, som de optræder med i teksterne, og den hyppighed, som de har i det tyske sprog.

Et ord som ”in” er en del af top500 på tysk. Det optræder 87 gange i teksterne.  Med det tal kan jeg både beregne ”in”s andel af den samlede ordmængde, og jeg kan regne det med i top500-gruppen og nå frem til den tekstdækning, som man opnår med kendskab til de hyppigste 500 ord på tysk.

Jeg har foretaget frekvensanalysen af det valgte tekstkorpus vha. programmet Sketch Engine og en masse ark i Excel 😊 Det tager ca. 4 dage at analysere en tekst bestående af knap 4000 ord, da inddelingen i frekvensområder stadig foregår manuelt på tysk. Til engelske (og franske) tekster findes værktøjet Lextutor, men der mangler et tilsvarende værktøj til tysk.

Resultatet af frekvensanalysen:

Der er i alt 3687 ”tokens” (individuelle ord). De fordeler sig på 1050 lemmaer (ordets grundform samt bøjninger inden for samme ordklasse).

Jeg regner proprier (og numeralier) med til elevens forståelse, da jeg forudsætter et kendskab til de person- og bynavne, der optræder i teksten, men det kan naturligvis ikke tages for givet.

Frekvensområde

(NB! proprier og numeralier tælles med i den samlede dækningsgrad)

Dækningsgrad Samlet dækningsgrad (kumuleret)
Proprier og numeralier 8 % 8 %
Top10 29 % 37 %
Top100 (10 – 100) 18 % 55 %
Top500 (101 – 500) 14 % 69 %
Top1000 (501 – 1000) 7 % 76 %
Top2000 (1001 – 2000) 6 % 82 %
Top3000 (2001 – 3000) 2 % 84 %
Top4000 (3001 – 4000) 3 % 87 %
Top5000 (4001 – 5000) 2 % 89 %
Over5000 11 % 100 %

 

Resultat og sammenligning med engelsk*

De 10 hyppigste lemmaer på tysk udgør 29 % af ordene. Det drejer sig om den bestemte og ubestemte artikel, personlige og refleksive pronominer, sein (vb), in, und, zu, von, werden & mit.

På engelsk udgør top10 typisk 25 %.

Top 100 giver en tekstdækning på 55 % (på engelsk er det 50 %).

Med kendskab til top500 kender man 69 % af ordene i tekstsamlingen. Det er pænt mange, så det burde give mening at træne disse 🙂

Med top1000 opnår man en tekstdækning på 76 %. Her bliver tysk overhalet af engelsk, da tallet her er 80 %. Med top 2000 bliver forskellen endnu mere tydelig, da tallet fra de tyske tekster er 82 %, mens det på engelsk er 90 %.

Først med et kendskab til de hyppigste 5000 ord på tysk rammer man den anbefalede tekstdækning på 90 %.

De højfrekvente ord giver bedre dækning på tysk, men så flader det ud, og tysk ser ud til at kræve et større ordforråd end engelsk for at opnå en tekstdækning på 90 %.

Betyder det, at tyske tekster kræver et større ordforråd end engelske tekster og derfor er sværere at læse?

Så enkelt kan det ikke siges. Til dels vil et langt større tekstkorpus skulle analyseres, før man har et tilfredsstillende datagrundlag, og til dels er der mange andre faktorer, der har en indflydelse på en elevs læsekompetence.

I mellemtiden kan man som lærer glæde sig over 2 små ting:

1) at 4 % af ordene er identiske med dansk (Video), så her er der 100 % jackpot, uanset om ordet er placeret i top1000 eller i kategorien over5000.

2) at 4 % af de 11 % sværeste ord er sammensatte ord som fx “Schulmassaker”.

Det gør måske læsningen af tyske tekster mere overkommelig for danske elever.

Det kan man håbe, for 5000 ord er mange ord!

Teksterne i denne lille krimi-samling:

  • 113 Kugeln kalte Wut (Stern, 16.03.2009 )
  • Wer ist der Täter? Das sagen Psychologen (Bild.de am 11.03.2009)
  • Schüler von Winnenden haben noch immer jeden Tag Angst (Bild.de am 18.06.2009)
  • Ein Jahr nach dem Amoklauf. Die Gesichter von Winnenden (in Bild.de am 11.03.2010)
  • Es zerreißt uns & Familie des Amokläufers schreibt offenen Brief (in Bild.de am 17.03.2009)
  • Falko Hennig: Ein ganz normaler Mann (in Falko Hennig: Radio Hochsee)

*de engelske tal stammer fra mange forskellige kilder, fx. Paul Nation (2014): What do you need to know to learn a foreign language? , William Grabe (2009): Reading in a Second Language. Moving from Theory to Practice og Uden, Schmitt & Schmitt (2014): Jumping from the highest graded readers to ungraded novels: four casestudies.

Skriv et svar

This site uses Akismet to reduce spam. Learn how your comment data is processed.