vrijdag 24 april 2009

Wat is informatie? (3) - waarom woorden lang zijn

Zoals we de vorige keer besproken hebben, zou je met 4 letters meer dan genoeg woorden kunnen maken voor de meeste toepassingen van Nederlands schrijven, namelijk 26x26x26x26 = 456,976 woorden (een normale taal zoals Nederlands heeft er hoogstens een paar duizend actieve, hoewel taalkundig gezien volgens Wikipedia we meer dan 250,000 verschillende woorden hebben, maar zelfs dat past binnen die vier letters!)

Het voornaamste probleem met een vier-lettertaal is dat een heleboel woorden eruit zouden zien als "nhyt" of "alsh" of "ssbm". En hoewel dat misschien wel genoeg informatie zou geven voor een geheime code, zijn die vier-letterwoorden in de praktijk niet goed uit te spreken. Die maximale capaciteit van 456,976 woorden wordt alleen bereikt als die vier letters ook onafhankelijk van elkaar kunnen zijn. Maar dat kunnen ze dus niet zijn, omdat elke letter ervoor zorgt dat er beperking is in de keuze van vervolgletter.

Bijvoorbeeld: als een woord begint met een q, wat is dan de eerstvolgende letter? Een 'u' (tenzij je het woord 'qwerty-klavier' meetelt, maar wie gebruikt dat nou? Hoewel er dus in theorie 26x26x26 woorden (=17,576) woorden met een q zouden kunnen beginnen, kunnen het er omdat de tweede letter een 'u' moet zijn maar 26x26=676 zijn. Door de q-u-regel zijn er meteen al 16,900 mogelijke woorden uit het Nederlands verdwenen! Omdat de letter na de q en u alleen a, e, i of o kan zijn, blijven er nog maar 4x26=104 mogelijke met q-beginnende vierletterwoorden over.

Als je dus dacht dat Nederlands alleen maar regels had voor woordvolgorde en het verbuigen van werkwoordstijden, dan heb je het theoretisch gezien mis: Nederlands heeft ook een boel 'verborgen' regels voor welke letters na welke andere letters kunnen komen. Een woord dat met een 'f' begint vervolgt altijd met een 'a' (fazant), 'e' (feest), 'i' (fiets), 'l' (flits), 'o' (foto), 'r' (fris) en 'u' (funest). De enige uitzonderingen zijn de latijnse woorden (fysiek), het woord 'fnuikend' (waarvan ik niet weet waar het vandaan komt) en het Scandinavische 'fjord'. Maar woorden die beginnen met 'fb' of 'fg' kun je vergeten.

Door dergelijke 'verboden' en ontmoedigingen bestaan er geen 600,000 Nederlandse 4-letterwoorden. Volgens de informatietheorie komt dat omdat de verschillende frequentieregels ervoor zorgen dat de informatie van individuele letters vermindert als ze een andere letter opvolgen. De 'u' na de 'q' komt er altijd, en geeft dus helemaal geen informatie. In plaats van de informatieinhoud van 4 letters (26^4, wat gelijk is aan 2^18.8 oftewel 19 bits) heeft de 'u' geen informatie en heeft het woord ineens maar een waarde van 3 letters ofwel 26^3 = 2^14.1 = 14.1 bits (hoe kom ik aan die 14.1? Door te rekenen: 26^3 = 17576. 2 tot welke macht is 17576? De truc met je rekenmachine daarvoor is het logaritme van 17576 te nemen en dat te delen door het logaritme van 2. Is leuk om een andere keer in detail te bespreken, maar geloof me dat het zo werkt. Bovendien klopt het met de intuitie: 17576 is iets groter dan 16,000 is ongeveer 16x1024= 2^4*2^10=2^14, dus met hoofdrekenen kom je op iets meer dan 14 bits uit). Een woord als 'quiz' heeft dus maar 14 bits aan informatie. Erger nog: omdat na de 'u' maar 4 mogelijkheden kunnen komen, is de informatie verder verminderd tot 26*1*4*26 = 2704 woorden = 11.4 bits. Kort gezegd: doordat het volgen op een bepaalde letter de kans vergroot dat een letter een bepaald type heeft en de kans elimineert dat de letter een ander type heeft, zorgen de regels van de Nederlandse taal voor 'informatiereductie'. En daarom kun je niet alle woorden van onze taal met woorden van vier letters spellen.

Het leuke is wel dat je door tabellen te maken van zowel de 'normale' frequentie van letters (bijvoorbeeld, 'e' vormt ongeveer 20% van alle letters in het Nederlands, 'f' 0.5%, zie ook hier) als de frequenties van de tweeletterstukken (zoals 'qu' 'fl' 'en') je kunt ontdekken welke taal je aan het lezen bent, iedere taal heeft zijn eigen specifieke letter- en letterpaarfrequenties. En dat geldt natuurlijk ook voor de 3-letterstukken en 4-letterstukken, hoewel daar zoveel van zijn dat de tabellen dan veel te lang worden.

Onthoud in elk geval van dit stuk dat niet alle lettercombinaties zijn toegestaan in woorden, en daarom zijn onze woorden meestal méér dan vier letters lang. De meeste woorden hebben door de verboden lettercombinaties minder informatie dan de theoretische 19 bits, stel dat ze gemiddeld zo beperkt zijn al 'qu??' - dan heb je maar 11 bits per woord, en kun je maximaal 2000 woorden maken. En waarschijnlijk nog minder.

Nu vraag je je misschien af: moet je de 'fj' van 'fjord' meetellen als een mogelijkheid na de 'f'? Of helemaal niet? Of half? Hoeveel informatie heeft de letter na de 'f' nou echt? Tel je zes letters? Of zeven letters (met 'fy'-woorden) of 8 letters? En wat doe je als iemand een nieuw woord uitvindt, zoals 'fmak'. Moet je dan 10 tellen, zelfs al is het maar één woord op de honderden? Het antwoord daarop is bijzonder boeiend. Maar laten we dat voor morgen bewaren, als afsluiting van deze informatie-marathon.

Geen opmerkingen:

Een reactie posten