woensdag 4 februari 2009

Hoe werkt wetenschap? (8) - Obama en de boom, ofwel: correlatie

De vorige keer vertelde ik hoe ik door fragmenten te tellen erachter was gekomen dat een heleboel molecuulringen nauwelijks door chemici gebruikt werden. En dat is handig te weten voor die chemici, zodat ze niet vergeten ook naar die andere ringen te kijken. Maar was dat voldoende voor een artikel? Misschien wel, maar andere onderzoekers hadden ook al iets gepubliceerd over ringen en dergelijke. Niet precies wat ik had gedaan, maar het leek er wel op.

Dus besloot ik het onderzoek uit te breiden zodat ik zeker iets nieuws erin had. En dat lag ook voor de hand, want je hebt geen winkelmandjesanalyse nodig om te zien hoeveel pindakaas er in een supermarkt wordt gekocht – daarvoor hoef je alleen maar na te gaan hoeveel potten je afgelopen jaar hebt moeten bestellen. Maar bij winkelmandjes gaat het erom welke dingen samen worden gekocht – dus welke fragmenten zaten samen met elkaar in één molecuul?

Nu bestaat er in de wetenschap zoiets als de “nul-hypothese”. De nul-hypothese betekent grofweg dat je er vantevoren vanuit gaat dat dingen niets met elkaar te maken hebben. Bijvoorbeeld, als Obama niest op TV en een boom in je tuin valt om, hebben die twee dingen waarschijnlijk niets met elkaar te maken (de nulhypothese). Als je echter tien bomen in je tuin hebt staan, en elke keer als je Obama hoort niesen valt er eentje om, dan lijkt er wel iets aan de hand te zijn. Met elke nies/omvallende boom wordt het toevalliger, en op een gegeven moment zou een wetenschapper (na vijf, tien of honderd bomen, afhankelijk van hoe zeker je wilt zijn en van hoevaak bomen spontaan omvallen) zeggen dat dit waarschijnlijk geen toeval meer is, en dat het waarschijnlijker is dat er wèl een verband is dan dat er geen verband is.

Hoe doe je dat nou met winkelmandjes?

Stel dat een supermarkt op een dag duizend klanten heeft. Van die duizend klanten kopen 100 klanten één of meer potten pindakaas, en 200 kopen één of meer potten aardbeienjam. Hoeveel mensen (verwacht je) zouden zowel pindakaas èn aardbeienjam kopen als de aankopen niets met elkaar te maken hebben?

A) 0 mensen
B) 20 mensen
C) 100 mensen
D) 200 mensen

Het goede antwoord is B: 100 van de 1000 mensen kopen pindakaas (0,1 deel of 10%) en 200 kopen aardbeienjam (0,2 deel of 20%). Je verwacht dus dat er 20 mensen (0,1*0,2*1000 of 10% van 20% van 1000 is 10% van 200 = 20) zowel aardbeienjam kopen als pindakaas. Dus 20 mensen kopen allebei, 80 mensen kopen alleen pindakaas, 180 mensen kopen alleen aardbeienjam, en de andere 1000-20-80-180 = 720 mensen kopen noch pindakaas, noch aardbeienjam.

Maar wat als nou niemand die pindakaas heeft gekocht aardbeienjam heeft gekocht? Of als iedereen die pindakaas heeft gekocht ook aardbeienjam heeft gekocht. Kan dat ook? Ja, dat kan, maar is het dan nog toeval? Zijn er (als niemand beide koopt) mensen die alleen zoet of alleen hartig broodbeleg kopen, of is er een populair recept dat pindakaas en aardbeienjam mengt?

Er bestaan mooie wiskundige formules (de binomiaalverdeling, met hier een leuke rekenmachine daarvoor) om te berekenen hoe "toevallig" het is als iets gebeurt. Bijvoorbeeld, als aardbeienjam en pindakaas totaal onafhankelijk van elkaar gekocht worden, is het mogelijk dat alle mensen die pindakaas kopen (100) ook aardbeienjam kopen. Maar die kans is 0,0000000000000000000000000000000000001%. Kortom, dat zou hoogstens eens in de biljoen jaar voorkomen. Als je een slimme supermarktmanager of een wetenschapper bent ga je dan denken: "dit KAN toeval zijn. Maar hoogstwaarschijnlijk is het geen toeval - er is een verband, een reden waarom pindakaaseters ook aardbeienjam kopen" - en dan kan je gaan onderzoeken wat die reden precies is.

Dat is het verhaal van aardbeienjam en pindakaas. Maar toen ik die analyse deed op mijn moleculen bleken ook heel veel combinaties van molecuulstukken veel meer of veel minder voor te komen dan je verwacht. Wat ontdekte ik? (En wat betekende het?) Maar dat bewaar ik voor de volgende keer...

Geen opmerkingen:

Een reactie posten