maandag 2 februari 2009

Hoe werkt wetenschap (7) - Een berg data

Toen ik mijn programma voor het splitsen van moleculen in “winkelmandjesfragmenten” eenmaal goed had werken en het op een database had toegepast, had ik een heleboel getallen. Ik had enkele tienduizenden computerbestanden gemaakt, met één samenvattend hoofdbestand waarin regels stonden als:
1: 1 2
2: 3 4 5
3: 1 3 6
4: 1 3
5: 3 6 7 8

en nog zo'n 250000 regels van dat type. Elke regel gaf aan welk fragment in welk molecuul zat (bijvoorbeeld, molecuul 2 bestond uit fragmenten 3, 4 en 5). In een ander bestand kon ik weer ontdekken welk fragment met welk nummer werd bedoeld, 3 was bijvoorbeeld een benzeenfragment.

Nu kun je een computer redelijk snel 250000 moleculen laten splitsen en er zulke mooie lijstjes van laten maken, maar je kunt een computer niet laten nadenken over wat al die getallen nou betekenen! Daar moet je als wetenschapper zelf over nadenken. Maar ik kan heus geen kwart miljoen regels doorlezen, onthouden en ook nog vergelijken!

Hoe zou jij beginnen te kijken of je iets interessants kan ontdekken in duizenden getallen?

Ik begon in elk geval met een soort “hitlijst” te maken – ik was namelijk benieuwd naar welke fragmenten het meest, welke het minst voorkwamen. Bij de ringen zag de top-3 er zo uit:




Opvallend is dat de drie meest voorkomende ringen alledrie zesringen zijn, en erg op elkaar lijken. Zouden zesringen verder populair zijn? Ja, alle andere ringen in de top-10 zijn of zesringen, of twee zesringen aan elkaar geplakt. Er is één vijfring, en één vijfring die aan een zesring is geplakt (zie het plaatje hieronder voor de vierde tot tiende plaats).
Helaas betekende dat dat ik alleen iets bekends had ontdekt: zesringen en vijfringen zijn de meest stabiele ringen in de scheikunde, omdat de bindingen van een koolstofatoom van nature een hoek maken van 108 graden (als het koolstofatoom vier enkelvoudige bindingen heeft) tot 120 graden (met een dubbele binding). Een vierkant is te gespannen (hoeken van 90 graden) en als de ring veel groter wordt wordt het steeds moeilijker hem te sluiten, omdat de uiteinden elkaar niet goed meer kunnen vinden (ze zijn te ver van elkaar) en de tussenliggende atomen elkaar in de weg gaan zitten. Dat is ook waarom je in je scheikundeboeken bijna alleen maar zesringen en vijfringen ziet. Controleer maar!

Dat mijn topringen de theorie van de scheikunde bevestigden was natuurlijk wel leuk, maar ik had iets bekends ontdekt, en daar zou ik nooit een artikel over kunnen schrijven of beroemd mee kunnen worden. Dus moest ik verder nadenken. Ik ging toen kijken naar de getallen; en ik zag dat terwijl de tweede ring anderhalf keer zo vaak voorkwam als de derde ring, de eerste ring twintig keer zo vaak voorkwam als de tweede ring! Beneden aan de lijst (er zaten meer dan 13000 verschillende typen ringen/ringstructuren in de database) waren er duizenden ringen die maar één keer gemaakt waren. De verhoudingen waren dus ontzettend scheef, er waren een paar beroemde ringen die in bijna alle moleculen voorkwamen, en een heleboel ringen die bijna nooit gebruikt waren. En toen besefte ik dat ik iets belangrijks te pakken had. Chemici waren als koks die in een reusachtige supermarkt van keuzes bijna alleen maar de aardappels kochten. Ze maakten heel goed gekookte aardappels, gebakken aardappels, gestoofde aardappels, geflambeerde aardappels, gepocheerde aardappels – misschien omdat aardappels (of hier: de benzeenring) zo lekker gemakkelijk om mee te werken zijn. Dat betekende dat chemici door gewoon op mijn lijst te kijken een heleboel meer mogelijkheden zouden hebben om moleculen te maken waar ze normaal net zo min aan dachten als koks met een aardappelfixatie. Ik had Nieuws. En daar kun je een artikel van maken... Al is dat nog niet het einde van dit verhaal.

Geen opmerkingen:

Een reactie posten