Database
Een database, gegevensbank of databank is een digitaal opgeslagen archief, ingericht met het oog op flexibele raadpleging en gebruik. Databases spelen een belangrijke rol voor het archiveren en actueel houden van gegevens bij onder meer de overheid, financiële instellingen en bedrijven, in de wetenschap, en worden op kleinere schaal ook privé gebruikt.
Inhoud |
[bewerk] Inleiding
Het woord database wordt voor verschillende begrippen gebruikt:
- de opgeslagen gegevens als zodanig.
- de wijze waarop de gegevens zijn opgeslagen, zie datamodel.
- de software waarmee databases kunnen worden aangemaakt en benaderd, zie Database management systeem (DBMS).
Dit artikel gaat over de eerstgenoemde betekenis van database.
Een systeem dat voldoen moet aan criteria die het tot een database maakt moet aan de volgende minimale voorwaarden voldoen:
- Gegevens moeten eenvoudig kunnen worden opgeslagen.
- Gegevens moeten eenvoudig kunnen worden opgezocht en doorzocht.
- Gegevens moeten gewijzigd kunnen worden.
- Gegevens moeten verwijderd kunnen worden zonder dat dat de werking van dat systeem nadelig beïnvloedt.
Een database is meer dan een gedigitaliseerd archief, een essentiële toevoeging is dat de gegevens in een database zodanig zijn opgeslagen dat deze gegevens optimaal doorzoekbaar zijn. Daarvoor worden gegevens bijvoorbeeld opgesplitst in (of uitgebreid met) onderdelen waarop (naar verwachting) gezocht zal worden, bijvoorbeeld persoonsgegevens kunnen worden opgesplitst in voornaam, tussenvoegsel, achternaam, adres, woonplaats, postcode, telefoonnummer etc. In het relationele model worden deze onderdelen in een aparte kolom gezet, maar wel in dezelfde rij, zodat het duidelijk is dat deze onderdelen bij elkaar horen. Soms is het praktisch om gegevens uit te breiden om de doorzoekbaarheid te vergroten, bijvoorbeeld door langere teksten in één of meerdere categorieën te zetten of er trefwoorden aan toe te kennen.
De doorzoekbaarheid van de gegevens wordt hier mee vergroot omdat bij zoekopdrachten als "toon alle personen met postcode tussen 3000 en 4000" alleen in het veld "postcode" hoeft te worden gezocht en alle andere gegevens niet geëvalueerd hoeven te worden. Er zijn nog meerdere methoden om de zoeksnelheid te vergroten.
Het opstellen van een goede manier om gegevens in te delen in onderdelen is een vak op zich, vooral als het gaat om gegevens die ingewikkelder zijn dan een adressenbestand. Daarover zijn theoretische modellen ontwikkeld en vele boeken geschreven. Belangrijke namen op dit gebied zijn Charles Bachman en Ted Codd en Chris Date. Zie verder datamodel.
[bewerk] Belang van databases
Databases zijn een essentieel onderdeel van de informatiemaatschappij, steeds meer gegevens worden in een database opgeslagen. Het functioneren van de overheid, bedrijven en wetenschap is tegenwoordig zonder databases ondenkbaar.
Steeds meer gegevens worden ook via internet bereikbaar gemaakt. Vanaf halverwege de jaren 1990 worden er speciale programmeertalen ontwikkeld juist om de communicatie tussen databases en de internetgebruiker mogelijk te maken. Ook zijn er componenten ontwikkeld die functioneren als intermedium tussen programma en database, onder andere ODBC en JDBC.
Ook zoekmachines maken gebruik van een database, door de pagina's op internet te indexeren. De gebruiker van een zoekmachine zoekt niet direct op internet, maar in de index die is aangemaakt.
In de wetenschap worden databases veel gebruikt om meetgegevens of experimentele gevens in op te slaan. Om statistische conclusies uit deze gegevens te kunnen trekken schiet de software van veel DBMSen te kort. Spreadsheets zijn veel beter geschikt voor statistische analyse van gegevens en relaties tussen gegevens. Programma's als SAS en SPSS zijn daarentegen prima geschikt om statistische analyses te doen op grote groepen gegevens, die zelfs de capaciteit van programma's als MS SQL Server te boven gaat.
[bewerk] Koppeling van databases
Verschillende databases die gedeeltelijk overlappende gegevens bevatten kunnen worden gekoppeld. Technisch is dat niet altijd even gemakkelijk, maar het principe is eenvoudig: als er twee databases zijn, waarbij database X de belastinggegevens bevat van personen en database Y informatie over de banktegoeden van personen, leg dan een relatie tussen de personen die in beide databases staan, zodanig dat van de personen die in beide databases voorkomen, de belastinggegevens naast de gegevens over banktegoeden kunnen worden gelegd. Dit kan alleen als de personen in beide databases precies dezelfde naam of hetzelfde nummer hebben. Het gebruik van een algemeen persoonsnummer zoals het Nederlandse Sofinummer vereenvoudigt dan ook de koppeling van databases met persoonsgegevens.
[bewerk] Datamining
Datamining is een term die gebruikt wordt om extra informatie te halen uit bestaande databases. Het gaat daarbij vaak om statistische informatie. Een bedrijf dat een database heeft van klanten en hun bestellingen zou bijvoorbeeld kunnen nagaan in welke gebieden de klanten wonen die het meeste afnemen, en op basis daarvan strategische besluiten kunnen nemen.
[bewerk] Privacy
Het toenemend gebruik van databases (en de koppeling daarvan) heeft ook een negatieve kant: de privacy van personen komt in gevaar. Zeker als het gaat over het gebruik van elektronische communicatie en het koppelen daarvan aan persoonsgegevens is het mogelijk om bijzonder veel informatie over personen te verzamelen. Een voorbeeld hiervan is het internationale spionageproject ECHELON, dat gebouwd is om dagelijks 3 miljard afzonderlijke elektronische communicaties op te vangen, te analyseren en op te slaan. Maar ook een marketingbedrijf als Doubleclick verzamelt dagelijks een grote hoeveelheid informatie over het gedrag van gebruikers op het Internet, informatie die in eerste instantie is gebonden aan een IP-adres of cookies. Als een cookie (of IP-adres) kan worden geassocieerd met een e-mailadres en vervolgens met een persoon en een adres, zijn dergelijke gegevens op de markt veel geld waard.
In een aantal landen (waaronder België en Nederland) heeft dat geleid tot wetgeving die de privacy van personen moet beschermen, zie Wet bescherming persoonsgegevens.
[bewerk] Geografisch Informatiesysteem
Een geografisch informatiesysteem (GIS) kan beschouwd worden als een database voor geografische informatie, dit geldt voor alle drie de betekenissen van een database.