The semantic web

Volgens Tim Berners-Lee, de directeur van het world wide web consortium (W3C) zullen er drie grote revoluties zijn in de hedendaagse informatie- en communicatietechnologie. De eerste heeft reeds plaatgevonden en bestaat uit het ontstaan van een wereldwijd publicatienetwerk gebaseerd op de welbekende HTML en HTTP technologie (het world wide web). Deze revolutie is reeds diep doorgedrongen in niet alleen de zakelijke maar ook consumenten markt. De tweede revolutie bestaat uit een verandering gebruik van het internet als applicatiemedium. Doordat de eerste revolutie zo’ n succes was en omdat het internet de aandacht trok van zo’ n groot publiek, werden steeds meer commerciële applicaties ontwikkeld met als communicatiemedium het internet (E-business).

Wat zal de volgende revolutie zijn? Zijn er nog wel innovatieve verbeteringen te behalen? Het antwoord is ja. We staan aan de vooravond van een nieuwe internet revolutie. Deze revolutie zal bestaan uit het veranderen van het internet van informatienetwerk naar kennisnetwerk, ofwel het semantische web. Het grote verschil tussen het semantische web en het huidige web is dat op het semantische web, het veel gemakkelijker is om bronnen te zoeken op basis van hun inhoud. Het is nog steeds niet mogelijk dat zoekmachines de semantiek van een webpagina kunnen bepalen wanneer deze pagina alleen uit platte tekst bestaat. Wanneer we op dit moment bijvoorbeeld zoeken naar een tweedehands bank, kan het best zijn dat we op de website van ABN Amro terechtkomen omdat daar de woorden bank en tweedehands in een andere context worden gebruikt.

Het zoeken naar informatie op het web kan veel efficiënter. Denk bijvoorbeeld aan een zoekmachine die u de vraag stelt of u op zoek bent naar een financiële instelling of een stuk meubilair. Deze vraag zal het resultaat van uw zoekactie aanzienlijk verkleinen. Om dit mogelijk te maken dienen er een aantal structurele wijzigingen te worden doorgevoerd in met name de manier waarop informatie wordt gerepresenteerd. In het huidige world wide web worden pagina's gerepresenteerd als HTML documenten die bestaan uit paragrafen, tabellen, plaatjes en verwijzingen. Wat precies de inhoud van een paragraaf kan zijn is volkomen willekeurig. In het semantische web worden pagina's opgeslagen op een gestructureerde manier. Een pagina welke onderdeel is van de website van ABN Amro zal bijvoorbeeld de meta informatie bevatten dat het een pagina betreft van een bedrijf in de financiële dienstensector. Een zoekactie naar een meubelstuk zal op basis van deze informatie de website al kunnen schrappen uit het resultaat. Naast het opnemen van meta informatie, ofwel informatie over informatie is het ook van belang dat de tekst in een pagina wordt gestructureerd. Zo zal een paragraaf welke productinformatie weergeeft kunnen worden opgesplitst in een naam, productomschrijving, een prijs, een afbeelding en een recentie. Wanneer de pagina voorzien is van deze structuur kan een gebruiker in een zoekactie opgeven dat hij of zij als resultaat van de zoekactie een lijst van namen van banken en de gevraagde prijs wil hebben.

Het structureren van webpagina's wordt mogelijk gemaakt door verschillende representatietalen. Er zijn al reeds verschillende talen beschikbaar welke syntax en semantiek geven voor het representeren van informatie op webpagina's zodanig dat zoekmachines hier op een intelligente manier mee om kunnen gaan.

Stel nu dat u wilt zoeken naar bedrijven welke gespecialeerd zijn in Microsoft SQL server databases. Als u deze woorden in google intyped zult u op dit moment weinig resultaten krijgen of wellicht terecht komen op de website van Microsoft. In een zoekactie op het semantische web zal het resultaat bestaan uit bedrijven met specialisatie, activeit, dienst of product X, waarbij X is gedefinieerd als een automatiseringdienst van het type databaseontwikkeling met als kenmerken dat de fabrikant Microsoft is en dat de productnaam SQL server is.

Om dit te kunnen bereiken dient er consensus te worden bereikt over de betekenis van de concepten waar we op zoeken en waar we de informatie in representeren. Er dienen bijvoorbeeld topologieën te worden ontwikkeld waaruit duidelijk wordt dat databaseontwikkeling een automatiseringsdienst is en dat een de dienst databaseontwikkeling de eigenschappen fabrikant, productnaam en eventueel productversie heeft. Een formele specificatie van de concepten waar we over praten in een bepaald domein heet een domeinontologie (volgens Gruber, 1993).

Met behulp van een domeinontologie kan een zoekmachine efficiënter zoeken naar bronnen op het semantische web. Er kan bijvoorbeeld worden gezocht naar pagina's van bedrijven die software ontwikkelen. De zoekmachine weet dat hij zijn resultaten moet beperken tot bedrijven welke tevens als activiteit software ontwikkeling hebben. De zoekmachine zal dus geen websites van particulieren in het resultaat geven of andere pagina's welke keywords bevatten die overeenkomen met de zoekopdracht maar die niet vallen onder de gekozen categorie.

Semantic Web talen:

Interessante links over dit onderwerp:

Literatuur

Terminologie

Top