Semantic web – begrebsforvirring?

Til at begynde med skulle man nok have valgt et andet udtryk end semantic web. Det mener i hvert fald Tim Berners-Lee, der som bekendt er formand for W3C og normalt tilskrives opfindelsen af internettet.

Tim Berners-Lee har tidligere foreslået betegnelsen The Data Web i stedet, og det er på sin vis også mere dækkende. Jeg tror, at problemstillingen er, at semantik betyder noget lidt forskelligt afhængigt af, hvilke faggrupper man spørger – og derfor anvendes semantik også ofte i forskellige betydninger afhængigt af om man taler semantisk søgning, semantic web eller noget helt tredje.

Semantic web – “the data web”

For en udvikler har semantik noget at gøre med betydningen af et stykke kode. Koden skal overholde nogle regler/syntaks for at den overhovedet kan forstås – semantikken er så hvad koden udtrykker mere betydningsmæssigt. Fx gør følgende kodelinjer det samme i sprog fra C-familien.

  1. x += 5;
  2. x = x + 5;

Syntaksen er dog forskellig. Derimod er semantikken den samme, nemlig: tag en variabel, x, og læg 5 oveni.

Med semantic web tænkes der specifikt på denne type semantik, snarere på den semantik, der udtrykkes i fx xml-dokumenter. Lad os antage, at vi skal lave en ordbog. Den kunne vi i en simpel udgave fx strukturere sådan:

<ord>    <opslag>spise</opslag>  <ordklasse>verbum</ordklasse></ord>

Men vi kunne også gøre sådan:

<word>  <lexeme>spise</lexeme> 

  <class>V</class> 

</word>

Og sådan kunne man blive ved. Men hvis vi nu en gang for alle kunne vedtage altid at gøre det på den ene måde og lægge en beskrivelse på nettet et sted, så alle kan se hvordan man skriver en ordbog, så ville man pludselig have ensrettet alle ordbogsdata i hele verden. Det ville være et eksempel på at udnytte mulighederne i the data web.

Man kunne også udtrykke mere komplekse relationer mellem data. For personen x kunne man fx udtrykke, hvilke hjemmesider x redigerer, hvor man kan finde et billede af x, privatadresse, telefonnummer osv. – Essensen er: Hvis vi kan blive enige om en datastruktur og gøre den offentlig kendt, så kan alle data på nettet pludselig begynde at spille sammen. Det er the data web.

Hvorfor så termen semantic web? Mit bud er, at det hænger sammen med den programmør-tradition, der kort er beskrevet ovenfor. Når jeg skriver, at vi skal være enige om en datastruktur, så skal vi egentlig blive enige om, hvordan semantik udtrykkes syntaktisk i forskellige strukturer. Det er således ikke længere nok, at et xml-dokument overholder almindelig xml-syntaks, hvis det skal være en del af the data web. For at dokumentet kan læses “semantisk” af andre personer eller softwarekomponenter, så kræver det at en specifik syntaks er overholdt, hvor det er vedtaget, hvordan syntaks og semantik hænger sammen. Ved at overholde denne syntaks kan det derfor lade sig gøre for eksternt software at afkode “meningen” med den givne data. Det er sq en cool tanke!

Semantisk søgning

Men det har ikke nødvendigvis meget at gøre med semantisk søgning. Her bruges ordet semantik nemlig en anelse anderledes. Semantisk søgning handler normalt om at få en søgemaskine til at forstå betydning i natursprog. Et eksempel er PowerSet Labs, hvis søgemaskine afkoder WikiPedia for sætninger som “Eiffel-tårnet blev bygget i 1889”. Når så en bruger spørger: Hvornår blev Eiffel-tårnet bygget? – Så skulle PowerSet Labs gerne kunne svare: 1889.

Man kan hævde, at det i bund og grund er et samme, der sker: Noget software (en søgemaskine) forsøger via en syntaks at afkode semantikken i noget tekst. Problemet er bare, at der ikke er givet nogen fælles syntaks og semantik for naturlige sprog som engelsk og dansk. Derfor er semantikken ikke umiddelbart mulig at afkode, og der eksisterer ligeledes ikke den samme konsensus, som det er tilfældet i the data web, hvor ambitionen er, at syntaks og semantik altid skal være eksplicit for omverdenen. I semantisk søgning er begrebet semantik såleldes en væsentligt mere ubestemmelig og ustandardiseret størrelse.

I øjeblikket synes de semantiske søgemaskiner ikke at have mærkbare fordele frem for en traditionel søgemaskine som Google. Semantic web er heller ikke ligefrem slået igennem – formodentlig fordi teknologien er så relativt kompleks, at den ikke kan erhverves på en eftermiddag af hvem som helst i modsætning til html. Visionen om the data web kommer sikkert til at stå og falde med, om it-amatører såvel som -professionelle tager teknologien til sig. Og det vil nok igen kræve, at der blive udviklet nogle hjælperedskaber eller lignende, som gør det mere effektivt og overskueligt at arbejde med “semantik”.

– Men ville være pænt sejt, hvis det lykkedes!

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s