Semantic Web

Teksten på hjemmesider har altid per definition været opmærket. Hjemmesider skrives i sproget HTML, og HTML er et opmærkningssprog. Det er et meget vigtigt karakteristika ved hjemmesider, for det betyder, at det gør det lettere at finde frem til den information, man søger. Det gør det direkte lettere for brugeren, hvis informationen er struktureret ordentligt, men hvad der nok er vigtigere: det gør det lettere for søgemaskiner at afgøre, hvilken information på den enkelte side, der er vigtig. Det siger noget om, hvad der er vigtigt på en side, hvilke typer af information siden indeholder osv.

For eksemplet skyld har jeg fundet en del af HTML’en fra en virksomhed, der har styr på den slags: Ankiro. Her ser overskriften sådan ud:

<h1>Velkommen til Ankiro</h1>

H1-taggene er en forkortelse for Overskrift 1 eller Header 1. Et HTML-tag startes med <tag-navn> og afsluttes med </tagnavn>. Tagget indeholder den tekst, der står imellem start- og slut-tagget. Med andre ord betyder dette, at Overskrift 1 på Ankiros site er teksten: Velkommen til Ankiro.

På den måde opmærkes al HTML-tekst med forskellige tags. Almindelig brødtekst opmærkes med <p>-tags, fed skrift opmærkes med <b>-tags eller <strong>-tags, kursiv med <i>- eller <em>-tags, links med <a>-tags osv.

Et stigende problem for søgemaskinernes opmærkning af sider er billeder. Et af billede-taggene på Ankiros side ser fx sådan ud:

<img alt=”Website / intranet” src=”/media(74,0)/website.png” mce_src=”/media(74,0)/website.png” />

Billedet bærer teksten:

Website / intranet
Unik sprogteknologi og
ordbøger giver dig en
effektiv søgning på dit
website eller intranet.

Problemet er, at søgemaskiner ikke kan læse tekst på billeder – for dem er et billede et billede, og de kan kun læse tagget:

<img alt=”Website / intranet” src=”/media(74,0)/website.png” mce_src=”/media(74,0)/website.png” />

Tagget indeholder desuden nogle attributter: et alt-attribut (alt for alternate), som specificerer den tekst, der skal vises, hvis der enten opstår en fejl i forbindelse med loading af billedet, eller hvis brugeren holder musemarkøren over billedet. Denne tekst er uhyre vigtig, for det er faktisk den eneste information i tagget, en søgemaskine kan anvende til noget fornuftigt. Det siger nemlig noget om billedets semantik.

Det andet attribut er et src-attribut, og det siger kun noget om, hvor billedet rent faktisk er placeret. Det bidrager altså ikke med ny anvendelig information.

HTML er allemandseje

Et andet problem er, at det er meget enkelt at lære de grundlæggende elementer i HTML-programmering. Derfor fremstilles HTML af både professionelle, semiprofessionelle og af amatører. Det er der i og for sig ikke noget i vejen med, og det er antageligt en af grundene til HTML-kodens store succes, men det gør arbejdet væsentligt vanskeligere for søgemaskiner, hvis HTML’en ikke er opmærket korrekt, og selv professionelle webbureauer springer nogle gange over, hvor gærdet er lavest!

Semantic web

Okay, nok snak om HTML – det var blot lidt baggrund om problemstillingen. Det var egentlig semantic web, det skulle handle om, og det er netop særligt interessant set i lyset af HTML’ens store udbreddelse. HTML har to store problemer: (1) det bliver ofte anvendt forkert, hvilket gør opmærkningen tilnærmelsesvis ubrugelig, (2) det er en relativt overordnet opmærkning, som er mere formmæssigt end betydningsmæssigt funderet.

Visionen med semantic web er at udarbejde en standard, hvormed man kan opmærke selv kompleks tekst og data. Fx opmærkes data i HTML vidt forskelligt og tilfældigt, så hvis man som softwareudvikler ønsker at trække data ud af en bestemt hjemmeside, skal man helt dybt ned i sidens kildekode og undersøge, hvordan netop denne side opmærker data. Med en fælles standard for dataopmærkning vil man komme et væsentligt skridt længere. Det vil gøre arbejdet lettere og hurtigere for udviklere, og det vil i sidste ende betyde, at flere brugere anvender dataene.

Et andte skridt i denne retning er webservices. RetKomma har fx sin egen webservice, som en softwareudvikler kan lade indgå i sit eget program. Gennem denne webservice bliver RetKomma-teknologi således stillet til rådighed på en standard-måde, som enhver software-udvikler kender til og umiddelbart kan gå i gang med at arbejde med.

En af de nye måder at opmærke dokumenter på er gennem en række RDF-specifikationer. RDR er specifikationer, som anvendes i forbindelse med semantisk opmærkning. Se fx dette eksempel vedr. RDF-specifikationer fra Wikipedia:

Certain concepts in RDF are taken from logic and linguistics, where subject-predicate and subject-predicate-object structures have meanings similar to, yet distinct from, the uses of those terms in RDF. This example demonstrates:

In the English language statement ‘New York has the postal abbreviation NY’ , ‘New York’ would be the subject, ‘has the postal abbreviation’ the predicate and ‘NY’ the object.

Encoded as an RDF triple, the subject and predicate would have to be resources named by URIs. The object could be a resource or literal element. For example, in the N-Triples form of RDF, the statement might look like:

<urn:states:New%20York> <http://purl.org/dc/terms/alternative&gt; “NY”

In this example, “urn:states:New%20York” is the URI for a resource that denotes the U.S. state New York, “http://purl.org/dc/terms/alternative&#8221; is the URI for a predicate (whose human-readable definition can be found at [1]), and “NY” is a literal string. Note that the URIs chosen here are not standard, and don’t need to be, as long as their meaning is known to whatever is reading them.

Semantic Web er en interessant tanke, men det har nogle ulemper, som HTML på den anden side ikke har: (1) det er tungt at arbejde med, og (2) det er forbeholdt professionelle. Derfor tror jeg ikke, at Semantic Web i denne form har et stort forestående gennembrud. Men det er kun mine gisninger. Jeg tror derimod, at webservices vil levere varen. Deres ulempe i forhold til semantic web er, at de er mere specifikke. Udvikleren af webservicen bestemmer i højere grad, hvilke specifikke data brugeren får lov til at adressere, og så er de i sagens natur ikke i udgangspunktet semantiske.

Når jeg derfor tror, at semantic web vil lade vente på sig, skyldes det nok mest, at jeg tror, man kan nå langt med HTML og natural language processing – dvs. arbejdet med at få en computer til selv at afkode semantikken i naturligt, ikke-opmærket sprog. Det vil grundlæggende set sige, at jeg tror mere på projekter som RetKomma, der anvender en rigtig parser til at forstå tekst med, og som har den store fordel, at de i vid udstrækning fungerer automatisk og ikke i deres anvendelse kræver professionelle brugere, men igen – gisninger kan der være nok af, og det er selvfølgelig en forudsætning, at den type programmer inden for en overskuelig fremtid kommer til at fungere noget bedre, end de gør i dag.

One response to “Semantic Web

  1. Pingback: Mit speciale » Mashed Potatoes

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s