Automatiske søgeord på hjemmesider

Som en afstikker i forbindelse med udviklingen af RetKomma-projektet er vi netop blevet færdige med en fuldautomatisk nøgleordsgenerator, som bl.a. kan anvendes til automatisk at finde søgeord på en hjemmeside. 

Hvorfor er det vigtigt med søgeord på hjemmesider?

Nogle meget gode grunde er, at søgeord kan siges at fungere som pejlemærker for søgemaskiner som Google – hjemmesiden bliver med andre ord lettere fundet af brugerne. Søgeord kan også danne fundament for mere avancerede teknologier såsom dynamiske links, hvor en hjemmeside selv opretter links fra én side til andre nærliggende sider (som der eksempelvis argumenteres for muligheden af i dette paper).

Kort sagt kan søgeord således være med til at skabe fundamentet for den endelige nedbrydning af en traditionel ‘pyramideopbygget’ hjemmeside.

Nøgleordsgeneratoren kan testes i en demo-udgave på vores hjemmeside. Prøv det, og giv gerne en kommentar:) Demo-udgaven er gratis.

Det banebrydende ved generatoren er, at den er fuldautomatisk, og at det er lykkedes os at udarbejde en algoritme, der kan fortælle, hvilke ord der er de vigtigste i et dokument. Så vidt vi ved, er der ikke andre på markedet, det er lykkedes for, og derfor er det jo i sig selv interessant.

Andre nøgleordsgeneratorer

I forbindelse med udarbejdelsen af nøgleordsgeneratoren har vi tjekket en række forskellige generatorer, som enten ikke er fuldautomatiske, eller som alternativt ikke er funderet på en dynamisk algoritme, men snarere er afhængig af diverse tommelfingerregler – og det fungerer bare ikke nær så godt.

Vi vil derfor tillade os at mene, at nøgleordsgeneratoren faktisk er det første seriøse bud på en nøgleordsgenerator, (1) fordi den kan implementeres, så den fungere automatisk hver gang en hjemmeside ændres, (2) fordi den automatisk finder de vigtigste ord på en hjemmeside ud fra en matematisk algoritme, som er uafhængig af tommelfingerregler, men derimod vurderer hvert enkelt ord for sig, (3) fordi den er funderet på en åben standard (WSDL-webservice) og derfor kan implementeres på stort set enhver software-platform.

Andre bud på nøgleordsgeneratorer er:

Her vil vi fremhæve PHP Classes og Topicalizer som nogle af de bedre generatorer. 

Nøgleordsgeneratoren er et af de sprogteknologiske produkter, som er udsprunget af RetKomma-projektet sammen med diverse artikler og en sprogvidenskabelig viden, hvor en del bliver kommenteret på denne blog.

Nøgleordsgeneratoren fungerer i øjeblikket kun til dansksprogede hjemmesider.

About these ads

3 responses to “Automatiske søgeord på hjemmesider

  1. Det er en sjov ide. Men hvis jeg fx prøver at indskrive min blog (www.blogbogstaver.dk) er det nogle ret ubrugelige ord, der kommer op. Er det fordi den kun tager den synlige del af blogposterne eller…?

    Bagefter prøvede jeg på min hjemmeside http://www.ordkloeveren.dk – og der kommer slet ikke noget op…. æh… gør jeg noget galt?

  2. Hej igen!

    Det er rigtigt, at testudgaven har flere begrænsninger. Forskellen på testudgaven og den egentlige implementering af nøgleordsgeneratoren er kort fortalt:

    - testudgaven er nødt til at ‘requeste’ en hjemmeside på baggrund af den adresse, du indtaster, og er herefter nødt til selv at regne ud, hvad i html-koden der er ‘rigtig’ tekst

    - i den egentlige implementering vil man nøjes med automatisk at sende den del af teksten på hjemmeside, som er ‘rigtig’ tekst til nøgleordsgeneratoren og på den måde sikre sig, at al tekst og kun den rigtige tekst bliver analyseret.

    På din hjemmeside (www.ordkloeveren.dk) anvendes der fx ikke -tags, som er det sted på en hjemmeside, hvor man normalt indtaster almindelig tekst. I stedet er teksten indtastet uden at være opmærket. Det er der som sådan ingenting i vejen med – det ændrer ikke noget for brugeren – men det kan gøre det vanskeligere at arbejde med sidens html-kode automatisk.

    For at illustrere forskellen har jeg tilladt mig at kopiere teksten over i en ny fil og indsætte p-tags omkring den: http://www.m-8.dk/ordkloeveren.htm. Hvis denne tekst analyseres, finder nøgleordsgeneratoren p.t. frem til følgende nøgleord:

    - kvalitetsniveau
    - konsulentvirksomhed
    - konkurrenceparameter
    - tekster
    - forst
    - samarbejdspartner
    - kriterium
    - omverden
    - parameter
    - sparring
    - organisation
    - niveau
    - bevidsthed
    - sproglig
    - genre

    Som det fremgår er nogle af ordene ubrugelige (fx forst), hvilket næsten altid vil være tilfældet. Andre af dem er ganske fine. Fx vil disse søgeord styrke søgninger efter fx ‘sproglig rådgivning’ eller ‘konsulent tekster’.

    Eksemplet her giver et nogenlunde pejlemærke for, hvordan nøgleordsgeneratoren vil fungere i praksis, omend en implementeret analyse af det enkelte websted naturligvis altid er at foretrække.

    Med hensyn til bloggen (blogbogstaver.dk) vil en implementering her kræve lidt større arbejde, især fordi du anvender en del fremmedsprog, hvilket generatoren har vanskeligt ved at håndtere (svensk, engelsk og vist også tysk, hvis jeg husker rigtigt). Samtidig er generatoren målrettet mellemlange tekststykker, og blogforsiden giver således heller ikke optimale søgeord.

    De enkelte blogindlæg giver derimod bedre resultater. Fx giver dit seneste indlæg fra en sommerhus-tur:

    redskabsskur
    uret
    post
    redskab
    trækvogn
    gasflaske
    ketsjer
    dynge
    sommerhus
    søster
    depression
    blod
    reference
    time
    værktøj

    Formålet med denne første udgave af generatoren har været at skabe et redskab, der er reelt anvendeligt. Vi arbejder løbende videre med at forbedre og tilpasse resultaterne af generatoren.

    Foreløbigt har vi hovedsageligt fokuseret på at implementere en matematisk algoritme, som beskriver ordenes relevans. Den vil vi supplere yderligere med mere lingvistiske elementer, fx kunne man forsøge at vægte ord højere pba. syntaktisk funktion, sætningernes placering i teksten m.v. Desuden arbejder vi på at nå så generelle betydninger som muligt, fx vil ‘kvalitet’ sikkert være et bedre ord end ‘kvalitetsniveau’ som søgeord på sin hjemmeside, jf. ovenstående eksempel.

    Den nyeste udgave af generatoren kan altid findes på http://www.m-8.dk/keywords/.

    Håber det var til nogen hjælp.

    Vh. Morten

  3. Hej igen

    Efter dine kommentarer er der tilføjet den funktion til testudgaven, at den kan analysere html-sider, der ikke opmærker tekst i p-tags.

    Der er foreløbigt lagt den restriktion på, at det kun gælder sider, der helt udelader brugen af p-tags, således at for hjemmesider, der anvender en blanding af opmærket og ikke-opmærket tekst, vil kun den opmærkede del blive medtaget.

    Således kan fx http://ordkloveren.mono-hq.com/ nu analyseres:)

    Vh. Morten

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s