Category Archives: søgeord

Københavns Kommunes hjemmeside er en charterrejse. Kforums er en backpacker-oplevelse.

Hvordan kan de store offentlige og private hjemmesider se til fra sidelinjen, mens Web 2.0 eksploderer for øjnene af dem? En del af det skyldes forskellige brugergrupper, men der er stadig rum til forbedring.

Tidens webkultur med brugergenereret indhold er mildest talt eksploderet; Kforum er et godt eksempel. Her samler sitet brugernes artikler, powerpoints, blogs, profiler osv. Sitet leverer således både information, netværk og et nyt job.

På Kforum er strukturen flad og netværksorienteret, og der er ikke en forside, der dikterer, hvordan brugerne færdes på sitet. Det er en væsentlig ting, Kforum har til fælles med andre nye sites.

Forskellen bliver tydelig, hvis man ser på hjemmesiden for Københavns Kommune. Her er der ingen tvivl om, at forsiden er en indgang for brugeren, og at sitet er opbygget efter helt andre hierarkiske principper.

Enten må der derfor være en afgørende forskel i formålet med sites som Kforum.dk og kk.dk, der gør det nødvendigt med så forskellige arkitekturer. Eller også er Kforum.dk en first mover på nettet, der sammen med en gruppe lignende sites baner vejen for de større offentlige og private sites.
En forskel mellem information og services
Der er en væsentlig forskel på de to sites formål, som kan være med til at forklare strukturerne. Her tænker jeg særligt på den serviceorienterede arkitektur (SOA).

En service kan typisk erstatte et besøg på kommunen eller en telefonopringning til en kundemedarbejder. Services på nettet sparer virksomheden for en betydelig mængde sagsbehandling, og det er enklere og mere fleksibelt for borgeren fx at kunne ændre folkeregisteradresse online.

En overordnet forskel mellem Københavns Kommune og Kforum er derfor:

  • at Københavns Kommune som andre store offentlige og private sites skal levere services eller sikre et salg
  • mens Kforum, som hører til de brugergenererede sites, primært formidler viden og netværk.

Den serviceorienterede fejlslutning
Men betyder det, at større offentlige og private sites kun skal levere services og ingen information? Åbentlyst nej. Københavns Kommune har fx et behov for at fortælle om politiske tiltag i kommunen – det kunne være om overborgmesterens projekt billige boliger.

Men mange af de større offentlige sites er bygget op omkring services i en grad, så det går ud over informationsformidlingen. Det har i flere år været et mantra, at forsiden skal være øverst i et hierarki, hvor borgeren vælger mellem flere forskellige indgange til virksomheden.

Tanken om indgange til forskellige veje, brugeren kan følge, tilgodesér imidlertid primært én type bruger, nemlig den bruger, der besøger sitet for at anvende en service – og det er næppe den største brugergruppe. Hun ankommer typisk via forsiden, og hun ved præcis, hvad hun søger. Som en charterturist, bliver hun rutinemæssigt guidet til sit mål, og hun kommer for at få en bestemt service.

Informationssøgerens søgeadfærd står derimod i kontrast til hjemmesidernes hierarkiske struktur. Når brugeren søger information foregår det ikke ved at spørge: Hvor skal jeg hen for at finde informationen?

Det drejer sig med andre ord ikke om leverandøren af informationen, men slet og ret om informationen. Det foregår derfor via Google, og informationsleverandøren bliver det site, der ligger højt på en Google-søgning, og som rent faktisk leverer informationen, når brugeren klikker sig ind – og det er vigtigt: Informations-leverancen skal foregå med det samme, ellers er brugeren væk igen. Hun spilder sjældent tid på at sætte sig ind i hjemmesidens indre logik og besøger stort set aldrig forsiden.

Men når brugeren finder informationen, er hun til gengæld oftere gavmild. I artiklens feriemetafor kan hun sammenlignes med backpackeren, der strejfer rundt efter en oplevelse, og som gerne involverer sig i rejsemålet – i form af et svar på en blog eller en profil på fx Kforum.

To eksempler på mere tilgængelig information
Fra virksomhedens synspunkt er det vigtigt at levere sin vinkel på informationen. Det kan især være vigtigt i et politisk system. Samtidig er det en betydelig sidegevinst, hvis brugeren opdager en service eller et produkt, hun ikke er klar over, at virksomheden udbyder.

Derfor er det vigtigt at præsentere brugeren for umiddelbare alternativer til den aktuelle side, så brugeren bliver på sitet i stedet for straks at klikke væk igen, selvom informationen ikke leveres på side 1.

Her kan det være nødvendigt at bryde med den hierarkiske tankegang. Dynamiske links og emneordsnavigation er to elementer, virksomhederne passende kan ‘låne’ fra web 2.0-kulturen.

Dynamiske links
Dynamiske links er én måde at præsentere brugeren for en række direkte, nærliggende alternativer til den side, hun først kommer ind på.

Siden genererer automatisk 1-3 links på baggrund af den aktuelle sides søgeord og information om brugeren: Hvor i landet sidder hun? Hvilke søgeord har hun anvendt for at komme ind på siden? Hvilke søgeord har hun søgt på inde på siden? Hvad har hun tidligere været interesseret i?

På den måde oprettes der links til de alternative sider, der er størst sandsynlighed for, at brugeren er interesseret i. Det er således et skridt tættere på målet: Det øger chancen for, at virksomheden leverer informationen, og at brugeren bliver opmærksom på andre af virksomhedens services eller produkter.

Emneords-navigation
Samtidig vil flere virksomheder givetvis finde det anvendeligt i højere grad at anvende emneords-navigation. Ved emneordsnavigation har brugeren mulighed for at se en oversigt over alle sider på det aktuelle site, som indeholder samme emneord som den viste artikel – uden om den hierarkiske struktur.

Emneordsnavigation anvendes allerede i forskellig udstrækning på web 2.0-sites, og det er et must på enhver blog. Emneordsnavigation kan eventuelt udvides med mere visuelle elementer som fx en tag pool, der opsummerer nogle af de mest viste emneord, eventuelt tilpasset viden om den aktuelle bruger.

Information er også en service
Det er ikke usandsynligt, at et af de næste vigtige skridt på nettet bliver, at større offentlige og private virksomheder kombinerer deres hierarkiske SOA-struktur med mere seriøse interne søgefunktioner, dynamiske links, emneords-navigation og tag pools, der kan guide informationssøgerne på vej til den rette information og holde dem på sitet, – og på den måde skabe genveje på tværs af et ellers traditionelt og mere rigidt hierarkisk site.

Information er også en service. Det er vigtigt af både politiske og strategiske grunde at blive brugerens informationsleverandør, ligesom en mere sikker informationsleverance i sidste ende kan spare virksomheden for en irriteret bruger og tid på mailen eller i telefonen.

Med andre ord: Tving aldrig en backpacker med på charterrejse! Men lad også være med at hive tante Olga gennem nepalesiske landsbyer. Virksomhederne skal ikke bryde med gode SOA-principper og hierarki. De store stites har ikke behov for en revolution, men web 2.0-principperne kan hjælpe hurtigt ind – hurtig ud-brugerne til at skyde genvej på tværs af hierarkiet til de destinationer, hvor informationen er.

Semantisk søgning

Diskussionerne om semantisk søgning er gået  hårdt for sig det seneste stykke tid med nye påfund som Hakia og Powerset.

Søgemaskinen Hakia er blandt de nye tiltag, som særligt markedsfører sig på semantisk søgning. Ambitionen er at finde de mest relevante websites baseret på søgesætningernes betydning. Her ligger der implicit en kritik af rent statistisk funderede søgemaskiner (også kaldt vektorbaserede søgemaskiner), for hvem siger, at det de sider, der bliver vist oftest, altid repræsenterer det bedste søgematch?

Og det er en vigtig del af debatten. Vektorbaserede søgemaskiner fokuserer (i hvert fald de senere år) meget på, hvor mange andre sider der linker til den enkelte side, hvilket giver et mål for sidens popularitet. Herudover anvender de i høj grad mere matematisk eller statistisk funderede regler, som fx optæller antallet af ordforekomster i et dokument og sammenligner det med antallet af ordforekomster i andre dokumenter sammenholdt med data for fx hvor tæt ordene står sammen.

I dette blogindlæg skriver Hakias direktør lidt om filosofien bag den semantisk orienterede søgemaskine. Til eksempel giver han sætningen what is Palladium useful for? Han hævder, at Hakia vil genkende sætningskonstruktionen og regne ud, at det drejer sig om metallet palladium, mens en statistik baseret søgemaskine som Google måske vil returnere sider om London-teatret Palladium. Det er selvfølgelig oplagt at prøve selv:

Ja, den store forskel er der vel ikke, når det kommer til stykket… Nu skal man jo heller ikke være blind for, at selvom Hakia markedsfører sig på at være en semantisk søgemaskine i opposition til Google, så er en stor del af de grundlæggende tanker antageligt de samme, og ligesom Google antageligt ikke ligger på den lade side i forhold til at optimere deres søgeresultater med semantik og andre lingvistiske midler, så undlader Hakia nok heller ikke at skæve til gode, gammeldags vektorbaserede søgemetoder.

Powerset

Powerset er endnu ikke offentliggjort, men har alligevel fået meget omtale på nettet. Tim Converse skriver her lidt om nogle traditionelle søgemetoder og skitserer nogle af visionerne for Powerset. En grundlæggende pointe er, at søgemaskinerne skal gå fra at beskæftige sig med sprogets form, til at beskæftige sig med de såkaldte dybdestrukturer – det vil groft sagt sige sprogets semantik og/eller syntaks. Dette ud fra en divise om, at sprogformen ikke altid alene siger noget om, hvordan enkeltord relaterer sig til hinanden. – Som en kommentar på bloggen meget fornuftigt lyder:

“I certainly do not agree with saying that we have squeezed as much as we can out of vector models, although possibly out of pure linear spaces.

I definately agree with the idea of doing further linguistic work to the text first, though, and I thoroughly enjoyed this article. I think the emphasis has to go on combining something along the lines of neural networks with the existing vector models, where many people I have heard talking about this recently have suggested completely removing the vector approach – which seems to be throwing away years of work”

Automatiske søgeord på hjemmesider

Som en afstikker i forbindelse med udviklingen af RetKomma-projektet er vi netop blevet færdige med en fuldautomatisk nøgleordsgenerator, som bl.a. kan anvendes til automatisk at finde søgeord på en hjemmeside. 

Hvorfor er det vigtigt med søgeord på hjemmesider?

Nogle meget gode grunde er, at søgeord kan siges at fungere som pejlemærker for søgemaskiner som Google – hjemmesiden bliver med andre ord lettere fundet af brugerne. Søgeord kan også danne fundament for mere avancerede teknologier såsom dynamiske links, hvor en hjemmeside selv opretter links fra én side til andre nærliggende sider (som der eksempelvis argumenteres for muligheden af i dette paper).

Kort sagt kan søgeord således være med til at skabe fundamentet for den endelige nedbrydning af en traditionel ‘pyramideopbygget’ hjemmeside.

Nøgleordsgeneratoren kan testes i en demo-udgave på vores hjemmeside. Prøv det, og giv gerne en kommentar:) Demo-udgaven er gratis.

Det banebrydende ved generatoren er, at den er fuldautomatisk, og at det er lykkedes os at udarbejde en algoritme, der kan fortælle, hvilke ord der er de vigtigste i et dokument. Så vidt vi ved, er der ikke andre på markedet, det er lykkedes for, og derfor er det jo i sig selv interessant.

Andre nøgleordsgeneratorer

I forbindelse med udarbejdelsen af nøgleordsgeneratoren har vi tjekket en række forskellige generatorer, som enten ikke er fuldautomatiske, eller som alternativt ikke er funderet på en dynamisk algoritme, men snarere er afhængig af diverse tommelfingerregler – og det fungerer bare ikke nær så godt.

Vi vil derfor tillade os at mene, at nøgleordsgeneratoren faktisk er det første seriøse bud på en nøgleordsgenerator, (1) fordi den kan implementeres, så den fungere automatisk hver gang en hjemmeside ændres, (2) fordi den automatisk finder de vigtigste ord på en hjemmeside ud fra en matematisk algoritme, som er uafhængig af tommelfingerregler, men derimod vurderer hvert enkelt ord for sig, (3) fordi den er funderet på en åben standard (WSDL-webservice) og derfor kan implementeres på stort set enhver software-platform.

Andre bud på nøgleordsgeneratorer er:

Her vil vi fremhæve PHP Classes og Topicalizer som nogle af de bedre generatorer. 

Nøgleordsgeneratoren er et af de sprogteknologiske produkter, som er udsprunget af RetKomma-projektet sammen med diverse artikler og en sprogvidenskabelig viden, hvor en del bliver kommenteret på denne blog.

Nøgleordsgeneratoren fungerer i øjeblikket kun til dansksprogede hjemmesider.