Semantisk søgning

Diskussionerne om semantisk søgning er gået  hårdt for sig det seneste stykke tid med nye påfund som Hakia og Powerset.

Søgemaskinen Hakia er blandt de nye tiltag, som særligt markedsfører sig på semantisk søgning. Ambitionen er at finde de mest relevante websites baseret på søgesætningernes betydning. Her ligger der implicit en kritik af rent statistisk funderede søgemaskiner (også kaldt vektorbaserede søgemaskiner), for hvem siger, at det de sider, der bliver vist oftest, altid repræsenterer det bedste søgematch?

Og det er en vigtig del af debatten. Vektorbaserede søgemaskiner fokuserer (i hvert fald de senere år) meget på, hvor mange andre sider der linker til den enkelte side, hvilket giver et mål for sidens popularitet. Herudover anvender de i høj grad mere matematisk eller statistisk funderede regler, som fx optæller antallet af ordforekomster i et dokument og sammenligner det med antallet af ordforekomster i andre dokumenter sammenholdt med data for fx hvor tæt ordene står sammen.

I dette blogindlæg skriver Hakias direktør lidt om filosofien bag den semantisk orienterede søgemaskine. Til eksempel giver han sætningen what is Palladium useful for? Han hævder, at Hakia vil genkende sætningskonstruktionen og regne ud, at det drejer sig om metallet palladium, mens en statistik baseret søgemaskine som Google måske vil returnere sider om London-teatret Palladium. Det er selvfølgelig oplagt at prøve selv:

Ja, den store forskel er der vel ikke, når det kommer til stykket… Nu skal man jo heller ikke være blind for, at selvom Hakia markedsfører sig på at være en semantisk søgemaskine i opposition til Google, så er en stor del af de grundlæggende tanker antageligt de samme, og ligesom Google antageligt ikke ligger på den lade side i forhold til at optimere deres søgeresultater med semantik og andre lingvistiske midler, så undlader Hakia nok heller ikke at skæve til gode, gammeldags vektorbaserede søgemetoder.

Powerset

Powerset er endnu ikke offentliggjort, men har alligevel fået meget omtale på nettet. Tim Converse skriver her lidt om nogle traditionelle søgemetoder og skitserer nogle af visionerne for Powerset. En grundlæggende pointe er, at søgemaskinerne skal gå fra at beskæftige sig med sprogets form, til at beskæftige sig med de såkaldte dybdestrukturer – det vil groft sagt sige sprogets semantik og/eller syntaks. Dette ud fra en divise om, at sprogformen ikke altid alene siger noget om, hvordan enkeltord relaterer sig til hinanden. – Som en kommentar på bloggen meget fornuftigt lyder:

“I certainly do not agree with saying that we have squeezed as much as we can out of vector models, although possibly out of pure linear spaces.

I definately agree with the idea of doing further linguistic work to the text first, though, and I thoroughly enjoyed this article. I think the emphasis has to go on combining something along the lines of neural networks with the existing vector models, where many people I have heard talking about this recently have suggested completely removing the vector approach – which seems to be throwing away years of work”

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s