I SEO beskriver crawling den proces, hvor søgemaskiner automatisk finder og henter sider på et website. Det sker ved hjælp af bots, også kaldet crawlere, som følger links og besøger forskellige URL’er for at se, hvad der findes.
Formålet er at opdage nyt og opdateret indhold. Når en side er crawlet, kan søgemaskinen vurdere, om den skal behandles videre. Crawling kommer før indeksering, som er det trin, hvor indholdet gemmes og gøres klar til at kunne vises i søgeresultater.
Kort sagt handler crawling om opdagelse og hentning, ikke om placeringer. En side kan derfor godt være crawlet uden nødvendigvis at være indekseret.
Sådan finder og gennemgår søgemaskiner websider
Søgemaskiner opdager nye og opdaterede sider ved at samle spor fra flere kilder. Googlebot finder ofte indhold via links fra kendte sider, men et XML-sitemap hjælper også ved at pege på vigtige webadresser, som bør besøges. Sitemappet er ikke en garanti for, at alt bliver gennemsøgt, men det gør det lettere for søgemaskinen at forstå, hvilke sider der findes, og hvornår de sidst er ændret.
Når en side er fundet, henter Googlebot dens indhold og læser koden. Herfra følger den typisk interne links videre til andre undersider, så den kan bevæge sig rundt på hele websitet. Derfor betyder en tydelig intern linkstruktur meget i praksis: Hvis sider ligger dybt, er svære at nå eller kun er forbundet svagt, kan de blive fundet senere eller sjældnere.
I nogle tilfælde vurderer søgemaskinen også, om siden skal renderes, altså vises som i en browser for at forstå indhold, der indlæses via JavaScript. Det er dog et ekstra trin. Selve crawling handler først og fremmest om at opdage, hente og følge forbindelser mellem sider, så søgemaskinen kan kortlægge websitets indhold.
Forskellen på gennemsøgning, indeksering og rangering
De tre begreber beskriver hver sit trin i søgemaskinens arbejde, og de sker ikke automatisk i samme omgang. Gennemsøgning er, når en søgemaskines bot besøger en side og læser dens indhold. Det er altså selve opdagelsen og gennemgangen af siden.
Næste trin er indeksering. Her vurderer søgemaskinen, om siden skal gemmes i dens indeks og dermed være kandidat til at blive vist i søgeresultaterne. En side kan godt blive crawlet uden at blive indekseret, hvis indholdet er tyndt, dubleret, blokeret med noindex eller vurderes som uden selvstændig værdi.
Til sidst kommer rangering. Det handler om, hvor højt en indekseret side placeres på konkrete søgninger. En side skal derfor normalt først crawles, derefter indekseres, og først derefter kan den opnå placeringer. Eksempel: En filtreret kategoriside i en webshop kan blive gennemsøgt, men hvis den næsten er identisk med andre sider og er markeret med noindex, bliver den ikke indekseret og kan derfor heller ikke rangere.
Crawlbudget og faktorer, der påvirker det
Søgemaskiner fordeler ikke deres ressourcer ligeligt på alle websites. Hvor ofte et site eller en sektion bliver crawlet, afhænger blandt andet af, hvor meget søgemaskinen forventer at få ud af besøget, og hvor belastende det er at hente siderne. Det kaldes ofte crawlbudget: den mængde crawling et website realistisk får inden for en given periode.
Størrelsen på et website spiller en vigtig rolle. Store websites med mange undersider kræver mere prioritering, fordi søgemaskinen skal vælge, hvilke sider der skal besøges først og hyppigst. Samtidig har serverkapacitet stor betydning. Hvis serveren er langsom, ustabil eller ofte svarer med fejl, vil crawlhyppigheden typisk falde, fordi søgemaskinen forsøger at undgå unødig belastning. En hurtig og stabil server gør det lettere at crawle flere sider effektivt.
Indholdets opdateringsfrekvens påvirker også prioriteringen. Sider, der ofte ændres eller får nyt indhold, bliver normalt besøgt oftere end statiske sider. Interne links hjælper desuden søgemaskinen med at finde og forstå, hvilke sider der er vigtigst. En klar intern linkstruktur kan derfor løfte crawlprioriteten for centrale sider. Omvendt kan duplikeret indhold sprede crawlingen ud på mange næsten ens sider og bruge budgettet mindre effektivt. Det kan betyde, at vigtige sider crawles sjældnere, end de burde.
Tekniske barrierer der kan blokere adgangen
Når søgemaskiner ikke kan hente eller forstå en side korrekt, bliver crawling enten stoppet helt eller gjort unødigt besværligt. Den mest direkte blokering er robots.txt, som kan forhindre crawlere i at tilgå bestemte områder af et website. Det er vigtigt at skelne mellem adgang og indeksering: robots.txt blokerer primært crawling, ikke nødvendigvis indeksering, hvis søgemaskinen allerede kender siden fra andre kilder.
Andre signaler påvirker især, om en side kan komme i indekset. Et noindex-direktiv stopper typisk ikke crawlingen i sig selv, men fortæller søgemaskinen, at siden ikke skal indekseres. Det samme gælder et canonical-tag, der normalt ikke blokerer adgang, men peger på den foretrukne version af indholdet. Dermed kan søgemaskinen vælge at ignorere den aktuelle side i indekset, selv om den godt kan crawles.
Redirects kan både hjælpe og skabe problemer. En enkelt, korrekt viderestilling er ofte uproblematisk, men kæder og loops kan spilde crawlbudget og forhindre effektiv gennemsøgning. 4xx-statuskoder, som for eksempel fejl ved manglende adgang eller ikke-fundne sider, stopper som regel crawlingen af den konkrete side. 5xx-statuskoder er serverfejl og er ofte endnu mere alvorlige, fordi de signalerer, at søgemaskinen slet ikke kan hente indholdet. Hvis mange sider returnerer 5xx-fejl, kan det forstyrre gennemsøgningen af hele sitet.
Sådan vurderer du om dit website bliver besøgt af crawlere
Du kan som regel hurtigt se, om søgemaskiner allerede besøger dit website. Det mest oplagte sted at starte er Google Search Console, hvor du kan finde data om Googles aktivitet på siden. Kig især efter crawlstatistik, antal hentede sider og eventuelle fejl, fordi de viser, om Googlebot faktisk gennemgår dit indhold regelmæssigt.
Vil du have et mere præcist billede, bør du supplere med logfile-analyse. I serverlogs kan du se konkrete botbesøg, for eksempel forespørgsler fra Googlebot og andre søgemaskiners crawlere. Her kan du kontrollere, hvilke URL’er der bliver besøgt, hvor ofte de crawles, og om botterne møder mange 404- eller 5xx-fejl.
Et godt tegn er stabile crawlbesøg på vigtige sider og få tekniske fejl. Omvendt kan meget lav aktivitet, gentagne fejl eller crawl af irrelevante sider pege på problemer med intern linkstruktur, robots-regler eller indeksstyring. Det gør analysen brugbar i praksis, fordi du kan handle på konkrete mønstre frem for at gætte.
Eksempler på god opsætning for bedre gennemgang
En tydelig struktur gør det lettere for søgemaskiner at finde og hente de vigtigste sider først. Et godt eksempel er en stærk intern linkstruktur, hvor centrale kategorier linker videre til underkategorier og vigtige undersider. Når sider ikke ligger for langt fra forsiden, bliver de typisk opdaget hurtigere.
Et opdateret XML-sitemap er også en enkel og effektiv hjælp. Det bør kun indeholde relevante, indeksérbare sider og holdes ajour, når nyt indhold publiceres eller gamle sider fjernes. Det giver søgemaskiner et klart overblik over, hvilke sider der faktisk bør gennemgås.
Endelig er det en fordel at rydde op i unødige URL-varianter. Hvis samme indhold kan vises via flere adresser, kan crawleren bruge tid på dubletter i stedet for på vigtige sider. Ensartede adresser, korrekt viderestilling og færre filtre eller parametre kan derfor forbedre gennemgangen mærkbart.
Ofte stillede spørgsmål om Crawling
Hvad betyder crawling i SEO?
Crawling er den proces, hvor søgemaskiners robotter automatisk besøger og henter websider for at opdage nyt eller ændret indhold. De følger typisk links mellem sider og læser HTML-koden på de URL’er, de finder.
Det er et tidligt trin i søgemaskinens arbejde. En side skal som regel først crawles, før den kan vurderes til indeksering.
Hvad er forskellen på crawling og indeksering?
Crawling handler om at finde og hente en side. Indeksering handler om, at søgemaskinen vurderer indholdet og eventuelt gemmer siden i sit indeks, så den kan vises i søgeresultaterne.
En side kan derfor godt være crawlet uden at blive indekseret. Det kan for eksempel ske ved tyndt indhold, dubletter eller brug af noindex.
Hvordan finder Google nye sider at crawle?
Google finder ofte nye sider ved at følge interne og eksterne links fra sider, den allerede kender. Derfor er god intern linkstruktur vigtig, hvis nye undersider skal opdages hurtigt.
Et XML-sitemap kan også hjælpe ved at vise, hvilke URL’er der findes på sitet. Det er dog kun et hint og ikke en garanti for, at alle sider bliver crawlet med det samme.
Hvad er et crawlbudget?
Crawlbudget beskriver, hvor meget crawling et website realistisk får fra en søgemaskine i en given periode. Det er især relevant på store websites med mange URL’er, hvor søgemaskinen skal prioritere, hvilke sider den vil besøge.
Budgettet påvirkes blandt andet af serverens stabilitet, svartid, mængden af dubleret indhold og hvor ofte sider ændres. Hvis mange ressourcer bruges på irrelevante eller næsten ens sider, kan vigtige sider blive crawlet sjældnere.
Hvordan påvirker robots.txt crawling?
Robots.txt kan bede søgemaskiners crawlere om ikke at besøge bestemte områder eller URL-mønstre på et website. Det gør filen til et vigtigt værktøj, når du vil styre, hvad der må gennemsøges.
Den forhindrer dog ikke nødvendigvis indeksering i alle tilfælde. Hvis en søgemaskine kender en blokeret URL fra andre kilder, kan den stadig i nogle tilfælde optræde i søgeresultaterne uden fuldt indhold.
Kan en side crawles uden at blive indekseret?
Ja. Crawling betyder kun, at siden er blevet besøgt og hentet af søgemaskinen. Det er ikke det samme som, at siden godkendes til indekset.
Det sker blandt andet ved noindex, svagt eller dubleret indhold, eller hvis søgemaskinen vurderer, at siden ikke har nok selvstændig værdi. En crawlet side er altså ikke automatisk synlig i søgeresultaterne.
Hvordan ser jeg, om Google crawler mit website?
Det letteste sted at starte er Google Search Console, hvor du kan se crawlaktivitet, fejl og andre tegn på, at Googlebot besøger dit website. Her kan du også få indblik i, om bestemte sider giver problemer.
Vil du kontrollere det mere præcist, kan du analysere serverlogs. Logfiler viser, hvilke URL’er Googlebot faktisk har anmodet om, hvornår det skete, og hvilke statuskoder serveren returnerede.
Hvilke fejl kan blokere crawling?
Typiske problemer er blokering i robots.txt, serverfejl med 5xx-statuskoder, mange 404-sider og dårligt håndterede redirects. Især redirect-kæder og redirect-loops kan gøre gennemsøgningen langsom og ineffektiv.
Derudover kan svag intern linkstruktur gøre det svært for crawlere at nå vigtige sider. Hvis en side næsten ikke linkes til, kan den blive opdaget sent eller besøgt sjældent.
Hvordan påvirker intern linkstruktur crawling?
Intern linkstruktur hjælper søgemaskiner med at finde nye sider og forstå, hvilke områder af sitet der er vigtigst. Jo tydeligere forbindelser der er mellem centrale sider, desto lettere er de normalt at crawle.
Hvis sider ligger meget dybt i strukturen eller kun kan nås via få links, kan de få lavere crawlprioritet. En klar navigation og relevante interne links gør derfor crawling mere effektiv.
Hjælper et XML-sitemap søgemaskiner med crawling?
Ja, et XML-sitemap kan gøre det lettere for søgemaskiner at opdage vigtige URL’er, især på større websites eller på sider, der ikke er stærkt internt linket. Det giver en samlet liste over de sider, du ønsker gjort synlige for søgemaskinen.
Et sitemap erstatter dog ikke god intern linkstruktur. Det fungerer bedst som supplement og bør kun indeholde relevante, indeksérbare sider.