Crawler

Hvad er en crawler?

I søgemaskiners arbejde med at opdage og forstå indhold på nettet spiller en crawler en central rolle. Det er et automatisk program, der besøger websider, henter deres indhold og følger links videre til andre sider. På den måde kan søgemaskiner finde nye og opdaterede sider uden manuel gennemgang.

En crawler kaldes også en webcrawler, søgemaskinebot eller spider. Fælles for disse betegnelser er, at de dækker over samme grundfunktion: at gennemlæse websites systematisk og sende data videre til søgemaskinens indeks.

Crawlere arbejder løbende og i stor skala, men de ser ikke en side helt som et menneske gør. Deres opgave er først og fremmest at hente indhold, registrere struktur og opdage links, så søgemaskinen senere kan vurdere og vise relevante sider i søgeresultaterne.

Gråt informationskort med ordbogstermen crawler og kort forklaring af begrebet

Sådan finder og gennemgår søgemaskinebots dine sider

Søgemaskinebots opdager typisk nye sider ved at følge spor fra indhold, de allerede kender. Det vigtigste spor er links. Når en bot besøger en side, læser den indholdet og følger de interne links videre til andre undersider. Har du for eksempel et blogindlæg, der linker til en kategoriside og en produktside, kan botten bevæge sig videre derfra og fortsætte gennem resten af sitet. På den måde fungerer links som stier mellem dine sider.

Et XML-sitemap er et andet vigtigt signal. Her giver du søgemaskiner en struktureret liste over de sider, du gerne vil have gennemgået. Det er især nyttigt for nye sider, dybtliggende undersider eller større websites, hvor ikke alle sider er lette at finde via intern navigation. Hvis du for eksempel opretter en ny guideside, kan den blive opdaget hurtigere, hvis den både er med i dit XML-sitemap og linket fra en relevant oversigtsside.

Når botten først er inde på sitet, bevæger den sig fra side til side ud fra interne signaler som navigation, brødkrummer, relaterede indlæg og links i selve teksten. Den vurderer samtidig, hvilke sider der er vigtigst, og hvor ofte de bør besøges igen. Er en side skjult uden interne links, eller er den kun svagt forbundet med resten af websitet, er der større risiko for, at den bliver overset eller crawlet sjældnere.

Fra crawling til indeksering og synlighed

Når en søgemaskine besøger en side, er det kun første led i processen. Crawling betyder, at en crawler henter og gennemgår indholdet på en URL for at finde tekst, links og tekniske signaler. Det er altså en opdagelsesfase. At en side er crawlet, betyder ikke i sig selv, at den bliver gemt i søgemaskinens indeks eller vist til brugerne.

Indeksering er næste trin. Her vurderer søgemaskinen, om siden skal med i indekset, og hvordan indholdet skal forstås. En side kan godt være crawlet uden at blive indekseret, for eksempel hvis indholdet er tyndt, duplikeret, blokeret af tekniske signaler eller vurderes som uden tilstrækkelig værdi. Crawling er derfor ikke en garanti for indeksering.

Synlighed og placeringer i søgeresultaterne kommer først derefter. Selv en indekseret side er ikke nødvendigvis synlig på vigtige søgninger. Her spiller relevans, kvalitet, intern linkstruktur, konkurrence og mange andre rangeringssignaler ind. Kort sagt: En side skal typisk først crawles, derefter indekseres, og først så kan den opnå placeringer i søgeresultaterne.

Tekniske forhold der påvirker crawlbarhed

En side kan have stærkt indhold og stadig være svær for søgemaskiner at gennemgå, hvis den tekniske opsætning spænder ben. Robots.txt er et af de første steder, en crawler møder begrænsninger. Hvis vigtige områder er blokeret, kan søgemaskinen ikke hente eller vurdere indholdet korrekt. Samtidig spiller statuskoder en central rolle: Sider med 200-status er tilgængelige, mens fejl som 404 og 5xx kan stoppe eller forsinke crawling. For mange omdirigeringer gør også processen mindre effektiv og kan svække prioriteringen af vigtige sider.

JavaScript er en anden hyppig årsag til dårlig crawlbarhed. Hvis væsentligt indhold, interne links eller navigation først vises efter rendering i browseren, er det ikke sikkert, at søgemaskiner ser det lige så hurtigt eller fuldstændigt som en bruger. Det kan føre til, at sider bliver opdaget sent, forstået forkert eller ikke crawlet i dybden. Derfor har servergenereret eller tydeligt tilgængeligt HTML-indhold ofte en klar SEO-fordel.

Kanoniske URL’er hjælper søgemaskiner med at forstå, hvilken version af en side der er den foretrukne, især når lignende eller næsten ens indhold findes flere steder. Forkert brug kan skabe tvivl og sende crawlbudget mod irrelevante versioner. Nofollow på interne links kan også begrænse, hvordan crawlere bevæger sig rundt på sitet. Hvis vigtige undersider kun nås via nofollow-link eller svage interne linkstrukturer, bliver de ofte crawlet sjældnere. God crawlbarhed handler derfor om at gøre adgang, signaler og prioritering så klare som muligt.

Crawlbudget på store websites

Søgemaskiner bruger ikke ubegrænsede ressourcer på at gennemgå et website. Derfor handler crawlbudget om, hvor mange sider en crawler typisk vælger og når at hente inden for en given periode. For små og velstrukturerede websites er det sjældent et praktisk problem, men på store websites med tusindvis eller millioner af sider kan det få betydning for, hvor hurtigt nyt og opdateret indhold bliver opdaget.

Prioriteringen afhænger blandt andet af websiteteknisk kvalitet, serverens svartid, interne links og hvor værdifuldt eller opdateret indholdet vurderes at være. Hvis mange sider ligner hinanden, er tynde, filtrerede eller giver fejl, kan crawlressourcer blive brugt mindre effektivt. Et klassisk eksempel på spildt crawlbudget er facetterede kategorisider, hvor utallige filterkombinationer skaber næsten identiske URL’er uden selvstændig værdi.

Det betyder ikke, at crawlbudget bør fylde meget på små sites. Her er god struktur, klare interne links og teknisk sundhed som regel nok. Emnet bliver især vigtigt, når et stort website har mange sider, hyppige ændringer eller områder, som søgemaskiner let kan bruge for meget tid på.

Typiske årsager til at sider ikke bliver opdaget

Mange sider bliver ikke fundet, fordi crawleren ikke har en tydelig vej ind til dem. Det sker ofte, når en side mangler interne links fra andre relevante sider. Ligger indholdet isoleret, er det let at overse. Svag navigationsstruktur giver samme problem. Hvis menuer, kategorier og undersider ikke hænger logisk sammen, bliver vigtige sider sværere at nå for både bots og brugere.

En anden klassisk fejl er blokeret adgang i robots.txt. Her kan mapper eller sider ved en fejl være afvist for crawl. Det gør, at indholdet ikke bliver hentet, selv om siden findes. Tjek derfor altid, om reglerne spærrer for områder, der faktisk skal kunne opdages.

Fejlstatuskoder stopper også opdagelse og hentning. Sider med 404, 410 eller gentagne 5xx-fejl sender et klart signal om, at indholdet ikke er tilgængeligt. Også lange kæder af redirects kan skabe unødigt friktion. En praktisk kontrol er at gennemgå interne links, teste vigtige sidetyper og sikre, at navigationen peger direkte på sider med korrekt statuskode.

Sådan gør du dit website lettere at crawle

Jo lettere søgemaskiner kan finde og forstå dine sider, desto bedre er det tekniske udgangspunkt for indeksering. Start med en ryddelig struktur, hvor vigtige sider ligger tæt på forsiden, og hvor navigationen er logisk. Kategorier, undersider og menuer skal hænge tydeligt sammen, så crawlere ikke skal gennem for mange led for at nå centralt indhold. Hold også øje med døde sider, unødige viderestillinger og fejl, der bremser gennemgangen.

Intern linking er et af de mest praktiske greb. Link relevante sider sammen med beskrivende ankertekster, så både brugere og crawlere forstår relationen mellem emner, produkter eller artikler. Sørg for, at vigtige sider får interne links fra flere relevante steder, og undgå forældreløse sider, som ikke kan findes via resten af sitet. Et XML-sitemap bør samtidig være opdateret og kun indeholde sider, du faktisk vil have crawlet og indekseret.

Håndtér også dubletter korrekt. Hvis samme indhold findes på flere adresser, bør du samle signalerne med canonicals eller konsistente viderestillinger, så crawlbudgettet ikke spildes. Vær desuden præcis med, hvilke områder der må og ikke må crawles, så søgemaskinerne bruger deres ressourcer på de sider, der har størst værdi. Små tekniske forbedringer her kan gøre en stor forskel i praksis.

Ofte stillede spørgsmål om Crawler

Hvad er en crawler i SEO?

En crawler i SEO er et automatisk program, som søgemaskiner bruger til at finde og hente indhold fra websider. Den gennemgår URL’er, læser links og registrerer tekniske signaler, så søgemaskinen kan vurdere, om siden skal indekseres.

Begrebet dækker ofte over søgemaskinernes egne bots, for eksempel Googlebot. Crawling er derfor det første trin, før en side eventuelt kan blive synlig i søgeresultaterne.

Hvordan fungerer en webcrawler?

En webcrawler starter typisk med kendte URL’er og følger derefter links videre til nye sider. Den kan også bruge XML-sitemaps og andre signaler til at opdage indhold, som endnu ikke er fundet via links.

Når den besøger en side, henter den indholdet, ser på struktur, statuskode og interne henvisninger. De data sendes videre til søgemaskinens systemer, som efterfølgende vurderer indeksering og relevans.

Hvad er forskellen på crawling og indeksering?

Crawling betyder, at søgemaskinen besøger og henter en side. Indeksering betyder, at siden efterfølgende bliver behandlet og eventuelt gemt i søgemaskinens indeks.

En side kan godt være crawlet uden at blive indekseret. Det kan for eksempel ske ved tyndt indhold, dubletter, tekniske problemer eller signaler, der fortæller søgemaskinen, at siden ikke bør med i indekset.

Hvordan finder en crawler nye sider?

Den mest almindelige vej er gennem links fra sider, som søgemaskinen allerede kender. Interne links, navigation, brødkrummer og relaterede sider hjælper crawleren med at bevæge sig rundt på websitet.

Et XML-sitemap kan også gøre nye eller dybtliggende sider lettere at opdage. Hvis en side hverken er linket internt eller nævnt i sitemap, er der større risiko for, at den bliver fundet sent eller slet ikke.

Kan en crawler læse JavaScript-indhold?

Ja, i mange tilfælde kan søgemaskiner behandle JavaScript, men det sker ikke altid lige så enkelt eller hurtigt som almindeligt HTML-indhold. Hvis vigtigt indhold eller centrale links først vises efter rendering, kan det give forsinkelser eller ufuldstændig forståelse.

Derfor er det en fordel, at vigtige tekster, interne links og navigation er tilgængelige direkte i HTML, når det er muligt. Det giver mere stabil crawlbarhed og færre SEO-risici.

Hvordan påvirker robots.txt en crawler?

Robots.txt fortæller crawlere, hvilke områder af et website de må eller ikke må hente. Hvis en vigtig mappe eller sidetype er blokeret her, kan søgemaskinen ikke gennemgå indholdet som normalt.

Filen bør derfor bruges præcist og med omtanke. En forkert regel kan komme til at afskære vigtige sider fra crawling og i nogle tilfælde også svække søgemaskinens forståelse af websitet.

Hvad betyder crawlbudget?

Crawlbudget beskriver, hvor mange sider en søgemaskine typisk vælger at crawle på et website inden for en given periode. Det er især relevant på store websites med mange URL’er og hyppige ændringer.

Hvis budgettet bruges på dubletter, filter-URL’er eller fejlsider, kan det forsinke opdagelsen af vigtigere indhold. På mindre websites er crawlbudget sjældent et stort problem, hvis strukturen og teknikken er i orden.

Hvorfor bliver mine sider ikke crawlet?

De mest almindelige årsager er manglende interne links, blokering i robots.txt, fejlstatuskoder eller en struktur, hvor siderne ligger for isoleret. En side uden tydelige indgange er sværere for søgemaskiner at opdage.

Problemet kan også skyldes mange redirects, svag intern linking eller indhold, der kun bliver synligt via kompleks JavaScript. Start med at kontrollere adgang, links, sitemap og statuskoder på de berørte URL’er.

Hvordan kan jeg gøre mit website lettere at crawle?

Gør strukturen enkel og logisk, så vigtige sider er lette at nå fra andre relevante sider. Brug interne links aktivt, hold XML-sitemap opdateret, og sørg for at centrale URL’er returnerer korrekt statuskode.

Fjern eller begræns unødige dubletter, fejl og lange redirectkæder. Hvis vigtigt indhold er afhængigt af JavaScript, bør du sikre, at søgemaskiner stadig kan hente og forstå det uden unødige barrierer.

Hvilken rolle spiller interne links for crawling?

Interne links hjælper crawlere med at finde nye sider og forstå, hvordan indholdet hænger sammen. De fungerer som stier gennem websitet og er ofte den vigtigste måde at lede søgemaskiner hen til vigtige undersider.

Jo bedre en side er forbundet med relevante interne links, desto større er chancen for, at den bliver opdaget og crawlet regelmæssigt. Sider uden interne links risikerer derimod at blive overset.

Faglig afsender

SEO-ordbogen.dk er udarbejdet og vedligeholdt af Henrik Andersen, som har arbejdet med hjemmesider siden 2004 og SEO siden 2013.

Formålet er at forklare SEO-begreber enkelt og praktisk, så både begyndere og erfarne kan få bedre forståelse for søgemaskineoptimering.

Læs mere om SEO-ordbogen og Henrik Andersen Se LinkedIn-profil