Robots.txt

Q: Hvad betyder Disallow i robots.txt?

Disallow betyder, at en crawler ikke bør gennemgå den angivne mappe, fil eller URL-sti. Direktivet bruges til at begrænse crawling af områder, som ikke er vigtige i søgeresultaterne, eller som skaber unødigt forbrug af crawlbudget. Det er vigtigt at skelne mellem crawling og indeksering. En URL kan i nogle tilfælde stadig blive vist i søgeresultater, selv om den er omfattet af en Disallow-regel.

Q: Hvad er forskellen på Allow og Disallow?

Disallow bruges til at blokere crawling af en sti, mens Allow bruges til at gøre en undtagelse inden for et ellers blokeret område. Det er især nyttigt, hvis du vil afskærme en hel mappe, men stadig give adgang til en bestemt undermappe eller fil. Et klassisk eksempel er at blokere /billeder/, men tillade /billeder/produkt/. På den måde kan du styre crawling mere præcist.

Hvad er en robots.txt-fil?

En robots.txt-fil er en tekstfil, der giver søgemaskiners crawlere besked om, hvilke dele af et website de må eller ikke må gennemsøge. Den bruges som en teknisk vejledning til crawlingen, så bots lettere kan forstå, hvor de skal starte, og hvilke områder der bør undgås.

Filen placeres i websitets rodmappe, så crawlere kan finde den med det samme, når de besøger domænet. Det er vigtigt at forstå, at robots.txt styrer crawling – ikke adgangskontrol. En side kan derfor stadig være tilgængelig for brugere, selv om den er blokeret i filen.

Robots.txt bruges ofte til at begrænse crawling af eksempelvis filterparametre, interne søgeresultater eller tekniske mapper. Det hjælper søgemaskiner med at bruge deres crawlbudget mere effektivt og fokusere på de vigtigste sider.

Informationskort om robots.txt som styrer søgemaskiners crawlere på et website

Sådan fungerer instruktioner til crawlere

Når en webcrawler besøger et website, forsøger den først at finde filen robots.txt i roden af domænet. Her læser crawleren de instruktioner, der fortæller, hvilke områder den må crawle, og hvilke mapper eller sider den skal holde sig fra. Reglerne er typisk opdelt efter brugeragent, så forskellige crawlere kan få forskellige beskeder.

I praksis sammenholder crawleren sine egne kendetegn med de relevante regler i filen. En Allow-regel kan give adgang til et bestemt område, mens Disallow bruges til at begrænse crawling. Hvis der ikke findes en passende regel, vil mange crawlere fortsætte med at besøge siden. Robots.txt styrer altså adgangen til crawling, men den fjerner ikke i sig selv en side fra søgeresultater.

På større websites er det især nyttigt for at styre crawlbudgettet. Hvis en webcrawler bruger tid på filterkombinationer, interne søgeresultater eller andre sider uden SEO-værdi, kan det gå ud over de vigtigste URL’er. Klare instruktioner hjælper derfor crawlere med at prioritere bedre, så nye eller opdaterede sider bliver fundet hurtigere. Det gør robots.txt til et praktisk værktøj i den tekniske SEO-indsats.

Vigtige regler og typisk syntaks

En robots-fil består af enkle direktiver, der fortæller søgemaskiners crawlere, hvilke områder de må eller ikke må besøge. Det vigtigste felt er User-agent, som angiver, hvilken robot reglerne gælder for. Skriver man User-agent: *, gælder reglerne for alle crawlere. Derefter følger typisk Disallow og eventuelt Allow. Syntaksen skal være præcis, og hvert direktiv skrives på sin egen linje.

Disallow bruges til at blokere adgang til en mappe eller en bestemt sti, mens Allow bruges til at åbne for en understi, selv om en bredere regel ellers blokerer den. Kort sagt: Disallow forbyder, Allow tillader. Det er især nyttigt, når man vil afskærme et helt område, men stadig give adgang til enkelte filer eller undermapper.

Eksempel 1:
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Sitemap: /sitemap.xml

I eksemplet ovenfor må alle crawlere ikke besøge mapperne /admin/ og /tmp/. Direktivet Sitemap peger på placeringen af webstedets sitemap, så søgemaskiner lettere kan finde vigtige sider. Her er et eksempel, hvor både blokering og undtagelse indgår:

Eksempel 2:
User-agent: *
Disallow: /billeder/
Allow: /billeder/produkt/
Sitemap: /sitemap.xml

Crawling, indeksering og noindex er ikke det samme

En af de mest udbredte misforståelser i SEO er, at en blokering i robots.txt automatisk holder en side ude af Google. Det gør den ikke nødvendigvis. Filen fortæller først og fremmest søgemaskiners crawlere, hvilke områder de ikke bør besøge. Det handler altså om crawling, ikke direkte om indeksering.

En side kan derfor godt blive vist i søgeresultaterne, selv om den er blokeret i robots.txt. Det kan ske, hvis søgemaskinen kender siden fra for eksempel interne links, eksterne henvisninger eller et sitemap. Når crawlere ikke må hente siden, kan de samtidig have svært ved at se dens indhold og dens metadata. Derfor er robots.txt ikke i sig selv en garanti for noindex.

Hvis målet er at forhindre indeksering, bruges typisk meta robots eller et x-robots-tag. Begge kan sende instruktionen noindex, som fortæller søgemaskiner, at siden eller filen ikke skal optages i indekset. Forskellen er, at meta robots placeres i HTML-koden på selve siden, mens x-robots-tag sendes i serverens header og også kan bruges til ikke-HTML-filer som PDF’er og billeder.

Eksempler på god opsætning

En fornuftig robots.txt hjælper søgemaskiner med at bruge crawlbudgettet på de sider, der faktisk har værdi i søgeresultaterne. Det vil typisk være relevant at blokere filtrerede URL’er i webshops, hvis kombinationer af farve, størrelse, sortering eller pris skaber mange næsten ens sider. På samme måde vælger mange at afvise interne søgeresultater, fordi de sjældent giver unik værdi og ofte skaber et stort antal tynde sider.

Det er også almindeligt at blokere områder, som ikke er beregnet til offentlig indeksering. Det kan være testmiljøer, midlertidige udviklingsområder eller systemmapper med tekniske filer. Her handler det ikke kun om SEO, men også om at undgå, at søgemaskiner bruger ressourcer på indhold, der er ufuldstændigt eller irrelevant for brugere.

En god opsætning er samtidig præcis. Man bør normalt tillade adgang til vigtige ressourcer som billeder, JavaScript og CSS, så søgemaskiner kan gengive siden korrekt. Målet er ikke at blokere mest muligt, men at styre adgangen klogt: vigtige landingssider og kategorier skal kunne crawles, mens støj, dubletter og tekniske områder holdes ude.

Typiske fejl og begrænsninger

Mange problemer opstår, fordi små fejl i syntaks eller placering får større konsekvenser end forventet. Regler kan stå under den forkerte User-agent, være skrevet med forkerte stier eller være så brede, at hele sektioner utilsigtet blokeres. Det ses også, at virksomheder blokerer vigtige landingssider, kategorier eller filtrerede sider, som faktisk skal kunne crawles og vurderes af søgemaskiner. Resultatet kan være svagere synlighed, dårligere indeksering og tab af organisk trafik.

En anden klassisk fejl er at blokere CSS- og JavaScript-filer. Når søgemaskiner ikke kan hente centrale ressourcer, kan de få et forkert billede af sidens indhold, layout og funktionalitet. Det kan påvirke både rendering, forståelse af siden og vurderingen af brugeroplevelsen. På moderne websites, hvor navigation, indhold eller produktlister ofte indlæses via scripts, kan konsekvensen være betydelig.

Der er også en udbredt misforståelse om, at robots.txt beskytter indhold. Det gør den ikke. Filen er offentligt tilgængelig og kan læses af alle, så den egner sig ikke til at skjule følsomme områder, dokumenter eller interne mapper. Samtidig forhindrer en blokering ikke nødvendigvis, at en side kan blive vist i søgeresultater, hvis søgemaskinen kender adressen fra andre kilder. Robots.txt styrer crawling, ikke adgangskontrol, og den er ikke et sikkerhedsværktøj.

Test, validering og løbende kontrol

Når du har opdateret din robots.txt, bør du altid kontrollere, at reglerne faktisk virker efter hensigten. En lille fejl i syntaks eller placering kan blokere vigtige sider eller åbne for områder, der burde være afskærmet. Start med at gennemgå filen manuelt og bekræft, at brugeragenter, disallow- og allow-regler er skrevet korrekt.

Brug derefter Google Search Console til at se, om Google kan hente filen, og om bestemte webadresser bliver blokeret eller må crawles. Det giver et hurtigt billede af, hvordan søgemaskinen læser dine regler i praksis. Sammenhold gerne resultatet med serverlogfiler eller crawlrapporter fra dit SEO-værktøj, så du opdager uventede afvisninger, fejl i stier og konflikter mellem regler.

Løbende kontrol er vigtig, især efter redesign, migreringer og ændringer i CMS eller skabeloner. Test både enkelte sider og mønstre for mapper, billeder og parametre. Så finder du problemer tidligt og undgår, at vigtige dele af sitet forsvinder ud af crawlbudgettet.

Ofte stillede spørgsmål om Robots.txt

Hvor skal robots.txt ligge på et website?

Robots.txt skal ligge i roden af det domæne eller subdomæne, den gælder for. Det betyder typisk, at filen skal kunne findes direkte på adressen https://ditdomæne.dk/robots.txt.

Filen gælder ikke automatisk på tværs af subdomæner. Hvis du også har for eksempel blog.ditdomæne.dk, skal det subdomæne have sin egen robots.txt-fil.

Hvordan skriver man regler i robots.txt?

Regler skrives som enkle direktiver på hver sin linje. De mest brugte er User-agent, som angiver hvilken crawler reglerne gælder for, Disallow, som blokerer en sti, og Allow, som tillader en bestemt sti.

Et simpelt eksempel er: User-agent: * efterfulgt af Disallow: /admin/. Det betyder, at alle crawlere bliver bedt om ikke at gennemgå indhold i mappen /admin/.

Hvad betyder Disallow i robots.txt?

Disallow betyder, at en crawler ikke bør gennemgå den angivne mappe, fil eller URL-sti. Direktivet bruges til at begrænse crawling af områder, som ikke er vigtige i søgeresultaterne, eller som skaber unødigt forbrug af crawlbudget.

Det er vigtigt at skelne mellem crawling og indeksering. En URL kan i nogle tilfælde stadig blive vist i søgeresultater, selv om den er omfattet af en Disallow-regel.

Hvad er forskellen på Allow og Disallow?

Disallow bruges til at blokere crawling af en sti, mens Allow bruges til at gøre en undtagelse inden for et ellers blokeret område. Det er især nyttigt, hvis du vil afskærme en hel mappe, men stadig give adgang til en bestemt undermappe eller fil.

Et klassisk eksempel er at blokere /billeder/, men tillade /billeder/produkt/. På den måde kan du styre crawling mere præcist.

Kan robots.txt forhindre indeksering i Google?

Nej, ikke sikkert. Robots.txt styrer først og fremmest, om Google må crawle en URL, men det er ikke det samme som at forhindre indeksering.

Hvis Google kender adressen fra links eller andre kilder, kan URL’en stadig dukke op i søgeresultaterne uden fuldt indhold. Hvis målet er at forhindre indeksering, bruges normalt noindex via meta robots eller x-robots-tag.

Hvad er forskellen på robots.txt og meta robots?

Robots.txt bruges til at styre crawling på website-niveau eller for bestemte stier. Meta robots placeres derimod i HTML-koden på den enkelte side og bruges til at styre, hvordan siden må indekseres og vises.

Kort sagt: robots.txt handler primært om adgang til crawl, mens meta robots kan bruges til instruktioner som noindex. De to værktøjer løser derfor ikke det samme problem.

Hvordan tester man en robots.txt-fil?

Du kan starte med at åbne filen direkte i browseren og kontrollere, at den ligger korrekt og returnerer et normalt svar fra serveren. Derefter bør du gennemgå reglerne linje for linje for at sikre, at stier og brugeragenter er skrevet korrekt.

Brug også Google Search Console og eventuelt crawlværktøjer eller serverlogfiler til at se, hvordan reglerne bliver læst i praksis. Det er især vigtigt efter ændringer, migreringer eller større tekniske opdateringer.

Kan man tilføje sitemap i robots.txt?

Ja, du kan angive placeringen af dit sitemap i robots.txt med direktivet Sitemap. Det hjælper søgemaskiner med hurtigere at finde de vigtigste URL’er på sitet.

Det erstatter dog ikke et korrekt oprettet sitemap eller indsendelse via Google Search Console. Det er bedst at se det som en ekstra hjælp, ikke som den eneste metode.

Hvilke sider bør man blokere i robots.txt?

Det er ofte relevant at blokere sider og områder, der ikke giver SEO-værdi, men som kan bruge unødige crawlressourcer. Det kan for eksempel være interne søgeresultater, tekniske mapper, testmiljøer og visse parameter- eller filter-URL’er.

Man bør derimod være varsom med at blokere sider, der har potentiel værdi i søgeresultaterne. Hvis en kategori, et produkt eller en landingsside skal kunne findes i Google, skal den som udgangspunkt kunne crawles.

Hvilke fejl i robots.txt kan skade SEO?

De mest alvorlige fejl er brede blokeringer, der rammer vigtige sektioner af sitet. Det kan for eksempel være, hvis kategorier, produktsider eller centrale ressourcer som CSS og JavaScript utilsigtet bliver afskåret fra crawling.

Også små syntaksfejl, forkert placering af filen og regler under den forkerte User-agent kan give problemer. Derfor bør enhver ændring testes, før den får lov at påvirke et website i drift.

Faglig afsender

SEO-ordbogen.dk er udarbejdet og vedligeholdt af Henrik Andersen, som har arbejdet med hjemmesider siden 2004 og SEO siden 2013.

Formålet er at forklare SEO-begreber enkelt og praktisk, så både begyndere og erfarne kan få bedre forståelse for søgemaskineoptimering.

Læs mere om SEO-ordbogen og Henrik Andersen Se LinkedIn-profil