Når Google skal finde og forstå indhold på nettet, bruger søgemaskinen en webcrawler kaldet Googlebot. Den besøger hjemmesider, følger links og henter information fra sider, så Google kan opdage nyt og opdateret indhold.
Googlebot er dermed første led i søgningens tekniske proces. Den står for crawling, altså selve gennemgangen af websteder og sider. Først derefter kan Google vurdere indholdet og eventuelt gemme det i sit indeks, hvilket kaldes indeksering.
Kort sagt finder Googlebot siderne, mens indeksering afgør, om og hvordan de kan vises i søgeresultaterne. Uden crawling har Google ikke noget grundlag for at behandle en side videre.
Sådan opdager og crawler Googles webcrawler sider
Googles webcrawler finder nye og opdaterede sider ved at følge links fra sider, den allerede kender. Interne links hjælper robotten med at bevæge sig rundt på et website, mens eksterne links fra andre websites kan være et signal om, at en ny side findes og er værd at besøge. Hvis en vigtig underside ikke er linket tydeligt fra menu, kategorier eller relaterede indlæg, er der større risiko for, at den bliver fundet sent eller crawlet sjældnere.
Et XML-sitemap gør arbejdet lettere, fordi det giver Google en samlet oversigt over relevante sider. Det er især nyttigt på store websites, nye domæner eller sider med få interne links. Et sitemap er dog ikke en garanti for, at alle sider bliver crawlet med det samme. Google bruger også andre signaler, for eksempel hvor ofte indhold ændrer sig, og om siden tidligere har været værd at besøge igen.
Crawlbudget handler om, hvor mange sider Google vælger at crawl på et website inden for en periode. Har en webshop tusindvis af produktsider, vil stærk intern linking og et opdateret sitemap hjælpe Google med at prioritere de vigtigste URL’er. Et konkret eksempel er en ny blogartikel, som både linkes fra forsiden og lægges i sitemap: Den bliver typisk opdaget hurtigere end en side, der kun ligger alene i arkivet.
Crawling, rendering og indeksering
Når Googlebot besøger en side, sker der ikke kun én handling, men flere adskilte trin. Crawling er selve hentningen af siden, hvor Googlebot anmoder serveren om HTML, billeder og andre ressourcer. At en side er crawlet, betyder derfor kun, at Google har forsøgt at læse den. Det er ikke det samme som, at indholdet er forstået eller gemt i Google Søgning.
Næste trin er rendering. Her forsøger Google at gengive siden, mere som en browser ville gøre det, så indhold, layout og elementer kan fortolkes korrekt. JavaScript kan påvirke denne proces, fordi vigtigt indhold nogle gange først vises, når scripts er kørt. Hvis rendering er mangelfuld eller forsinket, kan Google få et ufuldstændigt billede af siden.
Til sidst kommer indeksering. Det er den proces, hvor Google vurderer, om siden og dens indhold skal optages i søgeindekset. En crawlet og renderet side bliver altså ikke automatisk indekseret. Google kan vælge at undlade indeksering, hvis indholdet er tyndt, dubleret, blokeret eller vurderes som mindre relevant. Begreberne skal derfor holdes klart adskilt: hentning, fortolkning og optagelse er tre forskellige trin.
Varianter, user-agent og verificering
Google crawler ikke kun med én bot. I praksis møder man især mobil- og computerbaserede varianter, som bruges til at hente og vurdere sider under forskellige forhold. Den mobile Googlebot er normalt vigtigst, fordi Google primært arbejder med mobil versionering af indhold. Det betyder, at siden skal fungere og vise det centrale indhold korrekt på mobil, ikke kun på computer. Der findes også specialiserede crawlere til bestemte formål, men de fleste SEO-vurderinger tager udgangspunkt i de almindelige varianter.
En user-agent er den identifikation, en crawler eller browser sender med i sin forespørgsel. Den fortæller blandt andet, hvilken type klient der henter siden. I logfiler kan man derfor se, om besøget udgiver sig for at komme fra Googlebot til mobil eller computer. Det er dog vigtigt at forstå, at en user-agent alene ikke er bevis. Den kan forfalskes relativt let af andre bots.
Hvis man vil verificere, at trafikken faktisk kommer fra Google, skal man derfor se videre end navnet i user-agenten. På et overordnet niveau sker det typisk med omvendt DNS og efterfølgende IP-verifikation. Formålet er at kontrollere, at IP-adressen hænger sammen med et ægte Google-domæne og peger tilbage korrekt. Den praktiske pointe er enkel: Stol ikke blindt på, hvad en bot kalder sig. Verificér kilden, især hvis crawlaktivitet påvirker drift, sikkerhed eller analyse.
Sådan styrer du adgang til dit indhold
Du kan påvirke, hvad Googlebot må hente, og hvad der kan ende i Googles indeks, men de to ting er ikke det samme. robots.txt bruges til at styre crawling, altså om en side eller mappe må besøges. noindex bruges derimod til at forhindre indeksering, altså om indholdet må vises i søgeresultaterne. Den forskel er afgørende, hvis du vil undgå fejl i din tekniske SEO.
Hvis du blokerer en side i robots.txt, beder du crawleren om ikke at hente den. Det kan være relevant for eksempelvis filterparametre, testsider eller interne områder, som ikke giver værdi i søgning. Men en blokering i robots.txt fjerner ikke nødvendigvis siden fra Googles indeks, hvis søgemaskinen allerede kender adressen fra andre kilder. En typisk misforståelse er derfor at tro, at “blokeret” automatisk betyder “usynlig i Google”. Det gør det ikke.
Vil du være sikker på, at en side ikke bliver indekseret, skal du bruge noindex på selve siden eller i HTTP-headeren. Det kræver som udgangspunkt, at Googlebot må crawle siden for at kunne se direktivet. Derfor kan robots.txt og noindex ikke altid erstatte hinanden. Brug også beslægtede direktiver med omtanke, for eksempel regler for links eller visse filer, men vælg altid metode ud fra målet: Vil du begrænse crawling, eller vil du forhindre indeksering?
Typiske årsager til, at sider ikke bliver besøgt
Når Googlebot overser en side, skyldes det ofte, at vejen til den er for svag eller uklar. En ny underside kan for eksempel ligge flere klik fra forsiden uden interne links fra relevante kategorier eller artikler. Det gør den sværere at finde. Det samme gælder sider, der kun kan nås via søgefunktioner, filtre eller formularer, som robotten ikke bruger som en almindelig besøgende.
Nogle problemer opstår i den tekniske opsætning. Hvis vigtige filer som CSS eller JavaScript er blokeret, kan Google have svært ved at forstå indholdet korrekt. Serverfejl er en anden klassiker. En side, der ofte svarer med 5xx-fejl eller timeout, bliver ikke crawlet stabilt. Et konkret eksempel er produktsider, der virker for brugere, men midlertidigt fejler, når belastningen stiger.
Andre tilfælde handler om modstridende signaler. En side kan pege på en anden kanonisk version, selv om den burde stå alene. Eller et sitemap mangler de nye sider, så der sendes ingen tydelige signaler om, at indholdet findes. Det ses ofte på nye landingssider, kampagnesider og små indholdsområder, som ikke er flettet ordentligt ind i resten af webstedet.
Sådan tjekker du besøg fra Googlebot
Vil du se, om Google faktisk kan hente og forstå dine sider, er Google Search Console det bedste sted at begynde. Brug URL-inspektion på en konkret side for at se, om den er indekseret, hvornår den sidst blev crawlet, og om Google kan hente siden uden problemer. Her kan du også opdage forskelle mellem den live version og den version, Google har set.
Gå derefter til indekseringsrapporterne. De viser, hvilke sider der er indekseret, hvilke der er udeladt, og hvilke fejl eller advarsler der blokerer for crawling eller indeksering. Kig især efter fejl som soft 404, omdirigeringer, adgangsproblemer og sider, der er blokeret af robots-regler eller noindex. Rapporter for sideindeksering og vide indeksering kan sammen give et mere præcist billede af, hvor Googlebot støder på problemer.
Vil du have det mest detaljerede overblik, skal du analysere dine serverlogs. Her kan du se de faktiske besøg fra Googlebot: hvilke URL’er der crawles, hvor ofte botten kommer forbi, hvilke statuskoder serveren returnerer, og om crawlbudget bruges på irrelevante sider. Filtrér på user-agent og verificér om nødvendigt botten via IP-opslag. Loganalyse er især nyttig, når Search Console viser symptomer, men ikke hele årsagen.
Ofte stillede spørgsmål om Googlebot
Hvordan fungerer Googlebot?
Googlebot besøger webadresser automatisk, henter sidens indhold og følger links videre til andre sider. På den måde opdager Google både nye URL’er og ændringer på eksisterende sider.
Efter hentningen kan Google gengive siden, forstå indholdet og vurdere, om den skal med i søgeindekset. Crawling er altså selve besøget, mens indeksering er beslutningen om at gemme siden til brug i søgeresultaterne.
Hvordan finder Googlebot nye sider?
Googlebot finder typisk nye sider via interne og eksterne links. Hvis en side er linket tydeligt fra andre relevante sider, er den lettere at opdage og besøge.
Et XML-sitemap hjælper også, fordi det giver Google en samlet liste over vigtige URL’er. Det er især nyttigt på store websites, nye domæner og sider, der endnu ikke har mange links.
Hvad er forskellen på crawling og indeksering?
Crawling betyder, at Googlebot henter en side for at se, hvad der ligger på den. Indeksering betyder, at Google vælger at gemme og bruge siden i sit søgeindeks.
En side kan derfor godt være crawlet uden at være indekseret. Det kan for eksempel ske, hvis indholdet er svagt, dubleret, blokeret eller ikke vurderes som relevant nok.
Hvordan kan jeg se, om Googlebot besøger mit website?
Du kan begynde i Google Search Console, hvor URL-inspektion og indekseringsrapporter viser, om Google har besøgt og behandlet en side. Her kan du også se typiske fejl og seneste kendte crawl.
Vil du have det mest præcise billede, skal du kigge i serverlogs. Her kan du se de konkrete besøg, hvilke URL’er der er hentet, og hvilke statuskoder serveren har sendt tilbage.
Hvordan blokerer jeg Googlebot i robots.txt?
Du kan blokere Googlebot ved at angive regler i robots.txt, for eksempel for bestemte mapper eller URL-mønstre. Det begrænser crawling, så Googlebot ikke må hente de berørte sider.
Det er vigtigt at skelne mellem blokering og fjernelse fra søgeresultater. robots.txt stopper ikke nødvendigvis indeksering, hvis Google allerede kender URL’en. Hvis målet er at forhindre visning i Google, skal du normalt bruge noindex.
Kan Googlebot læse JavaScript?
Ja, Google kan i mange tilfælde gengive og forstå indhold, der er afhængigt af JavaScript. Det sker dog som en del af en separat renderingsproces og ikke altid lige hurtigt.
Hvis vigtigt indhold først vises sent, kræver mange scripts eller afhænger af blokerede filer, kan Google få et ufuldstændigt billede af siden. Derfor bør centralt indhold og vigtige links være lette at tilgå.
Hvad er Googlebots user-agent?
Googlebots user-agent er den identifikation, crawleren sender med i sin forespørgsel til serveren. Den bruges til at fortælle, hvilken type Google-crawler der henter siden, for eksempel mobil eller computer.
Den kan ses i serverlogs, men den er ikke i sig selv et sikkert bevis på, at besøget kommer fra Google. User-agenten kan forfalskes, så ved behov bør du også verificere IP-adressen.
Hvordan verificerer man, at trafik virkelig kommer fra Googlebot?
Den sikre metode er at kontrollere IP-adressen og ikke kun stole på navnet i user-agenten. Det gør man typisk ved først at lave et omvendt DNS-opslag og derefter bekræfte, at værtsnavnet peger tilbage til den samme IP.
Formålet er at sikre, at trafikken faktisk stammer fra Googles egne domæner og ikke fra en bot, der blot udgiver sig for at være Googlebot. Det er især relevant ved sikkerhed, belastningsproblemer og loganalyse.
Hvorfor crawler Googlebot ikke mine sider?
Det skyldes ofte svag intern linking, manglende signaler eller tekniske barrierer. Sider, der ligger dybt i strukturen eller kun kan nås via filtre, søgning eller formularer, er typisk sværere for Google at finde.
Andre årsager kan være serverfejl, timeout, blokering i robots.txt, fejl i kanoniske tags eller et sitemap, der ikke er opdateret. Hvis siden er vigtig, bør den have tydelige interne links, være teknisk tilgængelig og fremgå af sitemap.
Hvilken betydning har Googlebot for SEO?
Googlebot er afgørende, fordi Google først skal kunne finde og hente en side, før den kan vurderes til søgeresultaterne. Hvis vigtigste sider ikke crawles ordentligt, får de dårligere forudsætninger for at blive indekseret og rangere.
God teknisk SEO handler derfor blandt andet om at gøre indhold let at opdage, undgå unødvendige crawlspærrer og sikre, at Google kan hente og forstå siden uden problemer.
Hvad er forskellen på Googlebot til mobil og computer?
Forskellen ligger i, hvordan Google henter og vurderer siden under henholdsvis mobile og stationære forhold. Den mobile variant er normalt vigtigst, fordi Google i praksis tager udgangspunkt i mobilvisningen.
Hvis indhold, struktur eller funktioner afviger mellem mobil og computer, kan det påvirke, hvad Google faktisk ser. Derfor skal den mobile version indeholde det samme væsentlige indhold og fungere teknisk korrekt.