Tags

Crawlers

Frontend

Webcrawlers / spiders

Een webcrawler (ook spider of bot) is een geautomatiseerd programma dat systematisch het web doorloopt door links te volgen en pagina's te ontdekken en te indexeren. Zoekmachines zoals Google gebruiken crawlers om content te vinden voor zoekresultaten. Je stuurt crawlers via robots.txt (toestaan of blokkeren) en sitemaps (prioriteiten). Kwaadaardige crawlers kun je tegenhouden met rate limiting en een captcha.

Andere termen met deze tag:


robots.txt

A

Servers

robots.txt

robots.txt is een tekstbestand in de root van een website dat crawlers vertelt wat ze wel of niet mogen indexeren. Het bevat regels als user-agent, disallow en allow en kan ook de sitemaplocatie aangeven. Let op: het is geen beveiliging. Voor echte bescherming gebruik je authenticatie of noindex.

A

Servers

Ga naar dit kaartje

Scraping

AAA

Concepten

Web scraping

Web scraping is het automatisch extraheren van data van websites door HTML te parseren. Tools zijn BeautifulSoup (Python), Puppeteer (JavaScript) en Scrapy (Python). Toepassingen zijn prijsvergelijking, contentmonitoring en data-analyse. Let op juridische en ethische aspecten: controleer de gebruiksvoorwaarden, robots.txt en de privacywetgeving (GDPR).

AAA

Concepten

Ga naar dit kaartje

Sitemap

A

Servers

Sitemap

Een sitemap is een XML-bestand (sitemap.xml) met een overzicht van alle pagina's van je site. Zoekmachines kunnen zo efficiƫnter indexeren. Het bevat URL's, last-modified, update-frequentie en prioriteit. Vooral nuttig voor grote, nieuwe of dynamische sites. Dien in via Google Search Console.

A

Servers

Ga naar dit kaartje

400 kaartjes

Een uitgebreide collectie begrippen voor elk niveau

12 categorieen

Van HTML & CSS tot databases en security

3 niveaus

Geschikt voor beginners en gevorderden

Voor teams & klassen

Ideaal als lesmateriaal of teambuilding tool

Offline oefenen

Fysiek aan de slag, zonder scherm