Web scraping is het automatisch extraheren van data van websites door HTML te parseren. Tools zijn BeautifulSoup (Python), Puppeteer (JavaScript) en Scrapy (Python). Toepassingen zijn prijsvergelijking, contentmonitoring en data-analyse. Let op juridische en ethische aspecten: controleer de gebruiksvoorwaarden, robots.txt en de privacywetgeving (GDPR).
Parse
AA
Talen & Formaten
Parse
Parsen is het analyseren en omzetten van data van het ene naar het andere formaat, bijvoorbeeld van string naar object. In JavaScript zet JSON.parse() een JSON-string om naar een object en maakt parseInt() van een string een number. Het omgekeerde is stringify/serialize. Parsen gebeurt ook bij HTML/XML en bij compilers en interpreters.
AA
Talen & Formaten
Crawlers
AA
Frontend
Webcrawlers / spiders
Een webcrawler (ook spider of bot) is een geautomatiseerd programma dat systematisch het web doorloopt door links te volgen en pagina's te ontdekken en te indexeren. Zoekmachines zoals Google gebruiken crawlers om content te vinden voor zoekresultaten. Je stuurt crawlers via robots.txt (toestaan of blokkeren) en sitemaps (prioriteiten). Kwaadaardige crawlers kun je tegenhouden met rate limiting en een captcha.
AA
Frontend
robots.txt
A
Servers
robots.txt
robots.txt is een tekstbestand in de root van een website dat crawlers vertelt wat ze wel of niet mogen indexeren. Het bevat regels als user-agent, disallow en allow en kan ook de sitemaplocatie aangeven. Let op: het is geen beveiliging. Voor echte bescherming gebruik je authenticatie of noindex.
A
Servers
Een uitgebreide collectie begrippen voor elk niveau
Van HTML & CSS tot databases en security
Geschikt voor beginners en gevorderden
Ideaal als lesmateriaal of teambuilding tool
Fysiek aan de slag, zonder scherm