Start een nieuwe crawl. Je ontvangt een id om de voortgang bij te houden. De operatie kan 1-10 minuten duren, afhankelijk van de site en de diepte- en pagina-parameters.
Bearer authenticatie header in de vorm Bearer
Het startpunt van de crawl.
Maximum aantal pagina's om te crawlen. Aanbevolen voor de meeste gebruikssituaties zoals het crawlen van een hele website.
URL-padpatronen om op te nemen in de crawl met behulp van glob-syntaxis. Standaard is /** wat alle URLs omvat. Gebruik patronen zoals /blog/** om specifieke secties te crawlen (bijv. alleen blogpagina's), /products/*.html voor productpagina's, of meerdere patronen voor verschillende secties. Ondersteunt standaard glob-functies zoals * (alle tekens) en ** (recursieve matching).
URL-padnamen in glob-patroon om uit te sluiten. Bijvoorbeeld: /careers/**. Uitgesloten URLs zullen voorrang hebben op opgenomen URLs.
Maximale diepte van de crawl. Handig om alleen tot n-graad van links te extraheren.
Crawl eerste-graads externe links.
Subdomeinen van de website opnemen. Standaard false.
Een optionele zoekopdracht om specifieke links te vinden en ook de resultaten te sorteren op relevantie.
Een optioneel aantal om alleen de top N meest relevante links op elke pagina te crawlen volgens de zoekopdracht.
Beëindig de crawl na n seconden met de tot dan toe voltooide pagina's. Kan ~10s extra duren vanaf de opgegeven timeout.
Of robots.txt-regels gerespecteerd moeten worden. Als ingesteld op false, zal de crawler de website scrapen ongeacht robots.txt disallow-richtlijnen. Standaard true.
Bepaalt wat elke individuele pagina scrape aanvraagt van de Olostep API. Alle velden zijn optioneel.
Crawl succesvol gestart.
Crawl ID
Het soort object. "crawl" voor deze endpoint.
in_progress of completed
Aangemaakte tijd in epoch
Aangemaakte tijd in datum
De huidige diepte van het crawlproces.
Aantal gecrawlde pagina's