Crawl Aanmaken
Start een nieuwe crawl. Je ontvangt een id om de voortgang bij te houden. De operatie kan 1-10 minuten duren, afhankelijk van de site en de diepte- en pagina-parameters.
Autorisaties
Bearer authenticatie header in de vorm Bearer , waar jouw auth token is.
Body
Het startpunt van de crawl.
Maximum aantal pagina's om te crawlen. Aanbevolen voor de meeste gebruikssituaties zoals het crawlen van een hele website.
URL-padpatronen om op te nemen in de crawl met behulp van glob-syntaxis. Standaard is /** wat alle URLs omvat. Gebruik patronen zoals /blog/** om specifieke secties te crawlen (bijv. alleen blogpagina's), /products/*.html voor productpagina's, of meerdere patronen voor verschillende secties. Ondersteunt standaard glob-functies zoals * (alle tekens) en ** (recursieve matching).
URL-padnamen in glob-patroon om uit te sluiten. Bijvoorbeeld: /careers/**. Uitgesloten URLs zullen voorrang hebben op opgenomen URLs.
Maximale diepte van de crawl. Handig om alleen tot n-graad van links te extraheren.
Crawl externe links van de eerste graad.
Inclusief subdomeinen van de website. Standaard false.
Een optionele zoekopdracht om specifieke links te vinden en ook de resultaten te sorteren op relevantie.
Een optioneel aantal om alleen de top N meest relevante links op elke pagina te crawlen volgens de zoekopdracht.
Beëindig de crawl na n seconden met de tot dan toe voltooide pagina's. Kan ~10s extra duren vanaf de opgegeven timeout.
Of robots.txt-regels gerespecteerd moeten worden. Als ingesteld op false, zal de crawler de website scrapen ongeacht robots.txt disallow-richtlijnen. Standaard true.
Bepaalt wat elke individuele pagina scrape aanvraagt van de Olostep API. Alle velden zijn optioneel.
Respons
Crawl succesvol gestart.
Crawl ID
Het soort object. "crawl" voor deze endpoint.
in_progress of completed
Aangemaakte tijd in epoch
Aangemaakte tijd in datum
De huidige diepte van het crawlproces.
Aantal gecrawlde pagina's
Aantal credits verbruikt door dit verzoek. Wordt ingevuld nadat de uitvoering voltooid is. Credits zijn de bron van waarheid voor facturering.
Geschatte kosten in USD voor dit verzoek. Wordt ingevuld nadat de uitvoering voltooid is. Berekend op basis van verbruikte credits en je abonnementsprijs — 99% nauwkeurig, maar credits_consumed is de gezaghebbende waarde.