Passer au contenu principal
POST
/
v1
/
scrapes
Initier un scraping de page web
curl --request POST \
  --url https://api.olostep.com/v1/scrapes \
  --header 'Authorization: Bearer <token>' \
  --header 'Content-Type: application/json' \
  --data '
{
  "url_to_scrape": "<string>",
  "wait_before_scraping": 123,
  "formats": [
    "html"
  ],
  "remove_css_selectors": "default",
  "actions": [
    {
      "type": "wait",
      "milliseconds": 1
    }
  ],
  "country": "<string>",
  "transformer": "postlight",
  "remove_images": false,
  "remove_class_names": [
    "<string>"
  ],
  "llm_extract": {
    "schema": {}
  },
  "links_on_page": {
    "absolute_links": true,
    "query_to_order_links_by": "<string>",
    "include_links": [
      "<string>"
    ],
    "exclude_links": [
      "<string>"
    ]
  },
  "screen_size": {
    "screen_type": "default",
    "screen_width": 123,
    "screen_height": 123
  },
  "screenshot": {
    "full_page": true
  },
  "metadata": {}
}
'
{
  "id": "<string>",
  "object": "<string>",
  "created": 123,
  "metadata": {},
  "url_to_scrape": "<string>",
  "result": {
    "html_content": "<string>",
    "markdown_content": "<string>",
    "text_content": "<string>",
    "json_content": "<string>",
    "screenshot_hosted_url": "<string>",
    "html_hosted_url": "<string>",
    "markdown_hosted_url": "<string>",
    "text_hosted_url": "<string>",
    "links_on_page": [
      "<string>"
    ],
    "page_metadata": {
      "status_code": 123,
      "title": "<string>"
    }
  }
}

Autorisations

Authorization
string
header
requis

En-tête d'authentification Bearer sous la forme Bearer , où est ton jeton d'authentification.

Corps

application/json
url_to_scrape
string<uri>
requis

L'URL à partir de laquelle commencer le scraping.

wait_before_scraping
integer

Temps d'attente en millisecondes avant de commencer le scraping.

formats
enum<string>[]

Formats dans lesquels tu veux le contenu.

Options disponibles:
html,
markdown,
text,
json,
raw_pdf,
screenshot
remove_css_selectors
enum<string>

Option pour supprimer certains sélecteurs CSS du contenu. Tu peux également passer un tableau JSON sous forme de chaîne des sélecteurs spécifiques que tu veux supprimer. Les sélecteurs CSS supprimés lorsque cette option est définie par défaut sont ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]

Options disponibles:
default,
none,
array
actions
(Attendre · object | Cliquer · object | Remplir l'entrée · object | Faire défiler · object)[]

Actions à effectuer sur la page avant d'obtenir le contenu.

country
string

Pays résidentiel à partir duquel charger la requête. Les valeurs prises en charge sont : - US (États-Unis) - CA (Canada) - IT (Italie) - IN (Inde) - GB (Angleterre) - JP (Japon) - MX (Mexique) - AU (Australie) - ID (Indonésie) - UA (Émirats Arabes Unis) - RU (Russie) - RANDOM Certaines opérations, comme le scraping de Google Search et Google News, prennent en charge tous les pays.

transformer
enum<string>

Spécifie le transformateur HTML à utiliser, si nécessaire. La bibliothèque Mercury Parser de Postlight est utilisée pour supprimer les publicités et autres contenus indésirables du contenu scrappé.

Options disponibles:
postlight,
none
remove_images
boolean
défaut:false

Option pour supprimer les images du contenu extrait. Par défaut, c'est false.

remove_class_names
string[]

Liste des noms de classes à supprimer du contenu.

parser
object

Lors de la définition de json comme format, tu peux utiliser ce paramètre pour spécifier le parseur à utiliser. Les parseurs sont utiles pour extraire du contenu structuré des pages web. Olostep a quelques parseurs intégrés pour les pages web les plus courantes, et tu peux également créer tes propres parseurs.

llm_extract
object

Avec cette option, tu peux obtenir tous les liens présents sur la page que tu scrapes.

screen_size
object

Configuration pour la taille de l'écran. Des dimensions prédéfinies sont disponibles via screen_type : desktop (1920x1080), mobile (414x896), ou default (768x1024).

screenshot
object
metadata
object

Métadonnées définies par l'utilisateur. Pas encore supporté.

Réponse

Réponse réussie avec les détails de l'initiation du scrape.

id
string

ID du scrape

object
string

Le type d'objet. "scrape" pour ce point de terminaison.

created
number

Époque créée

metadata
object

Métadonnées définies par l'utilisateur.

url_to_scrape
string

L'URL qui a été scrappée.

result
object