Effectuez une Scrape d’une URL avec la configuration fournie et obtenez le contenu.
En-tête d'authentification Bearer sous la forme Bearer
L'URL à partir de laquelle commencer le scraping.
Temps d'attente en millisecondes avant de commencer le scraping.
Formats dans lesquels tu veux le contenu.
html, markdown, text, json, raw_pdf, screenshot Option pour supprimer certains sélecteurs CSS du contenu. Tu peux également passer un tableau JSON sous forme de chaîne des sélecteurs spécifiques que tu veux supprimer. Les sélecteurs CSS supprimés lorsque cette option est définie par défaut sont ['nav','footer','script','style','noscript','svg',[role=alert],[role=banner],[role=dialog],[role=alertdialog],[role=region][aria-label*=skip i],[aria-modal=true]]
default, none, array Actions à effectuer sur la page avant d'obtenir le contenu.
Pays résidentiel à partir duquel charger la requête. Les valeurs prises en charge sont : - US (États-Unis) - CA (Canada) - IT (Italie) - IN (Inde) - GB (Angleterre) - JP (Japon) - MX (Mexique) - AU (Australie) - ID (Indonésie) - UA (Émirats Arabes Unis) - RU (Russie) - RANDOM Certaines opérations, comme le scraping de Google Search et Google News, prennent en charge tous les pays.
Spécifie le transformateur HTML à utiliser, si nécessaire. La bibliothèque Mercury Parser de Postlight est utilisée pour supprimer les publicités et autres contenus indésirables du contenu scrappé.
postlight, none Option pour supprimer les images du contenu extrait. Par défaut, c'est false.
Liste des noms de classes à supprimer du contenu.
Lors de la définition de json comme format, tu peux utiliser ce paramètre pour spécifier le parseur à utiliser. Les parseurs sont utiles pour extraire du contenu structuré des pages web. Olostep a quelques parseurs intégrés pour les pages web les plus courantes, et tu peux également créer tes propres parseurs.
Avec cette option, tu peux obtenir tous les liens présents sur la page que tu scrapes.
Configuration pour la taille de l'écran. Des dimensions prédéfinies sont disponibles via screen_type : desktop (1920x1080), mobile (414x896), ou default (768x1024).
Métadonnées définies par l'utilisateur. Pas encore supporté.