Au lieu de cartographier l’ensemble du site web, tu pourrais vouloir te concentrer sur des sections spécifiques. Dans ce guide, nous te montrerons comment extraire uniquement les URLs de blog du site web de Stripe.
Pour extraire uniquement les URLs de blog du site web de Stripe, utilise l’endpoint maps avec des filtres de modèle de chemin. Le paramètre include_urls te permet de spécifier exactement quels modèles d’URL tu souhaites inclure dans les résultats.
import requestsimport timeimport json# ConfigurationAPI_URL = 'https://api.olostep.com/v1'API_KEY = '<your_olostep_api_key>'HEADERS = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {API_KEY}'}# Heure de début pour le suivi de la latencestart_time = time.time()# Définir la charge utile avec les modèles d'URL à inclurepayload = { "url": "https://stripe.com", "include_urls": ["/blog", "/blog/**"] # Correspond à /blog et à tous les chemins sous /blog}# Faire la requêteresponse = requests.post(f'{API_URL}/maps', headers=HEADERS, json=payload)# Calculer la latencelatency = round((time.time() - start_time) * 1000, 2)print(f"Requête terminée en {latency}ms")# Traiter les résultatsdata = response.json()print(f"Trouvé {data['urls_count']} URLs de blog sur le site web de Stripe")# Imprimer les 10 premières URLs comme échantillonprint("\nExemple d'URLs de blog :")for url in data['urls'][:10]: print(f"- {url}")# Enregistrer les URLs de blog dans un fichier pour un traitement ultérieurwith open('stripe_blog_urls.json', 'w') as f: json.dump(data, f, indent=2)print(f"\nToutes les URLs de blog enregistrées dans stripe_blog_urls.json")
Tu peux affiner davantage ton extraction pour te concentrer sur des catégories de blog spécifiques. Par exemple, si tu es uniquement intéressé par les articles de blog d’ingénierie de Stripe :
# Définir la charge utile avec des modèles d'URL plus spécifiquespayload = { "url": "https://stripe.com", "include_urls": ["/blog/engineering", "/blog/engineering/**"]}