In plaats van de hele website in kaart te brengen, wil je je misschien richten op specifieke secties. In deze gids laten we je zien hoe je alleen de blog-URLs van Stripe’s website kunt extraheren.
Om alleen blog-URLs van Stripe’s website te extraheren, gebruik je de maps endpoint met padpatroonfilters. De include_urls parameter stelt je in staat om precies te specificeren welke URL-patronen je in de resultaten wilt opnemen.
import requestsimport timeimport json# ConfiguratieAPI_URL = 'https://api.olostep.com/v1'API_KEY = '<your_olostep_api_key>'HEADERS = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {API_KEY}'}# Starttijd voor latentie-trackingstart_time = time.time()# Definieer de payload met URL-patronen om op te nemenpayload = { "url": "https://stripe.com", "include_urls": ["/blog", "/blog/**"] # Komt overeen met /blog en alle paden onder /blog}# Voer het verzoek uitresponse = requests.post(f'{API_URL}/maps', headers=HEADERS, json=payload)# Bereken latentielatency = round((time.time() - start_time) * 1000, 2)print(f"Verzoek voltooid in {latency}ms")# Verwerk de resultatendata = response.json()print(f"Gevonden {data['urls_count']} blog-URLs op Stripe's website")# Print de eerste 10 URLs als voorbeeldprint("\nVoorbeeld blog-URLs:")for url in data['urls'][:10]: print(f"- {url}")# Sla blog-URLs op in een bestand voor verdere verwerkingwith open('stripe_blog_urls.json', 'w') as f: json.dump(data, f, indent=2)print(f"\nAlle blog-URLs opgeslagen in stripe_blog_urls.json")
Je kunt je extractie verder verfijnen om je te richten op specifieke blogcategorieën. Bijvoorbeeld, als je alleen geïnteresseerd bent in de engineering blogposts van Stripe:
# Definieer de payload met specifiekere URL-patronenpayload = { "url": "https://stripe.com", "include_urls": ["/blog/engineering", "/blog/engineering/**"]}