Invece di mappare l’intero sito web, potresti voler concentrarti su sezioni specifiche. In questa guida, ti mostreremo come estrarre solo gli URL del blog dal sito di Stripe.
Per estrarre solo gli URL del blog dal sito di Stripe, utilizza l’endpoint maps con filtri sui pattern dei percorsi. Il parametro include_urls ti consente di specificare esattamente quali pattern di URL vuoi includere nei risultati.
import requestsimport timeimport json# ConfigurazioneAPI_URL = 'https://api.olostep.com/v1'API_KEY = '<your_olostep_api_key>'HEADERS = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {API_KEY}'}# Ora di inizio per il monitoraggio della latenzastart_time = time.time()# Definisci il payload con i pattern di URL da includerepayload = { "url": "https://stripe.com", "include_urls": ["/blog", "/blog/**"] # Corrisponde a /blog e a tutti i percorsi sotto /blog}# Effettua la richiestaresponse = requests.post(f'{API_URL}/maps', headers=HEADERS, json=payload)# Calcola la latenzalatency = round((time.time() - start_time) * 1000, 2)print(f"Richiesta completata in {latency}ms")# Elabora i risultatidata = response.json()print(f"Trovati {data['urls_count']} URL del blog sul sito di Stripe")# Stampa i primi 10 URL come esempioprint("\nEsempio di URL del blog:")for url in data['urls'][:10]: print(f"- {url}")# Salva gli URL del blog in un file per ulteriori elaborazioniwith open('stripe_blog_urls.json', 'w') as f: json.dump(data, f, indent=2)print(f"\nTutti gli URL del blog salvati in stripe_blog_urls.json")
Puoi affinare ulteriormente la tua estrazione per concentrarti su specifiche categorie di blog. Ad esempio, se sei interessato solo ai post del blog di ingegneria di Stripe:
# Definisci il payload con pattern di URL più specificipayload = { "url": "https://stripe.com", "include_urls": ["/blog/engineering", "/blog/engineering/**"]}
Ora che hai estratto tutti gli URL del blog di Stripe,
Puoi recuperare il loro contenuto individualmente utilizzando l’API di scraping.
Oppure, utilizza la guida successiva per eseguire il crawling ed estrarre il contenuto effettivo da queste pagine del blog direttamente con filtri integrati.