Anstatt die gesamte Website zu kartieren, möchten Sie sich möglicherweise auf bestimmte Abschnitte konzentrieren. In diesem Leitfaden zeigen wir Ihnen, wie Sie nur die Blog-URLs von Stripes Website extrahieren können.
Um nur Blog-URLs von Stripes Website zu extrahieren, verwenden Sie den Maps-Endpunkt mit Pfadmusterfiltern. Der Parameter include_urls ermöglicht es Ihnen, genau anzugeben, welche URL-Muster Sie in die Ergebnisse einbeziehen möchten.
import requestsimport timeimport json# KonfigurationAPI_URL = 'https://api.olostep.com/v1'API_KEY = '<your_olostep_api_key>'HEADERS = { 'Content-Type': 'application/json', 'Authorization': f'Bearer {API_KEY}'}# Startzeit für Latenzverfolgungstart_time = time.time()# Definieren Sie die Nutzlast mit einzuschließenden URL-Musternpayload = { "url": "https://stripe.com", "include_urls": ["/blog", "/blog/**"] # Übereinstimmung mit /blog und allen Pfaden unter /blog}# Anfrage stellenresponse = requests.post(f'{API_URL}/maps', headers=HEADERS, json=payload)# Latenz berechnenlatency = round((time.time() - start_time) * 1000, 2)print(f"Anfrage abgeschlossen in {latency}ms")# Ergebnisse verarbeitendata = response.json()print(f"{data['urls_count']} Blog-URLs auf Stripes Website gefunden")# Die ersten 10 URLs als Beispiel ausgebenprint("\nBeispiel-Blog-URLs:")for url in data['urls'][:10]: print(f"- {url}")# Blog-URLs zur weiteren Verarbeitung in eine Datei speichernwith open('stripe_blog_urls.json', 'w') as f: json.dump(data, f, indent=2)print(f"\nAlle Blog-URLs in stripe_blog_urls.json gespeichert")
Sie können Ihre Extraktion weiter verfeinern, um sich auf bestimmte Blog-Kategorien zu konzentrieren. Wenn Sie beispielsweise nur an Stripes Engineering-Blogbeiträgen interessiert sind:
# Definieren Sie die Nutzlast mit spezifischeren URL-Musternpayload = { "url": "https://stripe.com", "include_urls": ["/blog/engineering", "/blog/engineering/**"]}
Nachdem Sie nun alle Blog-URLs von Stripe extrahiert haben,
können Sie deren Inhalte einzeln mit der scrape API abrufen.
Oder, verwenden Sie den nächsten Leitfaden, um die tatsächlichen Inhalte von diesen Blogseiten direkt mit integrierten Filtern zu crawlen und zu extrahieren.