Zum Hauptinhalt springen

Überblick

Bevor du dich in spezifische Abschnitte einer Website vertiefst, ist es oft nützlich, ein vollständiges Bild ihrer Struktur zu bekommen. In diesem Leitfaden zeigen wir dir, wie du alle URLs von Stripes Website extrahieren kannst, was dir helfen wird:
  • Die gesamte Seitenarchitektur zu verstehen
  • Inhaltsabschnitte zu entdecken, von denen du vielleicht nichts wusstest
  • LLMs zu verwenden, um zu entscheiden, welche URLs weiter gescrapt werden sollen

Alle Stripe-URLs extrahieren

Um alle URLs von Stripes Website zu extrahieren, verwende den Maps-Endpunkt mit Stripes Domain. Dies wird eine umfassende Liste aller auffindbaren URLs auf ihrer Seite zurückgeben.
import requests
import time
import json

# Konfiguration
API_URL = 'https://api.olostep.com/v1'
API_KEY = '<your_olostep_api_key>'
HEADERS = {
    'Content-Type': 'application/json',
    'Authorization': f'Bearer {API_KEY}'
}

# Startzeit für Latenzverfolgung
start_time = time.time()

# Definiere die Nutzlast nur mit der Basis-URL
payload = {
    "url": "https://stripe.com"
}

# Anfrage senden
response = requests.post(f'{API_URL}/maps', headers=HEADERS, json=payload)

# Latenz berechnen
latency = round((time.time() - start_time) * 1000, 2)
print(f"Anfrage abgeschlossen in {latency}ms")

# Ergebnisse verarbeiten
data = response.json()
print(f"{data['urls_count']} URLs auf Stripes Website gefunden")

# Die ersten 10 URLs als Beispiel ausgeben
print("\nBeispiel-URLs:")
for url in data['urls'][:10]:
    print(f"- {url}")
    
# Alle URLs zur weiteren Analyse in einer Datei speichern
with open('stripe_urls.json', 'w') as f:
    json.dump(data, f, indent=2)
print(f"\nAlle URLs in stripe_urls.json gespeichert")

Beispielantwort

{
  "id": "map_abc123xyz",
  "urls_count": 3842,
  "urls": [
    "https://stripe.com",
    "https://stripe.com/about",
    "https://stripe.com/blog",
    "https://stripe.com/docs",
    "https://stripe.com/pricing",
    "https://stripe.com/customers",
    "https://stripe.com/partners",
    "https://stripe.com/enterprise",
    "https://stripe.com/payments",
    "https://stripe.com/billing"
    // ... tausende weitere URLs
  ]
}

Analyse der Struktur von Stripes Website

Nachdem du alle URLs extrahiert hast, kannst du die Struktur analysieren, um Muster zu erkennen. Dies ist besonders nützlich, um zu verstehen, wie Stripe ihre Inhalte organisiert. Zum Beispiel könntest du diese URL-Muster bemerken:
  • /blog/** - Blogbeiträge und Artikel
  • /docs/** - Dokumentationsseiten
  • /payments/** - Informationen zu Zahlungsprodukten
  • /billing/** - Informationen zu Abrechnungsprodukten
In einigen Fällen möchtest du nur URLs in einem bestimmten Abschnitt der Website abrufen. Zum Beispiel alle Blogbeiträge. Du kannst unseren eingebauten Filter im nächsten Leitfaden verwenden.