Zum Hauptinhalt springen
Olostep ist eine Websuch-, Scraping- und Crawling-API — eine API zum Suchen, Extrahieren und Strukturieren von Webdaten. Diese Anleitung zeigt, wie du Olostep mit Apify Actors verwenden kannst, um zuverlässige Webdaten-Pipelines von Anfang bis Ende zu erstellen.

Was du bauen kannst

Website scrapen

Extrahiere Inhalte von jeder einzelnen URL in Markdown, HTML, JSON oder Text

URLs im Batch scrapen

Verarbeite große Listen von URLs parallel mit strukturierten Ausgaben

Crawl erstellen

Entdecke und scrape verlinkte Seiten, um vollständige Datensätze zu erstellen

Karte erstellen

Extrahiere alle URLs von einer Website (sitemap-ähnliche Entdeckung)

KI-gestützte Antworten

Stelle Fragen und erhalte strukturierte JSON-Antworten mit Quellen

Schnellstart

1) Apify CLI installieren

npm install -g apify-cli
apify --version

2) Deinen Olostep API-Schlüssel erhalten

Vom Olostep Dashboard → API-Schlüssel.

3) Den Olostep Actor lokal ausführen

cd olostep-tools/integrations/apify
apify run
Die Standard-Eingabedatei befindet sich unter: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Beispiel-Eingabe:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Auf Apify (Cloud) bereitstellen

apify login
apify push
Öffne dann die Apify-Konsole → Actors → führe den Actor mit deiner gewünschten Eingabe aus.

In der Apify-Konsole ausführen (Schritt für Schritt)

  1. Öffne deinen Actor in der Apify-Konsole → Quelle → Eingabe.
  2. Im manuellen Tab siehst du ein sichtbares Feld „Olostep API-Schlüssel“. Füge deinen Schlüssel vom Olostep Dashboard ein.
  3. Wähle eine Operation (Standard ist „scrape“).
  4. Fülle die relevanten Felder aus (für „scrape“, setze „URL zum Scrapen“).
  5. Klicke auf Speichern → Start.
  6. Wenn der Lauf beendet ist, öffne den Datensatz-Tab, um Ergebnisse herunterzuladen (JSON/CSV/Excel).
Hinweise:
  • Für „URL zum Scrapen“ kannst du mit oder ohne Schema einfügen. Wenn es fehlt, fügt der Actor automatisch https:// hinzu.
  • Wenn eine Seite stark in JavaScript ist und du ein Timeout siehst, setze „Warten vor Scrapen“ auf 2000–5000 ms und führe es erneut aus.

Verfügbare Operationen

Website scrapen

Extrahiere Inhalte von einer einzelnen URL. Ideal für Seitenebenen-Automatisierung.
operation
constant
Standard:"scrape"
Muss “scrape” sein
apiKey
string
erforderlich
Dein Olostep API-Schlüssel (Bearer)
url_to_scrape
string
erforderlich
Die URL zum Scrapen (muss http:// oder https:// enthalten)
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode (z.B. “US”, “GB”, “CA”)
wait_before_scraping
integer
Optionale Wartezeit in ms für JavaScript-Rendering (0–10000)
parser
string
Optionaler Parser-ID (z.B. “@olostep/amazon-product”)
Ausgabefelder:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • gehostete URLs (falls verfügbar), Seitenmetadaten

URLs im Batch scrapen

Verarbeite viele URLs gleichzeitig mit konsistenter Formatierung und Struktur.
operation
constant
Standard:"batch"
Muss “batch” sein
apiKey
string
erforderlich
Dein Olostep API-Schlüssel
batch_array
text
erforderlich
JSON-Array von Objekten mit url und optionalem custom_id
Beispiel: [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode
wait_before_scraping
integer
Optionale Wartezeit in ms für JS-Seiten
parser
string
Optionaler Parser-ID
Ausgabefelder:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Crawl erstellen

Folge Links und scrape mehrere Seiten von einer Start-URL.
operation
constant
Standard:"crawl"
Muss “crawl” sein
apiKey
string
erforderlich
Dein Olostep API-Schlüssel
start_url
string
erforderlich
Start-URL für den Crawl
max_pages
integer
Standard:"10"
Maximal zu crawlende Seiten
Folge Links auf der Seite
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode
parser
string
Optionaler Parser-ID
Ausgabefelder:
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

Karte erstellen

Entdecke alle URLs auf einer Website und bereite sie für späteres Batch-Scraping vor.
operation
constant
Standard:"map"
Muss “map” sein
apiKey
string
erforderlich
Dein Olostep API-Schlüssel
website_url
string
erforderlich
Die zu kartierende Website
search_query
string
Optionale Abfragefilter
top_n
integer
Begrenze die Anzahl der URLs
include_patterns
string
Einschlussmuster, z.B. “/products/**”
exclude_patterns
string
Ausschlussmuster, z.B. “/admin/**”
Ausgabefelder:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

JSON-Beispiele zum Kopieren und Einfügen (Konsole → Eingabe → JSON)

Scrape

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Batch

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Map

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Answers

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Beispiel-Workflows

  1. Karte erstellen → Einschluss “/products/**”
  2. URLs parsen → Batch-Array erstellen
  3. URLs im Batch scrapen → Formate: JSON
  4. An Google Sheets / Airtable senden
  1. Actor planen (täglich)
  2. Website scrapen → Formate: Markdown
  3. Mit LLM zusammenfassen
  4. Benachrichtigung auf Slack
  1. Crawl erstellen (Blog/Dokumente)
  2. Ausgaben in Notion speichern
  3. Wöchentlich mit Zeitplan aktualisieren

Spezialisierte Parser

Olostep unterstützt Parser zur Strukturierung von Daten für beliebte Seiten.

Amazon-Produkt

@olostep/amazon-product → Titel, Preis, Bewertung, Rezensionen, Bilder, Varianten

Google-Suche

@olostep/google-search → Ergebnisse, Titel, Snippets, URLs

Google Maps

@olostep/google-maps → Unternehmensinformationen, Rezensionen, Bewertungen, Standort

Weitere Parser

Entdecke E-Mail-Extraktoren, Social-Handle-Finder, Kalenderlink-Extraktoren und mehr

Best Practices

Schneller, günstiger, einfacher zu überwachen und respektiert Ratenlimits.
JS-lastige Seiten: Erhöhe wait_before_scraping (z.B. 2000–5000ms).
Vermeide unnötige Aufgaben — überprüfe zuerst Änderungen, halte den Deduplizierungszustand.
Verwende gehostete Ausgaben, um Größenbeschränkungen für Nutzlasten in Apify-Flows zu umgehen.
Batch/Crawl/Map geben IDs zurück; später abrufen oder mit Verzögerung verketten.
Wenn du einen 504 oder vorübergehenden Timeout siehst, versucht der Actor automatisch einmal mit kurzer Wartezeit erneut.
Du kannst auch „Warten vor Scrapen“ auf 2000–5000 ms für JS-lastige Seiten setzen.

Fehlerbehebung

  • Überprüfe den API-Schlüssel vom Dashboard
  • Entferne nachfolgende Leerzeichen
  • Erneut im Apify-Eingabeformular eingeben
  • Wartezeit erhöhen
  • Überprüfe, ob die URL öffentlich ist / nicht login-geschützt
  • Versuche ein anderes Ausgabeformat
  • Läufe über Zeitplan verteilen
  • Bevorzuge Batch für viele URLs
  • Upgrade des Olostep-Plans, falls nötig
  • Versuche den Länderparameter
  • Passe Wartezeit und Parser an
  • Kontaktiere den Support für Anleitung

Preisgestaltung

Olostep berechnet nach API-Nutzung (unabhängig von Apify):
  • Scrapes → pro Scrape
  • Batches → pro URL
  • Crawls → pro Seite
  • Maps → pro Operation
Siehe https://olostep.com/pricing.

Sicherheit

  • Dein API-Schlüssel wird zur Laufzeit als Bearer-Token gesendet.
  • Schlüssel nicht in die Versionskontrolle einchecken; Apify speichert Eingaben im Key-Value Store.
  • In der lokalen Entwicklung, halte Schlüssel in storage/key_value_stores/default/INPUT.json (gitignored).

Verwandte Ressourcen

Scrapes API

Extrahiere LLM-freundliches Markdown, HTML, Text oder strukturiertes JSON von jeder URL.

Batches API

Verarbeite bis zu 10k URLs gleichzeitig und rufe Ergebnisse später ab.

Crawls API

Entdecke und scrape rekursiv den Inhalt einer Website.

Maps API

Erhalte alle URLs auf einer Website, um Batch-Scrapes vorzubereiten.

Support

Apify Website

Apify-Plattform

Apify Docs

Apify-Plattform & SDK-Dokumentation

Dokumentation

Vollständige API-Dokumentation

Support E-Mail