Zum Hauptinhalt springen
Olostep ist eine Websuche-, Scraping- und Crawling-API — eine API zum Suchen, Extrahieren und Strukturieren von Webdaten. Diese Anleitung zeigt, wie du Olostep mit Apify Actors verwenden kannst, um zuverlässige Webdatenpipelines von Anfang bis Ende zu erstellen.

Was du bauen kannst

Website scrapen

Extrahiere Inhalte von jeder einzelnen URL in Markdown, HTML, JSON oder Text

URLs im Batch scrapen

Verarbeite große Listen von URLs parallel mit strukturierten Ausgaben

Crawl erstellen

Entdecke und scrape verlinkte Seiten, um vollständige Datensätze zu erstellen

Karte erstellen

Extrahiere alle URLs von einer Website (sitemap-ähnliche Entdeckung)

KI-gestützte Antworten

Stelle Fragen und erhalte strukturierte JSON-Antworten mit Quellen

Schnellstart

1) Installiere Apify CLI

npm install -g apify-cli
apify --version

2) Hol dir deinen Olostep API-Schlüssel

Vom Olostep Dashboard → API-Schlüssel.

3) Führe den Olostep Actor lokal aus

cd olostep-tools/integrations/apify
apify run
Die Standard-Eingabedatei lokal befindet sich unter: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Beispiel-Eingabe:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Auf Apify (Cloud) bereitstellen

apify login
apify push
Öffne dann die Apify-Konsole → Actors → führe den Actor mit deiner gewünschten Eingabe aus.

Ausführung in der Apify-Konsole (Schritt für Schritt)

  1. Öffne deinen Actor in der Apify-Konsole → Quelle → Eingabe.
  2. Im Tab “Manuell” siehst du ein sichtbares Feld “Olostep API-Schlüssel”. Füge deinen Schlüssel vom Olostep Dashboard ein.
  3. Wähle eine Operation (Standard ist “scrape”).
  4. Fülle die relevanten Felder aus (für “scrape”, setze “URL zum Scrapen”).
  5. Klicke auf Speichern → Start.
  6. Wenn der Lauf beendet ist, öffne den Dataset-Tab, um die Ergebnisse herunterzuladen (JSON/CSV/Excel).
Hinweise:
  • Für “URL zum Scrapen” kannst du mit oder ohne Schema einfügen. Wenn es fehlt, fügt der Actor automatisch https:// hinzu.
  • Wenn eine Seite viel JavaScript enthält und du ein Timeout siehst, setze “Wartezeit vor dem Scrapen” auf 2000–5000 ms und führe es erneut aus.

Verfügbare Operationen

Website scrapen

Extrahiere Inhalte von einer einzelnen URL. Ideal für Automatisierung auf Seitenebene.
operation
constant
Standard:"scrape"
Muss “scrape” sein
apiKey
string
erforderlich
Dein Olostep API-Schlüssel (Bearer)
url_to_scrape
string
erforderlich
Die zu scrapende URL (muss http:// oder https:// enthalten)
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode (z.B. “US”, “GB”, “CA”)
wait_before_scraping
integer
Optionale Wartezeit in ms für JavaScript-Rendering (0–10000)
parser
string
Optionale Parser-ID (z.B. “@olostep/amazon-product”)
Ausgabefelder:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • gehostete URLs (falls verfügbar), Seitenmetadaten

URLs im Batch scrapen

Verarbeite viele URLs gleichzeitig mit konsistenter Formatierung und Struktur.
operation
constant
Standard:"batch"
Muss “batch” sein
apiKey
string
erforderlich
Dein Olostep API-Schlüssel
batch_array
text
erforderlich
JSON-Array von Objekten mit url und optionalem custom_id
Beispiel: [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode
wait_before_scraping
integer
Optionale Wartezeit in ms für JS-Seiten
parser
string
Optionale Parser-ID
Ausgabefelder:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Crawl erstellen

Folge Links und scrape mehrere Seiten von einer Start-URL.
operation
constant
Standard:"crawl"
Muss “crawl” sein
apiKey
string
erforderlich
Dein Olostep API-Schlüssel
start_url
string
erforderlich
Start-URL für den Crawl
max_pages
integer
Standard:"10"
Maximale Seitenanzahl zum Crawlen. Setze auf 1, um nur die Start-URL zu scrapen.
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode
parser
string
Optionale Parser-ID
Ausgabefelder:
  • crawl_id, object, status, start_url, max_pages, created, formats

Karte erstellen

Entdecke alle URLs auf einer Website und bereite sie für späteres Batch-Scraping vor.
operation
constant
Standard:"map"
Muss “map” sein
apiKey
string
erforderlich
Dein Olostep API-Schlüssel
website_url
string
erforderlich
Die zu kartierende Website
search_query
string
Optionale Abfragefilter
top_n
integer
Begrenze die Anzahl der URLs
include_patterns
string
Einzuschließende Globs, z.B. “/products/**”
exclude_patterns
string
Auszuschließende Globs, z.B. “/admin/**”
Ausgabefelder:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

JSON-Beispiele kopieren und einfügen (Konsole → Eingabe → JSON)

Scrape

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Batch

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "formats": "markdown"
}

Map

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Answers

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Beispiel-Workflows

  1. Karte erstellen → “/products/**” einbeziehen
  2. URLs parsen → Batch-Array erstellen
  3. URLs im Batch scrapen → Formate: JSON
  4. An Google Sheets / Airtable senden
  1. Actor planen (täglich)
  2. Website scrapen → Formate: Markdown
  3. Mit LLM zusammenfassen
  4. Benachrichtigung auf Slack
  1. Crawl erstellen (Blog/Dokumente)
  2. Ausgaben in Notion speichern
  3. Wöchentlich mit Zeitplan aktualisieren

Spezialisierte Parser

Olostep unterstützt Parser, um Daten für beliebte Seiten zu strukturieren.

Amazon-Produkt

@olostep/amazon-product → Titel, Preis, Bewertung, Rezensionen, Bilder, Varianten

Google-Suche

@olostep/google-search → Ergebnisse, Titel, Snippets, URLs

Google Maps

@olostep/google-maps → Geschäftsinformationen, Rezensionen, Bewertungen, Standort

Weitere Parser

Entdecke E-Mail-Extraktoren, Social-Handle-Finder, Kalender-Link-Extraktoren und mehr

Beste Praktiken

Schneller, günstiger, einfacher zu überwachen und respektiert Ratenlimits.
JS-lastige Seiten: erhöhe wait_before_scraping (z.B. 2000–5000ms).
Vermeide unnötige Aufgaben — überprüfe zuerst Änderungen, halte den Deduplizierungszustand.
Verwende gehostete Ausgaben, um Größenbeschränkungen für Nutzlasten in Apify-Flows zu umgehen.
Batch/Crawl/Map geben IDs zurück; später abrufen oder mit Verzögerung verketten.
Wenn du einen 504 oder vorübergehenden Timeout siehst, versucht der Actor automatisch einmal mit einer kurzen Wartezeit erneut.
Du kannst auch “Wartezeit vor dem Scrapen” auf 2000–5000 ms für JS-lastige Seiten setzen.

Fehlerbehebung

  • Überprüfe den API-Schlüssel vom Dashboard
  • Entferne nachfolgende Leerzeichen
  • Erneut im Apify-Eingabeformular eingeben
  • Wartezeit erhöhen
  • Überprüfe, ob die URL öffentlich ist / nicht login-geschützt
  • Versuche ein anderes Ausgabeformat
  • Läufe über Zeitplan verteilen
  • Bevorzuge Batch für viele URLs
  • Upgrade des Olostep-Plans bei Bedarf
  • Versuche den Länderparameter
  • Passe Wartezeit und Parser an
  • Kontaktiere den Support für Anleitungen

Preisgestaltung

Olostep berechnet nach API-Nutzung (unabhängig von Apify):
  • Scrapes → pro Scrape
  • Batches → pro URL
  • Crawls → pro Seite
  • Maps → pro Operation
Siehe https://www.olostep.com/pricing.

Sicherheit

  • Dein API-Schlüssel wird zur Laufzeit als Bearer-Token gesendet.
  • Schlüssel nicht in die Versionskontrolle einchecken; Apify speichert Eingaben im Key-Value Store.
  • In der lokalen Entwicklung, halte Schlüssel in storage/key_value_stores/default/INPUT.json (gitignoriert).

Verwandte Ressourcen

Scrapes API

Extrahiere LLM-freundliches Markdown, HTML, Text oder strukturiertes JSON von jeder URL.

Batches API

Verarbeite bis zu 10k URLs gleichzeitig und rufe Ergebnisse später ab.

Crawls API

Entdecke und scrape den Inhalt einer Seite rekursiv.

Maps API

Erhalte alle URLs auf einer Website, um Batch-Scrapes vorzubereiten.

Support

Apify Website

Apify-Plattform

Apify Docs

Apify-Plattform & SDK-Dokumentation

Dokumentation

Vollständige API-Dokumentation

Support E-Mail