Zum Hauptinhalt springen
Olostep ist eine Websuch-, Scraping- und Crawling-API — eine API, um Webdaten zu suchen, zu extrahieren und zu strukturieren. Diese Anleitung zeigt, wie man Olostep mit Apify Actors verwendet, um zuverlässige Webdatenpipelines von Anfang bis Ende zu erstellen.

Was Sie erstellen können

Website scrapen

Extrahieren Sie Inhalte von jeder einzelnen URL in Markdown, HTML, JSON oder Text

URLs im Batch scrapen

Verarbeiten Sie große Listen von URLs parallel mit strukturierten Ausgaben

Crawl erstellen

Entdecken und scrapen Sie verlinkte Seiten, um vollständige Datensätze zu erstellen

Karte erstellen

Extrahieren Sie alle URLs von einer Website (sitemap-ähnliche Entdeckung)

KI-gestützte Antworten

Stellen Sie Fragen und erhalten Sie strukturierte JSON-Antworten mit Quellen

Schnellstart

1) Apify CLI installieren

npm install -g apify-cli
apify --version

2) Ihren Olostep API-Schlüssel erhalten

Vom Olostep Dashboard → API-Schlüssel.

3) Den Olostep Actor lokal ausführen

cd olostep-tools/integrations/apify
apify run
Die Standard-Eingabedatei befindet sich unter: olostep-tools/integrations/apify/storage/key_value_stores/default/INPUT.json Beispiel-Eingabe:
{
  "operation": "scrape",
  "apiKey": "YOUR_OLostep_API_KEY",
  "url_to_scrape": "https://example.com",
  "formats": "markdown"
}

4) Auf Apify (Cloud) bereitstellen

apify login
apify push
Öffnen Sie dann die Apify-Konsole → Actors → führen Sie den Actor mit Ihrer gewünschten Eingabe aus.

In der Apify-Konsole ausführen (Schritt für Schritt)

  1. Öffnen Sie Ihren Actor in der Apify-Konsole → Quelle → Eingabe.
  2. Im manuellen Tab sehen Sie ein sichtbares Feld „Olostep API Key“. Fügen Sie Ihren Schlüssel aus dem Olostep Dashboard ein.
  3. Wählen Sie eine Operation (standardmäßig „scrape“).
  4. Füllen Sie die relevanten Felder aus (für „scrape“, setzen Sie „URL zum Scrapen“).
  5. Klicken Sie auf Speichern → Starten.
  6. Wenn der Lauf abgeschlossen ist, öffnen Sie den Datensatz-Tab, um Ergebnisse herunterzuladen (JSON/CSV/Excel).
Hinweise:
  • Für „URL zum Scrapen“ können Sie mit oder ohne Schema einfügen. Wenn es fehlt, fügt der Actor automatisch https:// hinzu.
  • Wenn eine Seite viel JavaScript enthält und Sie einen Timeout sehen, setzen Sie „Warten vor dem Scrapen“ auf 2000–5000 ms und führen Sie es erneut aus.

Verfügbare Operationen

Website scrapen

Extrahieren Sie Inhalte von einer einzelnen URL. Ideal für Seitenebenen-Automatisierung.
operation
constant
Standard:"scrape"
Muss “scrape” sein
apiKey
string
erforderlich
Ihr Olostep API-Schlüssel (Bearer)
url_to_scrape
string
erforderlich
Die zu scrapende URL (muss http:// oder https:// enthalten)
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode (z.B. “US”, “GB”, “CA”)
wait_before_scraping
integer
Optionale Wartezeit in ms für JavaScript-Rendering (0–10000)
parser
string
Optionale Parser-ID (z.B. “@olostep/amazon-product”)
Ausgabefelder:
  • id, url, status, formats
  • markdown_content / html_content / json_content / text_content
  • gehostete URLs (falls verfügbar), Seitenmetadaten

URLs im Batch scrapen

Verarbeiten Sie viele URLs gleichzeitig mit konsistenter Formatierung und Struktur.
operation
constant
Standard:"batch"
Muss “batch” sein
apiKey
string
erforderlich
Ihr Olostep API-Schlüssel
batch_array
text
erforderlich
JSON-Array von Objekten mit url und optional custom_id
Beispiel: [{"url":"https://example.com","custom_id":"site1"}]
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode
wait_before_scraping
integer
Optionale Wartezeit in ms für JS-Seiten
parser
string
Optionale Parser-ID
Ausgabefelder:
  • batch_id, status, total_urls, created_at, formats, country, parser, urls[]

Crawl erstellen

Folgen Sie Links und scrapen Sie mehrere Seiten von einer Start-URL.
operation
constant
Standard:"crawl"
Muss “crawl” sein
apiKey
string
erforderlich
Ihr Olostep API-Schlüssel
start_url
string
erforderlich
Start-URL für den Crawl
max_pages
integer
Standard:"10"
Maximale Seitenanzahl zum Crawlen
Folgen Sie Links auf der Seite
formats
dropdown
Standard:"markdown"
Eine von: Markdown, HTML, JSON, Text
country
string
Optionaler Ländercode
parser
string
Optionale Parser-ID
Ausgabefelder:
  • crawl_id, object, status, start_url, max_pages, follow_links, created, formats

Karte erstellen

Entdecken Sie alle URLs auf einer Website und bereiten Sie sich auf späteres Batch-Scraping vor.
operation
constant
Standard:"map"
Muss “map” sein
apiKey
string
erforderlich
Ihr Olostep API-Schlüssel
website_url
string
erforderlich
Die zu kartierende Website
search_query
string
Optionaler Abfragefilter
top_n
integer
Begrenzen Sie die Anzahl der URLs
include_patterns
string
Einschlussmuster, z.B. “/products/**”
exclude_patterns
string
Ausschlussmuster, z.B. “/admin/**”
Ausgabefelder:
  • map_id, object, website_url, total_urls, urls[], search_query, top_n

JSON-Beispiele kopieren und einfügen (Konsole → Eingabe → JSON)

Scrape

{
  "operation": "scrape",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "url_to_scrape": "https://www.wikipedia.org",
  "formats": "markdown",
  "wait_before_scraping": 2000
}

Batch

{
  "operation": "batch",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "batch_array": "[{\"url\":\"https://example.com\",\"custom_id\":\"site1\"},{\"url\":\"https://olostep.com\",\"custom_id\":\"site2\"}]",
  "formats": "json"
}

Crawl

{
  "operation": "crawl",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "start_url": "https://docs.example.com",
  "max_pages": 50,
  "follow_links": true,
  "formats": "markdown"
}

Map

{
  "operation": "map",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "website_url": "https://example.com",
  "include_patterns": "/blog/**",
  "top_n": 200
}

Answers

{
  "operation": "answers",
  "apiKey": "YOUR_OLOSTEP_API_KEY",
  "task": "What is the latest funding round of Olostep? Provide company, round, date, amount.",
  "json": "{\"company\":\"\",\"round\":\"\",\"date\":\"\",\"amount\":\"\"}"
}

Beispiel-Workflows

  1. Karte erstellen → einschließen “/products/**”
  2. URLs parsen → Batch-Array erstellen
  3. URLs im Batch scrapen → Formate: JSON
  4. An Google Sheets / Airtable senden
  1. Actor planen (täglich)
  2. Website scrapen → Formate: Markdown
  3. Mit LLM zusammenfassen
  4. Auf Slack benachrichtigen
  1. Crawl erstellen (Blog/Dokumente)
  2. Ausgaben in Notion speichern
  3. Wöchentlich mit Zeitplan aktualisieren

Spezialisierte Parser

Olostep unterstützt Parser, um Daten für beliebte Seiten zu strukturieren.

Amazon-Produkt

@olostep/amazon-product → Titel, Preis, Bewertung, Rezensionen, Bilder, Varianten

Google-Suche

@olostep/google-search → Ergebnisse, Titel, Snippets, URLs

Google Maps

@olostep/google-maps → Geschäftsinformationen, Rezensionen, Bewertungen, Standort

Weitere Parser

Entdecken Sie E-Mail-Extraktoren, Social-Handle-Finder, Kalender-Link-Extraktoren und mehr

Beste Praktiken

Schneller, günstiger, einfacher zu überwachen und respektiert Ratenlimits.
JS-lastige Seiten: Erhöhen Sie wait_before_scraping (z.B. 2000–5000ms).
Vermeiden Sie unnötige Aufgaben — überprüfen Sie zuerst Änderungen, halten Sie den Deduplizierungsstatus.
Verwenden Sie gehostete Ausgaben, um Größenbeschränkungen für Nutzlasten in Apify-Flows zu umgehen.
Batch/Crawl/Map geben IDs zurück; später abrufen oder mit Verzögerung verketten.
Wenn Sie einen 504 oder vorübergehenden Timeout sehen, versucht der Actor automatisch einmal mit kurzer Wartezeit erneut.
Sie können auch „Warten vor dem Scrapen“ auf 2000–5000 ms für JS-lastige Seiten setzen.

Fehlerbehebung

  • Überprüfen Sie den API-Schlüssel vom Dashboard
  • Entfernen Sie nachfolgende Leerzeichen
  • Geben Sie ihn im Apify-Eingabeformular erneut ein
  • Erhöhen Sie die Wartezeit
  • Überprüfen Sie, ob die URL öffentlich ist / nicht login-geschützt
  • Versuchen Sie ein anderes Ausgabeformat
  • Läufe über Zeitplan verteilen
  • Bevorzugen Sie Batch für viele URLs
  • Aktualisieren Sie den Olostep-Plan bei Bedarf
  • Versuchen Sie den Länderparameter
  • Passen Sie Wartezeit und Parser an
  • Kontaktieren Sie den Support für Anleitung

Preisgestaltung

Olostep berechnet nach API-Nutzung (unabhängig von Apify):
  • Scrapes → pro Scrape
  • Batches → pro URL
  • Crawls → pro Seite
  • Maps → pro Operation
Siehe https://olostep.com/pricing.

Sicherheit

  • Ihr API-Schlüssel wird zur Laufzeit als Bearer-Token gesendet.
  • Schlüssel nicht in die Versionskontrolle einchecken; Apify speichert Eingaben im Key-Value Store.
  • In der lokalen Entwicklung halten Sie Schlüssel in storage/key_value_stores/default/INPUT.json (gitignored).

Verwandte Ressourcen

Scrapes API

Extrahieren Sie LLM-freundliches Markdown, HTML, Text oder strukturiertes JSON von jeder URL.

Batches API

Verarbeiten Sie bis zu 10k URLs gleichzeitig und rufen Sie Ergebnisse später ab.

Crawls API

Entdecken und scrapen Sie den Inhalt einer Website rekursiv.

Maps API

Holen Sie sich alle URLs auf einer Website, um Batch-Scrapes vorzubereiten.

Support

Dokumentation

Vollständige API-Dokumentation

Support-E-Mail

Statusseite

Plattformstatus überprüfen

Apify-Dokumentation

Apify-Plattform- und SDK-Dokumentation