Olostep NodeJS SDK - Olostep Docs

NPM-Paket: olostep

Erste Schritte

npm install olostep

import Olostep from 'olostep';

const client = new Olostep({apiKey: process.env.OLOSTEP_API_KEY});

// Minimalbeispiel für Scraping
const result = await client.scrapes.create('https://example.com');
console.log(result.id, result.html_content);

Das NodeJS SDK akzeptiert sowohl camelCase als auch snake_case für alle Parameter. Verwende snake_case, wenn du für KI-Agenten entwickelst, da es den nativen Feldnamen der API entspricht.

Verwendung

Scraping

Scrape eine einzelne URL mit verschiedenen Optionen:

import Olostep, {Format} from 'olostep';

const client = new Olostep({apiKey: 'your_api_key'});

// Einfaches Scraping
const scrape = await client.scrapes.create('https://example.com');

// Mit mehreren Formaten
const scrape = await client.scrapes.create({
  url: 'https://example.com',
  formats: [Format.HTML, Format.MARKDOWN, Format.TEXT],
  waitBeforeScraping: 1000,
  removeImages: true
});

// Zugriff auf den Inhalt
console.log(scrape.html_content);
console.log(scrape.markdown_content);

// Scrape nach ID abrufen
const fetched = await client.scrapes.get(scrape.id);

Batch-Verarbeitung

Verarbeite mehrere URLs in einem einzigen Batch:

// Verwendung von URL-Strings (benutzerdefinierte IDs werden automatisch generiert)
const batch = await client.batches.create([
  'https://example.com',
  'https://example.org',
  'https://example.net'
]);

// Oder mit expliziten benutzerdefinierten IDs
const batch = await client.batches.create([
  {url: 'https://example.com', customId: 'site-1'},
  {url: 'https://example.org', customId: 'site-2'}
]);

console.log(`Batch ${batch.id} erstellt mit ${batch.total_urls} URLs`);

// Auf Abschluss warten
await batch.waitTillDone({
  checkEveryNSecs: 5,
  timeoutSeconds: 120
});

// Batch-Informationen abrufen
const info = await batch.info();
console.log(info);

// Einzelne Ergebnisse streamen
for await (const item of batch.items()) {
  console.log(item.custom_id);
}

Crawling

Durchsuche eine gesamte Website:

const crawl = await client.crawls.create({
  url: 'https://example.com',
  maxPages: 100,
  maxDepth: 3,
  includeUrls: ['*/blog/*'],
  excludeUrls: ['*/admin/*']
});

console.log(`Crawl ${crawl.id} gestartet`);

// Auf Abschluss warten
await crawl.waitTillDone({
  checkEveryNSecs: 10,
  timeoutSeconds: 300
});

// Crawl-Informationen abrufen
const info = await crawl.info();
console.log(`Es wurden ${info.pages_crawled} Seiten durchsucht`);

// Durchsuchte Seiten streamen
for await (const page of crawl.pages()) {
  console.log(page.url, page.status_code);
}

Site Mapping

Erstelle eine Sitemap von URLs einer Website:

const map = await client.maps.create({
  url: 'https://example.com',
  topN: 100,
  includeSubdomain: true,
  searchQuery: 'blog posts'
});

console.log(`Map ${map.id} erstellt`);

// URLs streamen
for await (const url of map.urls()) {
  console.log(url);
}

// Map-Informationen abrufen
const info = await map.info();

KI-gestützte Antworten

Erhalte Antworten von Webseiten mithilfe von KI:

import Olostep from 'olostep';

const client = new Olostep({apiKey: 'your_api_key'});

// Einfache Aufgabe: übergebe einen String direkt
const answer = await client.answers.create(
  'What is the main topic of https://example.com?'
);
console.log(answer.answer);
console.log(answer.sources);

// Mit strukturiertem JSON-Ausgabe
const structured = await client.answers.create({
  task: 'Extract all product names and prices from https://example.com',
  jsonFormat: {
    products: [{name: '', price: ''}]
  }
});
console.log(structured.json_content);

// Eine zuvor erstellte Antwort nach ID abrufen
const fetched = await client.answers.get(answer.id);
console.log(fetched.answer);

Inhalt abrufen

Rufe zuvor gescrapten Inhalt ab:

// Inhalt in spezifischem Format abrufen
const content = await client.retrieve(retrieveId, Format.MARKDOWN);
console.log(content.markdown_content);

// Mehrere Formate
const content = await client.retrieve(retrieveId, [
  Format.HTML,
  Format.MARKDOWN
]);

Erweiterte Optionen

Benutzerdefinierte Aktionen

Führe Browseraktionen vor dem Scraping aus:

const scrape = await client.scrapes.create({
  url: 'https://example.com',
  actions: [
    {type: 'wait', milliseconds: 2000},
    {type: 'click', selector: '#load-more'},
    {type: 'scroll', distance: 1000},
    {type: 'fill_input', selector: '#search', value: 'query'}
  ]
});

Geografischer Standort

Scrape aus verschiedenen Ländern mit vordefinierten Ländercodes oder einem beliebigen gültigen Ländercode-String:

import Olostep, {Country} from 'olostep';

const client = new Olostep({apiKey: 'your_api_key'});

// Verwendung vordefinierter Enum-Werte (US, DE, FR, GB, SG)
const scrape = await client.scrapes.create({
  url: 'https://example.com',
  country: Country.DE  // Deutschland
});

// Oder verwende einen beliebigen gültigen Ländercode als String
const scrape2 = await client.scrapes.create({
  url: 'https://example.com',
  country: 'jp'  // Japan
});

LLM-Extraktion

Extrahiere strukturierte Daten mithilfe von LLMs:

const scrape = await client.scrapes.create({
  url: 'https://example.com',
  llmExtract: {
    schema: {
      title: 'string',
      price: 'number',
      description: 'string'
    },
    prompt: 'Extract product information from this page'
  }
});

Client-Konfiguration

import Olostep from 'olostep';

const client = new Olostep({
  apiKey: 'your_api_key',
  apiBaseUrl: 'https://api.olostep.com/v1',  // optional
  timeoutMs: 150000,  // 150 Sekunden (optional)
  retry: {
    maxRetries: 3,
    initialDelayMs: 1000
  },
  userAgent: 'MyApp/1.0'  // optional
});

Funktionshighlights

Asynchroner Client mit vollständiger TypeScript-Unterstützung.
Typsichere Eingaben mit TypeScript-Enums und -Interfaces (Formate, Länder, Aktionen usw.).
Reichhaltige Ressourcennamensräume mit sowohl Kurzaufrufen (client.scrapes.create()) als auch expliziten Methoden (client.scrapes.get()).
Gemeinsame Transportschicht mit Wiederholungen, Zeitüberschreitungen und JSON-Dekodierung.
Umfassende Fehlerhierarchie

SDKs

Documentation Index

​Erste Schritte

​Verwendung

​Scraping

​Batch-Verarbeitung

​Crawling

​Site Mapping

​KI-gestützte Antworten

​Inhalt abrufen

​Erweiterte Optionen

​Benutzerdefinierte Aktionen

​Geografischer Standort

​LLM-Extraktion

​Client-Konfiguration

​Funktionshighlights

Erste Schritte

Verwendung

Scraping

Batch-Verarbeitung

Crawling

Site Mapping

KI-gestützte Antworten

Inhalt abrufen

Erweiterte Optionen

Benutzerdefinierte Aktionen

Geografischer Standort

LLM-Extraktion

Client-Konfiguration

Funktionshighlights