Saltar al contenido principal
A través del endpoint /v1/maps de Olostep puedes obtener todas las URLs de un sitio web. Esto es útil para el descubrimiento de contenido, análisis de la estructura del sitio (por ejemplo, SEO), o decidir qué URLs deseas extraer a continuación.
  • Obtén todas las URLs de un sitio web (incluyendo sitemaps y enlaces descubiertos)
  • Usa patrones especiales para incluir/excluir rutas (por ejemplo, /blog/**)
  • Pagina respuestas grandes con cursor (hasta 10MB por respuesta)
  • Limita el volumen con top_n
Para detalles de la API, consulta la Referencia de la API del Endpoint de Mapas.

Instalación

pip install olostep

Uso

Envía una solicitud POST con la url del sitio web. Opcionalmente pasa include_urls, exclude_urls (patrones glob), y top_n.
from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

sitemap = client.maps.create(url="https://docs.olostep.com")

for url in sitemap.urls():
    print(url)
El tiempo de respuesta suele ser de segundos, pero puede tardar hasta 120 segundos para sitios web más complejos. Puede extraer todas las URLs de un sitio web, incluso los backlinks y aquellos no presentes en los Sitemaps. También puedes decidir los caminos de URLs que deseas incluir o excluir de la respuesta. Por defecto, el endpoint devuelve alrededor de 100k URLs en una sola llamada (máximo 10MB). Si la respuesta incluye más datos, la API devuelve un parámetro cursor que se puede usar para paginar y obtener las URLs subsecuentes. Para más detalles, consulta la Referencia de la API. Este endpoint es particularmente útil cuando necesitas:
  • Descubrir todas las páginas de contenido en un sitio web
  • Analizar la estructura y jerarquía del sitio
  • Preparar URLs para procesamiento por lotes
  • Decidir qué URLs específicas extraer
Para un control más detallado sobre las URLs devueltas, puedes usar los parámetros include_urls y exclude_urls.

Ejemplo

Supongamos que desde www.brex.com deseas extraer todas las URLs que tienen las rutas después de /product/, por ejemplo, https://www.brex.com/product/api/no-code pero también incluir www.brex.com/product. Puedes usar el siguiente código:
from olostep import Olostep

client = Olostep(api_key="YOUR_REAL_KEY")

sitemap = client.maps.create(
    url="https://www.brex.com/",
    include_urls=["/product", "/product/**"],
    top_n=100000,
)

for url in sitemap.urls():
    print(url)

Conclusión

El endpoint de mapas es una herramienta poderosa para el descubrimiento de contenido y el análisis del sitio. Proporciona una lista completa de URLs en un sitio web, permitiéndote extraer contenido de páginas específicas o analizar la estructura del sitio. Este endpoint es particularmente útil para profesionales de SEO, mercadólogos de contenido, agentes de IA que necesitan analizar el contenido o la estructura de un sitio web.

Precios

El mapa cuesta 1 crédito. Luego, por cada 1000 URLs adicionales devueltas en la respuesta, se factura un crédito adicional.