Desenvolvimento web Fonte oficial
Ingestão de portais de documentação com Firecrawl
Navegue por bases de conhecimento públicas ou autenticadas e extraia artigos, metadados e seções em JSON ou Markdown.
Ver código no GitHub Instala diretamente do repositório-fonte.
O que esta skill faz
A skill usa o Firecrawl browser quando um portal depende de JavaScript, login, paginação, busca ou controles de carregamento. Ela percorre a navegação, coleta artigos em Markdown e registra metadados e páginas restritas.
Quando usar
- Extrair um help center paginado
- Ingerir documentação renderizada por JavaScript
- Coletar artigos de um portal autenticado autorizado
- Organizar títulos, seções, autores, datas e tags
- Gerar saída consolidada em JSON ou Markdown
Como usar
- Informe URL, formato de saída, limite de páginas e necessidade de login
- Configure FIRECRAWL_API_KEY e uma sessão autorizada
- Inspecione categorias, sidebars, busca e controles de paginação
- Percorra artigos e extraia conteúdo e metadados visíveis
- Revise cobertura, URLs, falhas e páginas restritas antes de usar os dados
O que revisar antes de instalar
- A skill não contorna autenticação nem outras restrições de acesso
- Conteúdo carregado de forma inconsistente pode exigir nova navegação
- Metadados ausentes na página devem permanecer em branco
SKILL.md
---
name: firecrawl-knowledge-ingest
description: Ingest public or authenticated knowledge bases and docs portals with Firecrawl browser. Use for JS-heavy docs, login-gated portals, paginated help centers, support knowledge bases, or structured JSON/markdown extraction from documentation sites.
license: ISC
metadata:
author: firecrawl
version: "0.1.0"
homepage: https://www.firecrawl.dev
source: https://github.com/firecrawl/firecrawl-workflows
inputs:
- name: FIRECRAWL_API_KEY
description: Firecrawl API key for hosted Firecrawl requests.
required: true
---
# Firecrawl Knowledge Ingest
Use this when a docs portal needs browser navigation, auth, pagination, or JS rendering.
## Onboarding Interview
Infer the portal URL, output format, auth needs, and page limit from context. If the portal is clear, proceed immediately.
Ask at most 1-3 concise questions only if blocked, such as the portal URL, whether authentication is required, or the desired output format.
## Firecrawl Collection Plan
Use Firecrawl browser to:
- open the portal and inspect navigation
- identify sections, categories, sidebar links, and article URLs
- follow sidebar navigation, next links, pagination, load-more controls, or search
- scrape article content as markdown
- extract metadata such as title, section, last updated date, author, and tags
Try Firecrawl map as a supplement for public URLs, but use browser navigation for auth-gated or JS-heavy content.
## Final Deliverable
```markdown
# Knowledge Ingest: [Portal]
## Summary
[Pages extracted, sections covered, limitations]
## Output
[JSON/markdown/merged file path or content]
## Sections
[Section names and article counts]
## Failed Or Restricted Pages
[Any access/loading issues]
## Sources
[URLs extracted]
## Rerun Inputs
workflow: firecrawl-knowledge-ingest
url: [portal url]
format: [json/markdown/merged]
max_pages: [number]
```
## JSON Shape
Use `source`, `url`, `extractedAt`, `totalArticles`, and `sections[]` with article `title`, `url`, `section`, `content`, and `metadata`.
## Quality Bar
- Preserve code examples, tables, and formatting.
- Strip nav chrome, headers, and footers.
- Track extraction progress and page failures.
- Respect authentication boundaries.