Voltar ao índice
Design e UI Fonte oficial

Crie bases de conhecimento da web com Firecrawl

Converta URLs ou temas em conteúdo organizado para referência, RAG, datasets de treinamento ou espelhos de documentação.

Ver código no GitHub Instala diretamente do repositório-fonte.

O que esta skill faz

A skill mapeia sites, pesquisa fontes e transforma páginas em Markdown preservando exemplos de código e tabelas quando disponíveis. Ela oferece saídas distintas para consulta local, RAG, treinamento e espelhamento de documentação.

Quando usar

  • Criar uma referência local de documentação
  • Preparar arquivos e chunks para um fluxo RAG
  • Organizar um corpus temático vindo da web
  • Gerar arquivos JSONL para um conjunto de treinamento
  • Espelhar documentação pública em Markdown

Como usar

  1. Defina as URLs ou o tema, a profundidade e o modo de saída
  2. Configure FIRECRAWL_API_KEY
  3. Mapeie o site ou pesquise as fontes do corpus
  4. Raspe o conteúdo e organize os arquivos por host e caminho
  5. Revise fontes, chunks, manifestos e conteúdo antes de usar no projeto

O que revisar antes de instalar

  • A coleta depende do conteúdo acessível e das permissões das fontes
  • Material para treinamento exige avaliação própria de direitos e qualidade
  • Conteúdo dinâmico ou protegido pode demandar outro workflow com browser

SKILL.md

---
name: firecrawl-knowledge-base
description: Build a knowledge base from web content with Firecrawl. Use for local reference docs, RAG-ready chunks, fine-tuning datasets, documentation mirrors, topic corpora, or LLM-ready markdown organized from web sources.
license: ISC
metadata:
  author: firecrawl
  version: "0.1.0"
  homepage: https://www.firecrawl.dev
  source: https://github.com/firecrawl/firecrawl-workflows
inputs:
  - name: FIRECRAWL_API_KEY
    description: Firecrawl API key for hosted Firecrawl requests.
    required: true
---

# Firecrawl Knowledge Base

Use this to turn URLs or topics into organized LLM-ready content.

## Onboarding Interview

Infer the source, goal, depth, and output location from context. If the source and goal are clear, proceed immediately.

Ask at most 1-3 concise questions only if blocked, such as the source URL/topic, whether the output is reference/RAG/training/docs, or training format if training is requested.

## Firecrawl Collection Plan

Use Firecrawl map for documentation sites, search for topic-based corpora, scrape pages into markdown, and preserve code examples and tables.

For files, follow the Firecrawl download-style convention:

```text
.firecrawl/
  <hostname>/
    <path>/
      index.md
```

## Parallel Work

If appropriate, use sub-agents or equivalent parallel task runners:

- one docs section per researcher
- official docs, tutorials, community discussions, and references by source type
- source scraping vs chunk generation vs manifest generation

## Output Modes

- Reference: markdown files, `index.md`, and `sources.json`.
- RAG: markdown files plus chunk files and `manifest.json`.
- Training: scraped source files plus `training-data.jsonl` and `training-metadata.json`.
- Docs mirror: complete markdown mirror with a table of contents.

## Final Deliverable

```markdown
# Knowledge Base: [Source]

## Summary
[What was collected and why]

## Output Structure
[Files/directories created]

## Coverage
[Sections, source types, counts]

## Usage Notes
[How to use in RAG, docs, training, or agent context]

## Sources
[URLs collected]

## Rerun Inputs
workflow: firecrawl-knowledge-base
source: [url/topic]
goal: [reference/rag/train/docs]
depth: [quick/thorough/exhaustive]
output_dir: [.firecrawl/]
```

## Quality Bar

- Preserve code examples and formatting.
- Remove boilerplate navigation where possible.
- Include source URLs in frontmatter or metadata.