#爬虫 | cosine - 前端人の日常频道

#资源推荐 #AI #chatgpt #tools #爬虫
BuilderIO/gpt-crawler: 一个开源的知识库自动爬虫工具

该项目可以从指定的 URL 爬取网站内容，生成知识文件，用于创建定制的 GPT 模型（GPTs）。支持从一个或多个 URL 爬取数据，并且已经在实践中应用，例如通过爬取 Builder.io 的文档来回答有关如何使用和集成 Builder.io 的问题。

使用该工具需要遵循以下步骤：首先确保安装了 Node.js（版本 16 或更高），然后克隆仓库、安装依赖项（包括 Playwright，如果未安装），并配置爬虫。用户可以自定义配置文件

config.ts`，以指定要爬取的 URL、匹配模式、选择器、最大爬取页面数等。完成配置后，运行爬虫，它将生成一个名为 `output.json

的文件。

这个生成的文件可以用于创建自定义的 GPT 模型。用户可以选择通过 UI 上传该文件以创建可共享的 GPT 模型，也可以通过 API 上传以集成到产品中。对于 UI 方式，用户需要访问 OpenAI 的 ChatGPT 网站，上传文件，并通过 "My GPTs" 菜单创建和配置自定义 GPT。对于 API 方式，用户需要访问 OpenAI 的平台网站，创建新的助手，并上传文件。

GitHub

GitHub - BuilderIO/gpt-crawler: Crawl a site to generate knowledge files to create your own custom GPT from a URL

Crawl a site to generate knowledge files to create your own custom GPT from a URL - BuilderIO/gpt-crawler