#资源推荐 #AI #chatgpt #tools #爬虫
BuilderIO/gpt-crawler: 一个开源的知识库自动爬虫工具

该项目可以从指定的 URL 爬取网站内容,生成知识文件,用于创建定制的 GPT 模型(GPTs)。支持从一个或多个 URL 爬取数据,并且已经在实践中应用,例如通过爬取 Builder.io 的文档来回答有关如何使用和集成 Builder.io 的问题。

使用该工具需要遵循以下步骤:首先确保安装了 Node.js(版本 16 或更高),然后克隆仓库、安装依赖项(包括 Playwright,如果未安装),并配置爬虫。用户可以自定义配置文件 config.ts`,以指定要爬取的 URL、匹配模式、选择器、最大爬取页面数等。完成配置后,运行爬虫,它将生成一个名为 `output.json 的文件。

这个生成的文件可以用于创建自定义的 GPT 模型。用户可以选择通过 UI 上传该文件以创建可共享的 GPT 模型,也可以通过 API 上传以集成到产品中。对于 UI 方式,用户需要访问 OpenAI 的 ChatGPT 网站,上传文件,并通过 "My GPTs" 菜单创建和配置自定义 GPT。对于 API 方式,用户需要访问 OpenAI 的平台网站,创建新的助手,并上传文件。 GitHub - BuilderIO/gpt-crawler: Crawl a site to generate knowledge files to create your own custom GPT from a URL
 
 
Back to Top