呜啦!日常碎碎念,偶尔掉落优质前端博文推荐、学习资源等
网页:https://tg.cosine.ren
本频道的搜索Bot 来辣 👉 @cosSearchBot
私聊直接发消息就可以搜索啦~
🔖tags
#优质博文 #资源推荐 #博客更新 #碎碎念 #项目更新 #手工 #书摘 #阮一峰的科技周刊 #新动态

图频:Cosine 🎨 Gallery @CosineGallery
猫片: @cosine_cat
#资源推荐 #AI #chatgpt #tools #爬虫
BuilderIO/gpt-crawler: 一个开源的知识库自动爬虫工具

该项目可以从指定的 URL 爬取网站内容,生成知识文件,用于创建定制的 GPT 模型(GPTs)。支持从一个或多个 URL 爬取数据,并且已经在实践中应用,例如通过爬取 Builder.io 的文档来回答有关如何使用和集成 Builder.io 的问题。

使用该工具需要遵循以下步骤:首先确保安装了 Node.js(版本 16 或更高),然后克隆仓库、安装依赖项(包括 Playwright,如果未安装),并配置爬虫。用户可以自定义配置文件 config.ts`,以指定要爬取的 URL、匹配模式、选择器、最大爬取页面数等。完成配置后,运行爬虫,它将生成一个名为 `output.json 的文件。

这个生成的文件可以用于创建自定义的 GPT 模型。用户可以选择通过 UI 上传该文件以创建可共享的 GPT 模型,也可以通过 API 上传以集成到产品中。对于 UI 方式,用户需要访问 OpenAI 的 ChatGPT 网站,上传文件,并通过 "My GPTs" 菜单创建和配置自定义 GPT。对于 API 方式,用户需要访问 OpenAI 的平台网站,创建新的助手,并上传文件。 GitHub - BuilderIO/gpt-crawler: Crawl a site to generate knowledge files to create your own custom GPT from a URL
 
 
Back to Top