GPT-Crawler一键爬虫构建GPTs知识库
作者:mmseoamin日期:2023-12-14

GPT-Crawler一键爬虫构建GPTs知识库

  • 写在最前面
  • 安装node.js
  • 安装GPT-Crawler
  • 启动爬虫
  • 结合 OpenAI
    • 自定义 assistant
    • 自定义 GPTs(笔者用的这个)
    • 总结

      写在最前面

      GPT-Crawler一键爬虫构建GPTs知识库

      能够爬取网站数据,构建GPTs的知识库,项目依赖node.js环境,接下来我们按步骤来安装,非常简单

      参考:https://zhuanlan.zhihu.com/p/668700619


      在信息爆炸的时代,数据成为了新的石油。但是,如何有效地从这无穷无尽的网络信息中提取有价值的知识,成为了技术人员面临的一大挑战。特别是对于GPTs这样的先进技术,构建一个强大且更新的知识库是至关重要的。这就是我们今天要介绍的GPT-Crawler一键爬虫工具的使命所在——一种强大的工具,旨在帮助开发者和数据科学家高效地构建和维护GPTs的知识库。

      在这篇博客中,我们将深入探讨如何利用GPT-Crawler来捕获和处理网络数据,从而为GPTs模型提供丰富而精准的信息。从安装Node.js作为运行环境的基础开始,我们将一步步指导您如何安装和启动GPT-Crawler。此外,我们还会介绍如何将这个强大的爬虫工具与OpenAI的技术结合起来,以及如何自定义assistant和GPTs,以满足您特定的需求和偏好。

      无论您是一名经验丰富的开发者,还是对数据科学和人工智能有浓厚兴趣的初学者,这篇博客都将为您提供宝贵的知识和实践指导。通过阅读本文,您不仅能够了解如何构建一个高效的GPTs知识库,还能够获得关于如何自定义和优化爬虫的实用技巧。那么,让我们一起开始这趟激动人心的技术之旅吧!

      安装node.js

      Node.js下载地址:https://nodejs.org/en

      下载20.10.0版本即可,下载后一路默认安装

      在这里插入图片描述

      安装完成后在命令行输入node -v,显示版本则安装成功

      在这里插入图片描述

      安装GPT-Crawler

      项目地址:https://github.com/BuilderIO/gpt-crawler

      这个项目能爬取网站数据,生成用于创建GPTs的知识库文件

      打开项目地址后,点击【Code】,下载压缩文件,保存到电脑本地解压

      VSCode官网下载:https://code.visualstudio.com/Download

      用VSCode编码工具打开,

      或者点开VSCode,左上角文件,点击打开文件夹,地址选择解压的地址

      切换到项目目录(例如我的是C:\Users\Yu\Desktop\gpt-crawler-main\gpt-crawler-main>),右键,选择在集成终端中打开

      输入npm install,把项目依赖包进行安装

      在这里插入图片描述

      启动爬虫

      npm start
      

      日志输出下面这些为正常:

      在这里插入图片描述

      最后程序会在项目根目录输出文件output.json,这就是我们需要的文件。

      输出的文件就在该目录下

      点开看一下,很完美

      在这里插入图片描述

      结合 OpenAI

      这步需要一个 OpenAI 账户,我们需要将生成的文件上传给 OpenAI。

      自定义 assistant

      选择 assistant 的优势是,我们可以使用 OpenAI 提供的 assistant API,集成到自己的系统中。

      操作步骤:

      1、进入自定义 Assistants 页面https://platform.openai.com/assistants

      2、创建一个 Assistant

      3、添加上面生成的output.json文件

      4、配置其他选项

      上传配置完点击保存,然后开始测试:

      自定义 GPTs(笔者用的这个)

      自定义 GPTs 和上面的操作类似,大家自行体验。GPTs 需要大家付费 Plus,并且官方似乎还没有提供 GPTs 的 API 可用。

      总结

      GPT Crawler 项目能让我们只做简单的配置,即可自定义自己的知识库。结合 OpenAI 的 API,能够做很多的事情。大家自行体验。