更新时间:作者:小小条
若你受够了生成式 AI“张口就来”的幻觉,又没时间把上百篇 PDF 逐页喂给模型,GeoGPT-RAG 给出了一个开箱即用的答案:把检索器放进大模型,让每一条回答都能追溯到具体段落,并在毫秒级时间内完成 1,800 万向量的语义搜索。
GeoGPT-RAG 是由 GeoGPT Research Project 开源的“检索增强生成”(Retrieval-Augmented Generation)系统,专为地球科学场景设计。它在传统大模型之外并联了一套可热插拔的知识库——既包含 1,500 万条开放获取的地学论文与维基条目(公共库),也支持用户一键上传私有 PDF/书籍(私有库)。模型推理时,系统先检索、再重排、最后注入上下文,实现“问—搜—答”全链路可溯源。

GeoGPT-RAG 用“即插即用”的 RAG 架构解决以上痛点:知识库可实时增删,模型参数不动也能“长”出新知识。
能力说明备注 公共知识库1,500 万向量,覆盖 5 万余篇开放获取地学论文、百科全书持续爬取、每月更新私有知识库用户上传 PDF,系统自动 OCR、分段、向量化支持按用户 ID 物理隔离语义分段基于 BERT-NSP 的“句间连贯度”模型,512 token 内保持语义完整比固定窗口减少 23% 断句错误多级重排向量粗排 + 交叉编码器精排,召回率提升 11%支持自定义阈值可追溯回答每段生成结果均返回来源文件名、页码、段落 ID一键定位原文混合云部署向量库使用 Zilliz Cloud,计算节点可本地/云端弹性伸缩毫秒延迟、百亿级向量可横向扩展
git clone https://github.com/GeoGPT-Research-Project/GeoGPT-RAG.gitcd GeoGPT-RAG2. 一键启动(Docker Compose)
cp env.example .env# 填写 OPENAI_API_KEY 或本地 LLM 地址docker-compose up -d3. 访问 http://localhost:8501 即可上传 PDF、在线对话;API 端点在 http://localhost:8000/docs。4. 私有库查询(Python SDK)
from geogpt import Clientcli = Client(api_key="your_key")answer = cli.ask("How does slab rollback affect back-arc extension?", user_lib=True) # 仅查私有库print(answer.text, answer.citations)
https://github.com/GeoGPT-Research-Project/GeoGPT-RAG
版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除