302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

由于AI训练的特殊性,现阶段大模型都存在以下三个问题:

  1. 大部分大模型都是瞎子
  2. 所有大模型都是离线的
  3. 所有大模型都是没有记忆的

针对这三个问题,市面上有非常多的工程的解决方案,但是都比较繁琐。

302.AI平台,为了让开发者和用户可以快速地解决这几个问题,我们在API调用层面做了几个升级,下面就来详细的讲一讲。


超便捷为大模型装上眼睛

大模型在行业里可以分为两类:

  1. 纯文字模型:只能处理文字的输入和输出。大部分的模型均是纯文字模型,例如DeepSeek-R1
  2. 多模态模型:可以处理多种类型的输入和输出,例如图片,语音等。典型的多模态模型有gpt-4o

由于多模态模型训练对数据集和算法的要求非常高,所以现阶段大部分的模型都是纯文字模型。

现在在302.AI,所有大模型后缀加上【-ocr】,即可将纯文字模型”变为“多模态模型了

例如:gpt-3.5-turbo -> gpt-3.5-turbo-ocr

示例:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

众所周知,gpt-3.5-turbo是一个纯文字模型,但是图中加了-ocr后缀后,就可以识别图片了。

其实背后的原理也很简单,如图例所示:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

简单地说,就是当纯文字模型接收到图片时,会借助另一个多模态模型,将图片解析为文字,再合并上下文一起进行输出。

综合速度和成本的考虑,默认的多模态模型为gpt-4o-mini。

此模型也可以在API中自己定义,修改ocr_model参数即可,如图:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

具体的API教程可查看:https://doc.302.ai/api-260114404


给大模型插上网线

大模型的训练过程是对大量的数据进行学习和训练,对数据格式的要求很高,计算能源的消耗也很高,所以无法做到训练数据及时的更新。现在大部分大模型的数据还停留在2023年底,换句话说,大模型对2024年发生了什么一无所知。形象地说,就像一个被关进监狱一年的人,对世界的认知还停留在一年前。

但是日常在应用AI的时候,如果无法了解最新的信息,很多任务是会出现问题的。

现在在302.AI,所有大模型后缀加上【-web-search】,模型将会先联网搜索再进行回答。

例如:gpt-4o-> gpt-4o-web-search

下面举一个例子,我们问gpt-4o,2025年美国总统是谁:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

(可以看到,大模型的知识还停留在2023年)

此时我们加上-web-search后缀:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

(回答正确)

背后的原理,如图所示:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

简单地说,就是当模型接收到用户输入时,会先进行搜索,再将结果合并上下文一起进行输出。此时模型就有了最新的信息。

现阶段每次输入都会进行搜索,未来我们会不断的改进逻辑,希望可以做到只在必要的时候进行搜索。

具体的API教程可查看:https://doc.302.ai/api-260112819


给大模型增加记忆

众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。

302.AI和Memobase进行了合作,为所有大模型增加了长期记忆功能,增加一个userid参数即可:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

背后的原理大致如下:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

具体的教程可以查看这篇文章(https://mp.weixin.qq.com/s/EvqWU-LuqJsMpjLV9SH39w?token=1847659872&lang=zh_CN),这里不再复述。


在第三方应用的使用

考虑到用户除了会直接使用我们的聊天机器人外,还会通过ChatBox、Cherry Studio、Lobechat等第三方应用接入我们的API,我们将功能开关集成到模型名称中,以实现更灵活的功能配置。

下面将以Cherry Studio作为例子:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

可以见到在配置中,我们加入了一个gpt-3.5-turbo-ocr的模型。注意需要打开图像类别:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

此时,就可以使用这个模型进行图片问答了:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

我们再加入一个联网的gpt-4o试试:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

检验一下:

302.AI 实战教程 | 教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能!

关于记忆功能,由于需要更改请求参数,现有的第三方平台暂不支持,还期待各位开发者尽快兼容啦。


总结

回到开头的三个问题:

  1. 大部分大模型都是瞎子
  2. 所有大模型都是离线的
  3. 所有大模型都是没有记忆的

现在在302.AI平台,我们给出了三个最便捷的解决方案:

  1. 模型名称增加-ocr后缀,就给模型装上了眼睛,例如gpt-3.5-turbo改为gpt-3.5-turbo-ocr
  2. 模型名称增加-web-search后缀,就给模型插上了网线,例如gpt-4o改为gpt-4o-web-search
  3. 模型请求增加userid字段,就给模型增加了记忆

三个解决方案全部都是即插即用的API升级,无需额外开发成本,兼容大部分开源项目和第三方应用。

还有些黑科技正在紧锣密鼓开发中,很快就能和大家见面啦:

  1. 给所有模型增加文件解析功能
  2. 给所有模型增加function call功能
  3. 给所有模型增加深度思考功能

敬请期待!


免费试用302.AI,开启你的AI之旅!👈

为什么选择302.AI?

● 灵活付费:无需月费,按需付费,成本可控
● 丰富功能:从文字、图片到视频,应有尽有,满足多种场景需求
● 开源生态:支持开发者深度定制,打造专属AI应用
● 易用性:界面友好,操作简单,快速上手

302.AI 新品发布 | 图像创意站:GPT-Image-1玩法全解析,轻松生成惊艳作品

All Rights Reserved by 302.AI
Like (1)
302.AI302.AI
Previous 2025 年 2 月 12 日 下午10:35
Next 2025 年 2 月 14 日 下午7:22

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Comments(1)