由于AI训练的特殊性,现阶段大模型都存在以下三个问题:
- 大部分大模型都是瞎子
- 所有大模型都是离线的
- 所有大模型都是没有记忆的
针对这三个问题,市面上有非常多的工程的解决方案,但是都比较繁琐。
在302.AI平台,为了让开发者和用户可以快速地解决这几个问题,我们在API调用层面做了几个升级,下面就来详细的讲一讲。
给模型装上眼睛
大模型在行业里可以分为两类:
- 纯文字模型:只能处理文字的输入和输出。大部分的模型均是纯文字模型,例如DeepSeek-R1
- 多模态模型:可以处理多种类型的输入和输出,例如图片,语音等。典型的多模态模型有gpt-4o
由于多模态模型训练对数据集和算法的要求非常高,所以现阶段大部分的模型都是纯文字模型。
现在在302.AI,所有大模型后缀加上【-ocr】,即可将纯文字模型”变为“多模态模型了
例如:gpt-3.5-turbo -> gpt-3.5-turbo-ocr
示例:
众所周知,gpt-3.5-turbo是一个纯文字模型,但是图中加了-ocr后缀后,就可以识别图片了。
其实背后的原理也很简单,如图例所示:
简单地说,就是当纯文字模型接收到图片时,会借助另一个多模态模型,将图片解析为文字,再合并上下文一起进行输出。
综合速度和成本的考虑,默认的多模态模型为gpt-4o-mini。
此模型也可以在API中自己定义,修改ocr_model参数即可,如图:
具体的API教程可查看:https://doc.302.ai/api-260114404
给模型插上网线
大模型的训练过程是对大量的数据进行学习和训练,对数据格式的要求很高,计算能源的消耗也很高,所以无法做到训练数据及时的更新。现在大部分大模型的数据还停留在2023年底,换句话说,大模型对2024年发生了什么一无所知。形象地说,就像一个被关进监狱一年的人,对世界的认知还停留在一年前。
但是日常在应用AI的时候,如果无法了解最新的信息,很多任务是会出现问题的。
现在在302.AI,所有大模型后缀加上【-web-search】,模型将会先联网搜索再进行回答。
例如:gpt-4o-> gpt-4o-web-search
下面举一个例子,我们问gpt-4o,2025年美国总统是谁:
(可以看到,大模型的知识还停留在2023年)
此时我们加上-web-search后缀:
(回答正确)
背后的原理,如图所示:
简单地说,就是当模型接收到用户输入时,会先进行搜索,再将结果合并上下文一起进行输出。此时模型就有了最新的信息。
现阶段每次输入都会进行搜索,未来我们会不断的改进逻辑,希望可以做到只在必要的时候进行搜索。
具体的API教程可查看:https://doc.302.ai/api-260112819
给模型增加记忆
众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。
302.AI和Memobase进行了合作,为所有大模型增加了长期记忆功能,增加一个userid参数即可:
背后的原理大致如下:
具体的教程可以查看这篇文章(https://mp.weixin.qq.com/s/EvqWU-LuqJsMpjLV9SH39w?token=1847659872&lang=zh_CN),这里不再复述。
在第三方应用的使用
考虑到用户除了会直接使用我们的聊天机器人外,还会通过ChatBox、Cherry Studio、Lobechat等第三方应用接入我们的API,我们将功能开关集成到模型名称中,以实现更灵活的功能配置。
下面将以Cherry Studio作为例子:
可以见到在配置中,我们加入了一个gpt-3.5-turbo-ocr的模型。注意需要打开图像类别:
此时,就可以使用这个模型进行图片问答了:
我们再加入一个联网的gpt-4o试试:
检验一下:
关于记忆功能,由于需要更改请求参数,现有的第三方平台暂不支持,还期待各位开发者尽快兼容啦。
总结
回到开头的三个问题:
- 大部分大模型都是瞎子
- 所有大模型都是离线的
- 所有大模型都是没有记忆的
现在在302.AI平台,我们给出了三个最便捷的解决方案:
- 模型名称增加-ocr后缀,就给模型装上了眼睛,例如gpt-3.5-turbo改为gpt-3.5-turbo-ocr
- 模型名称增加-web-search后缀,就给模型插上了网线,例如gpt-4o改为gpt-4o-web-search
- 模型请求增加userid字段,就给模型增加了记忆
三个解决方案全部都是即插即用的API升级,无需额外开发成本,兼容大部分开源项目和第三方应用。
还有些黑科技正在紧锣密鼓开发中,很快就能和大家见面啦:
- 给所有模型增加文件解析功能
- 给所有模型增加function call功能
- 给所有模型增加深度思考功能
敬请期待!