超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

由于AI训练的特殊性,现阶段大模型都存在以下三个问题:

  1. 大部分大模型都是瞎子
  2. 所有大模型都是离线的
  3. 所有大模型都是没有记忆的

针对这三个问题,市面上有非常多的工程的解决方案,但是都比较繁琐。

在302.AI平台,为了让开发者和用户可以快速地解决这几个问题,我们在API调用层面做了几个升级,下面就来详细的讲一讲。

给模型装上眼睛

大模型在行业里可以分为两类:

  1. 纯文字模型:只能处理文字的输入和输出。大部分的模型均是纯文字模型,例如DeepSeek-R1
  2. 多模态模型:可以处理多种类型的输入和输出,例如图片,语音等。典型的多模态模型有gpt-4o

由于多模态模型训练对数据集和算法的要求非常高,所以现阶段大部分的模型都是纯文字模型。

现在在302.AI,所有大模型后缀加上【-ocr】,即可将纯文字模型”变为“多模态模型了

例如:gpt-3.5-turbo -> gpt-3.5-turbo-ocr

示例:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

众所周知,gpt-3.5-turbo是一个纯文字模型,但是图中加了-ocr后缀后,就可以识别图片了。

其实背后的原理也很简单,如图例所示:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

简单地说,就是当纯文字模型接收到图片时,会借助另一个多模态模型,将图片解析为文字,再合并上下文一起进行输出。

综合速度和成本的考虑,默认的多模态模型为gpt-4o-mini。

此模型也可以在API中自己定义,修改ocr_model参数即可,如图:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

具体的API教程可查看:https://doc.302.ai/api-260114404

给模型插上网线

大模型的训练过程是对大量的数据进行学习和训练,对数据格式的要求很高,计算能源的消耗也很高,所以无法做到训练数据及时的更新。现在大部分大模型的数据还停留在2023年底,换句话说,大模型对2024年发生了什么一无所知。形象地说,就像一个被关进监狱一年的人,对世界的认知还停留在一年前。

但是日常在应用AI的时候,如果无法了解最新的信息,很多任务是会出现问题的。

现在在302.AI,所有大模型后缀加上【-web-search】,模型将会先联网搜索再进行回答。

例如:gpt-4o-> gpt-4o-web-search

下面举一个例子,我们问gpt-4o,2025年美国总统是谁:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

(可以看到,大模型的知识还停留在2023年)

此时我们加上-web-search后缀:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

(回答正确)

背后的原理,如图所示:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

简单地说,就是当模型接收到用户输入时,会先进行搜索,再将结果合并上下文一起进行输出。此时模型就有了最新的信息。

现阶段每次输入都会进行搜索,未来我们会不断的改进逻辑,希望可以做到只在必要的时候进行搜索。

具体的API教程可查看:https://doc.302.ai/api-260112819

给模型增加记忆

众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。

302.AI和Memobase进行了合作,为所有大模型增加了长期记忆功能,增加一个userid参数即可:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

背后的原理大致如下:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

具体的教程可以查看这篇文章(https://mp.weixin.qq.com/s/EvqWU-LuqJsMpjLV9SH39w?token=1847659872&lang=zh_CN),这里不再复述。

在第三方应用的使用

考虑到用户除了会直接使用我们的聊天机器人外,还会通过ChatBox、Cherry Studio、Lobechat等第三方应用接入我们的API,我们将功能开关集成到模型名称中,以实现更灵活的功能配置。

下面将以Cherry Studio作为例子:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

可以见到在配置中,我们加入了一个gpt-3.5-turbo-ocr的模型。注意需要打开图像类别:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

此时,就可以使用这个模型进行图片问答了:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

我们再加入一个联网的gpt-4o试试:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

检验一下:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

关于记忆功能,由于需要更改请求参数,现有的第三方平台暂不支持,还期待各位开发者尽快兼容啦。

总结

回到开头的三个问题:

  1. 大部分大模型都是瞎子
  2. 所有大模型都是离线的
  3. 所有大模型都是没有记忆的

现在在302.AI平台,我们给出了三个最便捷的解决方案:

  1. 模型名称增加-ocr后缀,就给模型装上了眼睛,例如gpt-3.5-turbo改为gpt-3.5-turbo-ocr
  2. 模型名称增加-web-search后缀,就给模型插上了网线,例如gpt-4o改为gpt-4o-web-search
  3. 模型请求增加userid字段,就给模型增加了记忆

三个解决方案全部都是即插即用的API升级,无需额外开发成本,兼容大部分开源项目和第三方应用。

还有些黑科技正在紧锣密鼓开发中,很快就能和大家见面啦:

  1. 给所有模型增加文件解析功能
  2. 给所有模型增加function call功能
  3. 给所有模型增加深度思考功能

敬请期待!

Like (0)
302.AI302.AI
Previous 2025 年 2 月 12 日 下午10:35
Next 6天前

相关推荐

  • 场景图生成工具的平替选择,超越Magnific的创意可能

    真的太卷了!Magnific AI居然推出了新功能! 2023年年末,一家名为Magnific AI的初创公司带着图像增强工具横空出世,仅半年后,Magnific AI的创始人宣布新功能“Relight ”。 根据相关资料,Magnific AI公司由两位创始人Javi Lopez 和 Emilio Nicolás 组成,于2023 年11月创立。Magni…

    2024 年 7 月 12 日
    31800
  • 302.AI带来实时语音便捷方案,让你快速体验AI语音通话

    在10月初,OpenAI在旧金山召开了开发者大会。在发布会中,OpenAI推出了Realtime API 的公开测试版。 Realtime API是一种实时多模态API,它允许开发人员构建低延迟、多模态的AI应用体验。这个API背后的技术是GPT-4o模型,它支持音频输入和输出,能够实现超越传统基于文本的AI对话的实时、自然的语音交互。 像Realtime这…

    2024 年 10 月 31 日
    44400
  • Glif生成的meme图瞎说什么大实话!如何免注册无次数限制使用?

    近日,在国外社交媒体平台上,一款叫做“Glif”的AI应用迅速蹿红,Glif有点类似国内的Coze,通过低代码或无代码的方式,并提供了非常多的工具作为节点,搭建工作流。 接下来先说一下Glif是什么,Glif是一个有趣的低代码平台,在基本层面上,Glif接受用户输入(文本、图像或点击按钮),并使用强大的AI模型生成输出(文本、图像、视频或这些的组合)。 概括…

    2024 年 7 月 17 日
    47700
  • 资讯丨DeepMind新模型Gemini-exp-1114模型霸榜第一?实测结果出人意料

    11月15日,谷歌DeepMind推出Gemini-exp-1114,这是一个实验性模型。 据了解,在经过6000+网友匿名投票后,Gemini-exp-1114模型在AI基准测试中位居总体排名第一,Gemini-exp-1114模型分数直涨40+,与GPT-4-latest并列第一,并超越了o1-preview。 Gemini-exp-1114在处理复杂提…

    2024 年 11 月 18 日
    27000
  • 大白话聊聊Deepseek R1背后的来龙去脉,必读

    一切的开端 CloseAI在24年发布了o1,指出了未来Scaling Law的方向:增加思考时间来换取更多智能,而不是用更大的模型或更多的训练数据。CloseAI没告诉任何人具体该怎么做,只是将自己的成果做成了收费产品。 虽然大家都知道了这个宏观方向,但是不知道具体的实现方式,就像只告诉你目的地在东北方向,路线一概不知,所以没有人可以复现o1的成功。之前的…

    2025 年 2 月 5 日
    12900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注