超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

由于AI训练的特殊性,现阶段大模型都存在以下三个问题:

  1. 大部分大模型都是瞎子
  2. 所有大模型都是离线的
  3. 所有大模型都是没有记忆的

针对这三个问题,市面上有非常多的工程的解决方案,但是都比较繁琐。

在302.AI平台,为了让开发者和用户可以快速地解决这几个问题,我们在API调用层面做了几个升级,下面就来详细的讲一讲。

给模型装上眼睛

大模型在行业里可以分为两类:

  1. 纯文字模型:只能处理文字的输入和输出。大部分的模型均是纯文字模型,例如DeepSeek-R1
  2. 多模态模型:可以处理多种类型的输入和输出,例如图片,语音等。典型的多模态模型有gpt-4o

由于多模态模型训练对数据集和算法的要求非常高,所以现阶段大部分的模型都是纯文字模型。

现在在302.AI,所有大模型后缀加上【-ocr】,即可将纯文字模型”变为“多模态模型了

例如:gpt-3.5-turbo -> gpt-3.5-turbo-ocr

示例:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

众所周知,gpt-3.5-turbo是一个纯文字模型,但是图中加了-ocr后缀后,就可以识别图片了。

其实背后的原理也很简单,如图例所示:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

简单地说,就是当纯文字模型接收到图片时,会借助另一个多模态模型,将图片解析为文字,再合并上下文一起进行输出。

综合速度和成本的考虑,默认的多模态模型为gpt-4o-mini。

此模型也可以在API中自己定义,修改ocr_model参数即可,如图:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

具体的API教程可查看:https://doc.302.ai/api-260114404

给模型插上网线

大模型的训练过程是对大量的数据进行学习和训练,对数据格式的要求很高,计算能源的消耗也很高,所以无法做到训练数据及时的更新。现在大部分大模型的数据还停留在2023年底,换句话说,大模型对2024年发生了什么一无所知。形象地说,就像一个被关进监狱一年的人,对世界的认知还停留在一年前。

但是日常在应用AI的时候,如果无法了解最新的信息,很多任务是会出现问题的。

现在在302.AI,所有大模型后缀加上【-web-search】,模型将会先联网搜索再进行回答。

例如:gpt-4o-> gpt-4o-web-search

下面举一个例子,我们问gpt-4o,2025年美国总统是谁:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

(可以看到,大模型的知识还停留在2023年)

此时我们加上-web-search后缀:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

(回答正确)

背后的原理,如图所示:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

简单地说,就是当模型接收到用户输入时,会先进行搜索,再将结果合并上下文一起进行输出。此时模型就有了最新的信息。

现阶段每次输入都会进行搜索,未来我们会不断的改进逻辑,希望可以做到只在必要的时候进行搜索。

具体的API教程可查看:https://doc.302.ai/api-260112819

给模型增加记忆

众所周知,大模型是没有记忆的。从专业角度来解释,所有的大模型API都是无状态API(每个请求是自足的,不依赖于以前的请求或者状态,这样的API可以更容易地进行扩展)。

302.AI和Memobase进行了合作,为所有大模型增加了长期记忆功能,增加一个userid参数即可:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

背后的原理大致如下:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

具体的教程可以查看这篇文章(https://mp.weixin.qq.com/s/EvqWU-LuqJsMpjLV9SH39w?token=1847659872&lang=zh_CN),这里不再复述。

在第三方应用的使用

考虑到用户除了会直接使用我们的聊天机器人外,还会通过ChatBox、Cherry Studio、Lobechat等第三方应用接入我们的API,我们将功能开关集成到模型名称中,以实现更灵活的功能配置。

下面将以Cherry Studio作为例子:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

可以见到在配置中,我们加入了一个gpt-3.5-turbo-ocr的模型。注意需要打开图像类别:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

此时,就可以使用这个模型进行图片问答了:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

我们再加入一个联网的gpt-4o试试:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

检验一下:

超便捷!教你如何1秒为所有大模型API增加图片分析/联网搜索/长期记忆功能

关于记忆功能,由于需要更改请求参数,现有的第三方平台暂不支持,还期待各位开发者尽快兼容啦。

总结

回到开头的三个问题:

  1. 大部分大模型都是瞎子
  2. 所有大模型都是离线的
  3. 所有大模型都是没有记忆的

现在在302.AI平台,我们给出了三个最便捷的解决方案:

  1. 模型名称增加-ocr后缀,就给模型装上了眼睛,例如gpt-3.5-turbo改为gpt-3.5-turbo-ocr
  2. 模型名称增加-web-search后缀,就给模型插上了网线,例如gpt-4o改为gpt-4o-web-search
  3. 模型请求增加userid字段,就给模型增加了记忆

三个解决方案全部都是即插即用的API升级,无需额外开发成本,兼容大部分开源项目和第三方应用。

还有些黑科技正在紧锣密鼓开发中,很快就能和大家见面啦:

  1. 给所有模型增加文件解析功能
  2. 给所有模型增加function call功能
  3. 给所有模型增加深度思考功能

敬请期待!

Like (1)
302.AI302.AI
Previous 2025 年 2 月 12 日 下午10:35
Next 2025 年 2 月 14 日 下午7:22

相关推荐

  • 资讯丨低成本实现虚拟模特换装,电商新神器——302 AI换衣

    随着AI技术的快速发展,市场上出现了一种新型AI工具——AI 换衣。这类工具提供了精确的虚拟试穿能力,且操作简单,逐渐成为电商商家们的新宠。 302.AI紧跟市场发展,近日在工具超市最新上线了一款AI 换衣工具。这一工具能够准确渲染服装细节,并且支持多种服装类别,包括上衣、下装、夹克、连衣裙等。更重要的是,302.AI提供按需付费的使用方式,用户只需要依据自…

    2025 年 1 月 13 日
    31600
  • 智谱清影AI视频还在内测阶段,背后的模型CogVideoX 突然宣布开源?!

    近日,国外的AI视频生成模型竞争依然在不断升温,国内的AI视频模型赛道也迎来了前所未有的“内卷”潮。 7月26日,智谱清影(Ying)AI视频生成工具正式上线,这款由智谱AI推出的视频生成工具,允许用户通过输入文本描述或上传图片,在大约30秒内生成一段6秒长的视频。 而在8月6日,智谱AI宣布清影背后的视频生成模型——CogVideoX正式开源。 或许很多人…

    2024 年 8 月 12 日
    42600
  • 资讯丨四大场景对比Gen-4/Gen-4 Turbo/Kling-1.6的图生视频效果,这次谁破防了?!

    4月1日,Runway 推出了新视频模型:Gen-4。 据官方介绍,Gen-4 与上一版本 Gen-3 Alpha 模型相比有显著改进。它能够生成具有逼真动作的高度动态视频,并且主题、对象和风格一致,具有出色的即时一致性和一流的世界理解能力。 4月8日,Runway再次宣布推出新版本 :Gen-4 Turbo。官方称Gen-4 Turbo是其迄今为止最强大的…

    2025 年 4 月 10 日
    12800
  • 资讯丨实测对比Luma Labs新图像模型,Luma Photon能否胜出?

    近日,Luma Labs宣布推出两款全新图像生成模型:Luma Photon和Photon Flash,这两个图像生成模型是建立在新的突破性架构之上的,可提供超高品质的生成质量,不仅生成速度比市场上其他模型快,而且价格成本更低,为用户带来了新的视觉生成体验。 据官方介绍,在大规模双盲评估中,Luma Photon 在质量、创造力和理解力方面优于市场上的所有模…

    2024 年 12 月 4 日
    24100
  • 提升AI协作效率,国内用户如何使用Artifacts功能?

    最近,由于汉语新解prompt的爆火,让Claude模型再次受到广泛关注。 提到Claude,或许大多数用户都会联想到Claude Artifacts,Anthropic在官网宣布推出Claude 3.5 Sonnet的同时,也宣布将在 Claude.ai上推出Artifacts功能,这一功能在用户请求Claude生成代码、文档或网站设计时,能够将这些生成的…

    2024 年 9 月 19 日
    60100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注