基准实验室
302.AI 基准实验室 | Anthropic最新模型Claude 3.5 Haiku,与其他模型对比表现如何?
11月5日,Anthropic在社交媒体平台宣布Claude 3.5 Haiku可以通过API访问。Claude 3.5 Haiku是Anthropic公司在10月22日发布的新模型,在许多评估中的性能与 Claude 3 Opus不相上下,而成本和速度却与上一代Haiku相当。 根据官方介绍,Claude 3.5 Haiku 在各种编码、工具使用和推理任务…
302.AI 基准实验室 | Stable Diffusion 3.5 VS Flux.1 dev,谁才是开源图像生成模型的王者?
10月22日,Stability AI推出最新图像生成模型Stable Diffusion 3.5,其中包括Stable Diffusion 3.5 Large、Stable Diffusion 3.5 Large Turbo两个版本,并宣布预计在10月29日上线Medium版本。 10月29日,Stable Diffusion 3.5 Medium如期推出…
302.AI 基准实验室 | 揭秘神秘“小熊猫”模型,实测对比Recraft V3生成效果
近日,一个名为red_panda的模型在Hugging Face的文本生成图像模型排行榜中位居榜首, 这引起了许多网友对这一神秘“小熊猫”背后公司身份的种种讨论。 有网友猜测小熊猫会不会是Midjourney的新产物,也有网友猜测可能是来自OpenAI: 甚至有网友猜测,因为熊猫生活在亚洲,而中国公司在视频生成方面表现卓越,所以猜测它来自像百度或腾讯这样的中…
302.AI 基准实验室 | Genmo推出全球最大开源视频生成模型Mochi V1,实测效果到底如何?
10月22日,Genmo在社交媒体平台发布消息,推出最新的开源视频生成模型 Mochi V1。Mochi V1采用创新的 Asymmetric Diffusion Transformer(AsymmDiT)架构,拥有高达100亿个参数,是迄今为止公开发布的最大视频生成模型。 根据Genmo官方介绍,Mochi V1模型在提示词遵循和动作质量方面表现十分出色:…
302.AI 基准实验室 | 英伟达微调Llama3很强?来302竞技场跑跑分!
10月17日,英伟达(Nvidia)开源了微调后的Llama3.1——Llama-3.1-Nemotron-70B-Instruct。 Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 使用私有数据集微调后的Llama3.1,旨在提高 LLM 生成的响应对用户查询的帮助性。 根据官方Tech Report,Llama-3.1-…
302.AI 基准实验室 | 火星文避雷评价帖,AI到底能不能看懂?!
AI到底能不能看懂火星文差评!看看哪个模型表现更好! 大家都知道,在《歌手2024》播出的时候,13.8和13.11哪个大的问题难倒了不少AI模型。而最近,AI模型迎来了新一轮考验来了,起因是这样的,为了防止外国人通过翻译软件看懂原意,一些中国人在海外订酒店吃亏后,用火星文提醒同胞不要再来,而这些帖子被截图搬运到了国内的社交媒体平台后很快就火了,引发了不少网…
302.AI 基准实验室 | 时隔两月Meta再发布新模型Llama 3.2,视觉理解方面媲美GPT-4o-mini?!
距离7月23日Llama 3.1发布才刚刚过去 2 个月,Meta公司在9月26日又官宣推出最新AI模型系列Llama 3.2,此次Llama 3.2系列包括四个版本:1B、3B、11B和90B。 Llama 3.2 1B和Llama 3.2 3B都是轻量级的模型,适合边缘和移动设备的轻量级纯文本模型。而Llama 3.2 11B和Llama 3.2 90B…
302.AI 基准实验室 | 谷歌发布最新两款Gemini 1.5系列模型,与草莓o1模型对比谁表现更好?
9月25日,Google旗下的Gemini 1.5系列模型迎来了最新版本的发布,分别是Gemini-1.5-Pro-002和Gemini-1.5-Flash-002两款模型。据了解,与之前的版本相比,Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002在数学、上下文和视觉方面的能力得到了显著提升。 根据官方数据显示,两款模型在M…
302.AI 基准实验室 | “草莓”终于现真身了,OpenAI发布最新o1大模型!
北京时间9月13日凌晨,OpenAI发布o1大模型,“草莓”终于现真身了,酝酿已久的“草莓”终于面世。 据了解,OpenAI o1模型经过强化学习训练可以执行复杂的推理,还能解决比以前更难的科学、编码和数学问题。官方称,OpenAI o1模型在美国数学奥林匹克 (AIME) 预选赛中跻身美国前 500 名学生之列,并在物理、生物和化学问题 (GPQA) 基准…
302.AI 基准实验室 | Reflection-Llama-3.1-70B发布短短几天,为何备受争议?
9月6日,AI写作初创公司HyperWrite发布了Reflection-Llama-3.1-70B模型。该模型基于Meta的Llama 3.1-70B Instruct,并使用原始的 Llama Chat 格式,确保了与现有工具和 pipeline 的兼容性。 在发布当天,HyperWrite 公司的 CEO Matt Shumer 在社交媒体平台发文表示…