一个大模型能力强不强,我们常常会从多个维度去评估,其中编程能力是尤为关键的一项。
对于许多用户而言,想要准确测试大模型的代码能力却常常不知道该从何入手,或者不知道选择哪个平台进行测试。
为了帮助用户解决这一问题,302.AI最新上线了一款工具——代码竞技场,这一工具集结了多种先进模型,为用户提供了一个广阔、便捷、易用的代码测试平台。
工具界面展示:
302.AI的代码竞技场整体界面非常简洁实用,主要分为两大板块:模型PK和排行榜。
生成效果展示:
1、web:
生成的内容包括页面、网站或应用等,即使是没有编程基础的初学者,也可以通过对比页面效果来评估模型的优劣。
提示词:电商平台首页
2、node.js:
代码实时生成,除了可以对比生成结果,还可以对比生成速度以及时间等。
提示词:在一个排序数组上执行二进制搜索
3、python:
还可结合代码平台进行代码测试与验证,示例如下:
首先将题目复制至代码竞技场的提示词框中:
代码生成:
初步观察左侧模型代码的运行结果正常,而右侧的运行结果为空:
进一步验证代码,左侧检验通过,右侧代码出现了错误。
功能详解:
1、代码生成类型:提供了web、python、node.js三种类型生成代码。用户可以根据自己的需求和项目要求,选择相应的代码类型进行生成,侧重对比模型在某一方面的代码表现。
2、PK模型方式:可随机或者指定两个进行模型进行竞技PK。
随机模型方式:适合需要广泛探索且对模型性能不太了解的情况下使用。
指定模型方式:适合在对模型有一定了解、需要针对性比较的情况下使用。
3、竞技场模型库资源丰富:当前提供的模型超过25种,均为市场上主流或常用的模型,未来还会持续更新。
4、盲选更公平客观:选择随机模型方式进行PK,生成的结果采用匿名盲选形式,便于用户专注于效果比较,避免受主观偏好的干扰,结果更加客观公正。
5、排行榜:在模型PK中产生的结果,会自动统计到排行榜中,通过排行榜可以直观地评估各模型在代码性能方面的优劣。
如何在302.AI上使用:
302.AI提供按需付费无订阅的服务模式,用户可以根据自身业务需求灵活选择使用。
1、登录302.AI后,点击左侧菜单栏选择全能工具箱→快捷使用,即可快速进入工具箱页面。
2、进入后依次点击:工具超市→代码竞技场即可进入;