Computer Use超详细小白教程

美国时间10月22日,Anthropic推出重大更新!其中包括升级版的 Claude 3.5 Sonnet 以及一款新的 Claude 3.5 Haiku 模型,除此之外,这次还带来了全新功能Computer Use,这一功能支持像人类一样操作计算机,可以遵循用户的命令在计算机屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与自己计算机的交互方式。今天我们就教一教大家,如何通过302.AI平台来进行测试。

Computer Use原理

Computer Use的原理就是:本地程序每次对电脑屏幕进行截屏,通过API传给AI,AI通过多模态识别能力判断鼠标和屏幕状态,返回操作命令,本地程序接受命令,对电脑进行操作,如此反复。每一个操作都要截图一次。

Computer Use超详细小白教程

如何使用官方Demo

github地址:https://github.com/anthropics/anthropic-quickstarts/tree/a306792de96e69d29f231ddcb6534048b7e2489e/computer-use-demo#accessing-the-demo-app

官方demo的原理是利用docker在本地虚拟了一个linux环境,通过浏览器展示,同时用Claude来控制这个虚拟linux。官方demo的优势是界面比较直观,linux环境简单可控,比较容易展示各种功能。劣势是仅仅只能作为demo,实际应用价值有限。

具体操作步骤如下(以下均在windows环境,如果是Mac,命令可能会有少许不同

1、下载docker程序并安装:https://www.docker.com/

Computer Use超详细小白教程

2、运行CMD

Computer Use超详细小白教程

3、设置环境变量,复制下面的代码,点击回车

(其中API KEY在302后台生成,以sk开头)

set 302_BASE_URL=https://api.302.ai
set 302_API_KEY=sk-xxx

Computer Use超详细小白教程

4、下载并运行官方demo,复制以下代码,点击回车

docker run ^
    -e ANTHROPIC_API_KEY=%302_API_KEY% ^
    -e ANTHROPIC_BASE_URL=%302_BASE_URL% ^
    -v %USERPROFILE%/.anthropic:/home/computeruse/.anthropic ^
    -p 5900:5900 ^
    -p 8501:8501 ^
    -p 6080:6080 ^
    -p 8080:8080 ^
    -it ghcr.io/anthropics/anthropic-quickstarts:computer-use-demo-latest

Computer Use超详细小白教程

(第一次会下载一些文件,时间会久一点,偶尔会因为网络问题下载不了,多试几次)

5、运行成功,显示如下:

Computer Use超详细小白教程

点击http://localhost:8080 即可体验

Computer Use超详细小白教程

如何使用独立程序

github链接:https://github.com/302team/302-agent.exe

(这里是我们修改的版本,将API地址改为了302.AI的地址)

独立程序的原理是使用NodeJS开发了一款桌面端的软件,它能够直接对真实的桌面进行控制。独立程序的优势是可以对真实的桌面环境进行控制,让人有种AI控制电脑的创新体验感,劣势是由于每个人的桌面环境都非常复杂,这导致demo演示中成功率非常低。尤其是这个开源程序只会使用firefox浏览器。

具体操作步骤如下(以下均在Mac环境)

1、下载并安装NodeJS环境:https://nodejs.org/en/download/prebuilt-installer

Computer Use超详细小白教程

2、打开终端,按顺序输入下面的4条命令

git clone https://github.com/302team/302-agent.exe

下载软件包

cd 302-agent.exe

进入软件包

npm install

进行安装

ANTHROPIC_API_KEY="sk-xxxx" npm start

3、输入API KEY,在302后台生成,以sk开头。之后每次运行只需要运行第二步和最后一步。

Computer Use超详细小白教程

此时应该会看到一个Agent.exe

Computer Use超详细小白教程

第一次打开会需要授予比较多的权限,授予后即可使用。此时就可以使用了

Computer Use超详细小白教程

成功案例:

最后来看下通过302.AI生成的Demo,(以下demo为了方便观看,作了倍速处理):

1、搜索信息:当发送指令:“打开浏览器,搜索AI相关新闻”后,可以看到AI打开了一个网页浏览器,并在搜索引擎输入了关键词“AI新闻”,随后打开了一篇AI相关的新闻报道,最后还在对话框对搜索结果做了简单的总结:

Computer Use超详细小白教程

2、玩游戏:当发送指令:“打开浏览器,进入五子棋页面,并开始游戏”,AI就会一步步找到提供的五子棋游戏网址,并点击开始游戏后,自己开始玩游戏:

Computer Use超详细小白教程

3、内容抓取:可以让它直接进入网页“302.ai”,并总结网页内容反馈到对话框中:

Computer Use超详细小白教程

4、AI和AI对话:在上一个demo的基础上,还可以一步步引导,最后实现利用computer use让ai和ai对话:

Computer Use超详细小白教程

失败案例:

1、数值计算:输入指令让它用计算器计算10000+1000时,计算器中得出的结果是200,原因大概率是重复点击的时候,丢失了点击。而AI模型识别到了这一错误,在对话框中输出了正确结果:11000,但这个属于作弊了。以此类推,遇到重复点击的情况,AI很有可能会出现错误,而在生产环境中,重复性的输入和点击是非常常见的。Computer Use超详细小白教程

2、信息查找:输入的指令是:打开浏览器,进入网页”302.ai”,点击价格页面,我想要使用图片放大功能,价格是多少?

在前几步,有正确的打开价格表,但是在最后查询价格的时候,出现了幻觉,答案是

Computer Use超详细小白教程

而大家都知道,302.AI是一个没有任何订阅的平台,只支持按需付费,这里完全是AI的幻觉,产生了虚假信息,对人进行了误导。

Computer Use超详细小白教程

现在存在的问题

虽然在Anthropic发布Computer Use功能后,众多博主纷纷夸大其词地赞扬这一功能,但是经过302的实测,发现存在了三个主要的问题:

1、速度慢:做一步想一步,基本都要间隔10-20s,效率极低,不知Claude未来是否可以实现提前规划几步?

2、错误率高:拿计算器作为例子,让它计算10000+1000,可能会少打几个0;而且对于复杂流程,容易错乱和产生幻觉。

3、费用高:每次操作都要截屏回传进行分析,且都是几千上万的token消耗;

总的来说,慢,错,贵是三个大问题,慢和贵可以通过端侧大模型解决,但错误率的话,Claude作为最强的模型,错误率都如此之高,可想而知端侧大模型更是困难,所以在现阶段是不可能三角都兼得的。

在现阶段,Computer Use这一功能其实并没有任何实际性生产力,仅可以作为一个Demo展示。但是随着时间的发展,这个功能一定会越来越好用,从15%的操作成功率(Anthropic官方数据),直到超越人类的操作成功率。

对未来的展望

最后再展望下Computer Use的未来,RPA一直是生产环境的一个刚需,Anthropic今天正式打开了AI-RPA的序幕。未来大概率会出现完全为了操作电脑而训练的端侧模型,云端模型仅仅做一次大的路径规划,其余全部交给端侧模型去处理,端侧模型可以对一些小的错误进行判断和重试,无需云端模型参与,简单理解就是有点类似自动驾驶,云端模型计算导航路线,本地模型进行驾驶。

Like (1)
302.AI302.AI
Previous 2024 年 10 月 23 日 下午6:55
Next 2024 年 10 月 28 日 下午3:52

相关推荐

  • 用AI PPT工具高效制作PPT,告别传统繁琐的PPT制作方式

    在快节奏的数字化时代,信息的传递和交流变得日益频繁且重要,而PPT作为一种经典的演示文具,成为了产品展示、分析报告等领域的标配。然而,传统的PPT制作方式往往繁琐且不容易把握运用,但随着AI技术的发展,AI PPT工具出现了,它革新了PPT的制作方式,为用户带来了前所未有的便捷体验。 今天小编就给大家介绍一款从大纲到PPT生成,全方位智能化、个性化和高效化的…

    2024 年 10 月 10 日
    25400
  • 当动漫里的家变成现实会是怎么样?AI帮你复刻动漫里的梦中情屋

    不知道你是曾经幻想过,那些你所钟爱的动漫角色们居住的家,倘若在现实世界中重现,那会是怎样的呢? 前段时间,歌手黄雅莉的庭院设计和温馨氛围与经典动画《蜡笔小新》中野原新之助家的院子出奇地相似,这一发现在网上引发了热烈讨论。众多网友纷纷表示,这种设计让人感到“温馨舒适”,并且“渴望拥有”。以下是网友制作的对比图,一起来看一下: 在快节奏的现代社会中,越来越多的人…

    2024 年 9 月 23 日
    16900
  • 用AI打造治愈系视频账号,如何实现高效制作治愈系视频?

    近年来,治愈系视频凭借一帧帧温柔的画面,抚慰着一个个疲惫的心灵。 不知道你有没有偶然间刷到过这样的视频:画面中,置身在某一处温馨的室内,窗外伴随着一片细雨绵绵,或是飘洒的雪花更或者是一阵阵轻柔的风。比如像这样的: 其实,在这个快节奏、高压的现代社会里,现代人的工作与生活的压力都非常大,时常会感到疲惫和迷茫,而以上这类治愈系视频,就像是一股清流,能够短暂冲刷掉…

    2024 年 9 月 10 日
    31300
  • 最近爆火的AI播客工具,302.AI竟然开源了!

    最近,随着NotebookLM的爆火,AI播客生成领域迎来了前所未有的热闹。 AI播客生成的兴起并不是偶然的,在信息爆炸的时代,用户往往会被海量的内容所淹没,很难去有效筛选和吸收有价值的内容,从而导致时间和精力的浪费。 而AI播客的出现改变了这一现状,比如曾经需要用3小时的时间才能通读一篇长论文才能提炼有效的关键信息,现在只需要3分钟,获取信息的过程也不再受…

    2024 年 10 月 29 日
    14000
  • 火爆全网的汉语新解prompt,如何快速设置到不同模型?文末附完整prompt

    近日,一段汉语新解prompt在网络上爆火,它凭借着犀利的文笔和对汉语一针见血的解释,吸引了众多用户的关注。 汉语新解prompt是由李继刚设计的用于启发AI模型进行创意性文本生成的指令模板,这一prompt的设计初衷是为了让AI能够以一种独特的方式解析和重新诠释常见的中文词汇,从而产生出具有深刻洞察力和幽默感的文本内容。 在推出之始,这段prompt是专门…

    2024 年 9 月 14 日
    40900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注