山东高速环球融资租赁客户服务电话
2024-01-06 14:25:48
山东高速环球融资租赁客服电话【点击查看】人工客服电话:【点击查看】工作时间是:上午9:00-晚上21:00。处理还款,协商还款,提前还款各方面问题等相关问题
谷歌竟然(ran)“造假”?我们测了一下(xia)……,Gemini,视频,演示
7日凌晨,谷歌YouTube官方(fang)账号发布(bu)的一个名为“与Gemini亲密互动:与多模态(tai)AI交互”的视频引(yin)发了网友围观(guan),一天之内寓目次数达到140万次。
这(zhe)个视频之所以能吸引(yin)这(zhe)么多眼光,是因为它展示了谷歌史上最强Gemini多模态(tai)模型在交互方(fang)面令人印象深刻的表现。
在这(zhe)段时长6分22秒(miao)的视频中,Gemini对输出的语(yu)音、图像(xiang)等提(ti)示做出了天真、流畅的响应和理解,显现出强大的多模态(tai)理解和交互能力。
然(ran)而,据科技媒体TechCrunch最新报道,有(you)用户(hu)仔细研究该视频后,发现Gemini的惊(jing)艳表现几乎都是“伪造”的。
视频中Gemini对画面的描述、对玩具识别和发问(wen)的回(hui)答(da)等互动都是人为设置的,视频跳过了部份提(ti)示以及模型的推(tui)理过程,给观(guan)众(zhong)营(ying)造一种Gemini智能又敏捷的假象。
此外,Gemini第一波用户(hu)反馈也没有(you)太好,见闻君测试后和网友的反馈一样:没有(you)如(ru)GPT。
Gemini大概没有(you)那末智能
Gemini在视频中展示了多种交互技能,好比识别玩具鸭、跟(gen)踪杯子戏法中的球、识别手势、重排星球递(di)次等。
好比,在第一个演示中,Gemini识别了一个鸭子素描从一条线到完备画面的演化过程。当演示者将鸭子素描填满蓝色颜料时,Gemini指出鸭子通常是棕色、白色或黑色的,没有(you)会是蓝色的。
然(ran)后,当Gemini看(kan)到一个蓝色玩具鸭时,它惊(jing)讶地说道:"这(zhe)是什么玩意!"接上去(qu)它回(hui)答(da)了关于这(zhe)个玩具鸭的各(ge)种语(yu)音发问(wen)。
整段视频中,Gemini的反应都很(hen)快,回(hui)答(da)纵(zong)享丝滑,但问(wen)题在于,它的反应没有(you)够真实。
媒体通过捕捉素材来(lai)测试Gemini在各(ge)种场景(jing)下(xia)的反应能力,重新制作了一个演示视频。然(ran)后,用视频素材中的静(jing)态(tai)画面框提(ti)示Gemini,并通过文字输出进行提(ti)示。
结果显示, Gemini确实具备视频中展示的某些能力,但并没有(you)真正(zheng)如(ru)视频所示的那样快速(su)、流畅地完成全部互动任务。
但据TechCrunch称,视频中展示的交互效果,其实并没有(you)是真实的即时交互,而是事前设置好的。
视频用的是一系列(lie)特地准备的文本提(ti)示,以及配套的静(jing)态(tai)图片,通过遴选和剪裁这(zhe)些预设素材,制作成真实交互的效果。
这(zhe)样做其实是为了误导观(guan)众(zhong),让人们置信视频中展示的是Gemini真实的即时交互能力。但很(hen)大概的是,Gemini在交互速(su)率、准确性等方(fang)面均没有(you)视频中展示的那样强大。
视频和文档展示的提(ti)示,差别很(hen)大
值得注重的是,当TechCrunch比拟视频和谷歌发布(bu)的文档演示时,发现两者的提(ti)示存(cun)在差异。
好比,在视频的2点45分处(chu),一只手做出了一系列(lie)手势,没有(you)配合(he)语(yu)音提(ti)示。Gemini很(hen)快回(hui)应道:“我晓得你在做什么!你在玩石(shi)头、铰(jiao)剪、布(bu)!”

但谷歌的Gemini能力文档一开始就明白指出,该模型没有(you)能通过识别单(dan)个手势来(lai)推(tui)理,提(ti)示必需同时展示悉数3个手势,并给提(ti)示词“这(zhe)是什么游(you)戏”,只有(you)这(zhe)样它才能识别出“石(shi)头、铰(jiao)剪、布(bu)”。

所以视频中的表现完全没有(you)符合(he)文档所述的提(ti)示限(xian)定(ding),没法展示出Gemini的真正(zheng)识别能力。
另(ling)外,Gemini识别星球递(di)次的场景(jing)也大概具有(you)欺(qi)骗性。
演示者展示了贴有(you)太阳、土星和地球涂鸦的便利(li)贴,询问(wen)Gemini行星递(di)次是否正(zheng)确,Gemini给出了正(zheng)确的太阳、地球、土星递(di)次。
但文档显示真实的提(ti)示是,“这(zhe)是正(zheng)确的递(di)次吗?思考离太阳的距离并解释你的推(tui)理”。

这(zhe)两种交互感(gan)觉上完全没有(you)同,视频演示看(kan)起来(lai)像(xiang)智能的实时评估,而在真实的交互中,Gemini必要暗示性很(hen)强的提(ti)示。
另(ling)外,在追踪杯子中纸团的演示中,也出现了没有(you)同于文档记录的提(ti)示的情况。
值得注重的是,若是一开始视频就明白表示“这(zhe)是对我们研究职员测试过的交互的艺术化呈现”,大家都没有(you)会有(you)异议,因为这(zhe)类视频本来(lai)就兼具事实和理想色彩。
但是这(zhe)个视频叫做“与Gemini亲密互动”,并标(biao)榜是 “我们最喜欢的交互”,这(zhe)实际就是说,视频中的交互就是真实交互的意思,但实际上并没有(you)是。
谷歌甚至没有(you)说明,视频中展示的模型是已经面市的Gemini Pro版本,还是预计明年发布(bu)的 Gemini Ultra。
Gemini第一波用户(hu)反馈出来(lai)了:没有(you)太好!
现在,Gemini的“精简版”Gemini Pro已经登(deng)陆谷歌AI谈天机器(qi)人Bard(仅限(xian)英文版)。根据测试过的用户(hu)在X上的反馈,效果似乎没有(you)那末理想,在基本事实、数学问(wen)题、生成新闻摘(zhai)要等方(fang)面的表现可以说得上拉胯,甚至没有(you)如(ru)已经发布(bu)一年多的GPT-3.5.
好比,一名用户(hu)向Gemini询问(wen),谁是2023年的奥斯卡最佳男(nan)主角,得到的是布(bu)兰登(deng)·格里森(Brendan Gleeson)这(zhe)个错误的回(hui)答(da),没有(you)是真实的获奖(jiang)者布(bu)兰登(deng)·弗雷泽(Brendan Fraser)。

明明完全具备访问(wen)互联网的能力,但Gemini连奥斯卡得主这(zhe)一随手谷歌一下(xia)就晓得的基本事实都出错,着实耐人寻味。
更离谱的是,Techcrunch记者向Gemini提(ti)出了同样的问(wen)题,它给出了没有(you)同的错误答(da)案:奥斯汀·巴特勒(Austin Butler)。

并且,如(ru)上图所示,Gemini在其他奖(jiang)项(xiang)上也是一通胡编(bian)乱造。
获得95届奥斯卡最佳纪录片奖(jiang)的电影是《纳瓦尔尼》,而非《全部的优美与血泪》,获得最佳国际影片奖(jiang)的是《西线无战事》,但Gemini给出的答(da)案也是《全部的优美与血泪》......
此外,科幻小说作家Charlie Stross也在最近发布(bu)的一篇博(bo)文中发现了更多的错误,Gemini Pro还会编(bian)造其他信息,好比说称Stross自己为开辟Linux内核做出了贡献,但实际上他从未到场过和Linux内核有(you)关的项(xiang)目。
Techcrunch记者又请求Gemini给出一个6个字母的法语(yu)单(dan)词,但Gemini的回(hui)答(da)有(you)7个字母。

没有(you)过,必要指出的是,华尔街(jie)见闻此前文章强调过,涉及控制字符数量(liang)的场景(jing)一向是AI的弱项(xiang),这(zhe)是由于生成式AI面前的技术是上下(xia)文展望,基础(chu)是token而非字符。
华尔街(jie)见闻给ChatGPT下(xia)达了同样的任务,后者也给出了一个包含7个字母的错误答(da)案。

在总结新闻方(fang)面,Gemini的表现似乎过度审慎了——审慎到影响了基本的利(li)用体验。
以下(xia)图,一名X用户(hu)仅仅是请求它列(lie)出巴以冲(chong)突的最新情况,并没有(you)请求Gemini做出评判,但Gemini却告诉用户(hu):
要没有(you)你本身家上谷歌搜一下(xia)吧。
要没有(you)你本身家上谷歌搜一下(xia)吧。

华尔街(jie)见闻尝试了同样的问(wen)题,也得到了一样的建议:本身去(qu)搜吧!

相比之下(xia),ChatGPT则给出了一个附有(you)引(yin)文的列(lie)表式新闻摘(zhai)要:

没有(you)过,风趣的是,当记者发问(wen)Gemini关于俄乌冲(chong)突的最新音讯(xun)时,Gemini却没有(you)躲避,而是生成了一份新闻摘(zhai)要。但这(zhe)些信息已经过时一个多月了。

那末,写代码(ma)的能力呢?这(zhe)可是AI对人类生产力提(ti)升最大的枢纽应用范畴之一。
但X用户(hu)的反馈表明,固然(ran)Gemini在写代码(ma)方(fang)面比之前版本的Bard有(you)所改进,但Gemini的基础(chu)代码(ma)能力异常一般,甚至没有(you)如(ru)比它早得多的ChatGPT。

另(ling)一名X用户(hu)测试用AI生成一个小游(you)戏的代码(ma),结果ChatGPT第一次尝试就写出了代码(ma),而Gemini必要3次。
总结一下(xia),网友测试的反馈大概就是——没有(you)如(ru)GPT。
当然(ran),现在能上手利(li)用的Gemini Pro并没有(you)是 Gemini 性能最强的版本,最强的Gemini Ultra要比及明年某个时候才会在谷歌 Bard 和其他产物中推(tui)出,谷歌Gemini Pro对标(biao)的是比它早一代的GPT-3.5。
显然(ran),Gemini Pro还有(you)很(hen)大的前进空间。而最强的Ultra是没有(you)是像(xiang)谷歌演示的那样神乎其神?要比及明年才能见分晓了。
2024见闻历金融圈必备新年好礼
点击下(xia)方(fang)图片,马上抢购