实测智谱新上线的GLM4.6V,我Gemini 3 Pro的用量焦虑消失了

2026-03-23
实测智谱新上线的GLM4.6V,我Gemini 3 Pro的用量焦虑消失了 关注 作者 关注 作者 关注 作者 关注 作者 2025/12/10 09:33

狗大户Google还是把口袋收紧了,

AI Studio上免费用户已经不能用Gemini 2.5 Pro和Gemini 3 Pro了,连最基础的Gemini 2.5 Flash也被砍到每天只能用20次(笑容消失)。 华人影视xiaobaotv.video

我平时用2.5 Flash跑的工作流全挂了,急需一个价格合适,能看中长视频,能理解复杂图片,得能啃得动几百页文档的模型顶上来。 pragmaticplay a5game.app

所以我跟智谱新上线的GLM-4.6V一拍即合,

PS,GLM-4.6V(106B-A12B)和 GLM-4.6V-Flash(9B)都开源了 nba比分 a5game.app

图片

从结果上看,GLM-4.6V 表现跟 Qwen3-VL-235B 持平,这个新系列也会同步智谱的Coding Plan里,API的调用价格比 GLM-4.5V 降价 50% plataformademográtis a5game.app

那就看看它可以完成多少类Gemini3级的多模态任务,这次测试包括前端复刻、图片信息提取、学术分析、长图文写作和视频理解。 ifun yfsp.app

还是一样,提示语和生成效果都打包好放在文档里了,后台回复“4.6v”就好了 爱壹帆yfsp.app

先来做前端复刻好了,

我直接截取某书的界面,把这张图片甩给了GLM-4.6V复刻 一帆yfsp.app 爱壹帆寻秦记yfsp.app

Image

GLM-4.6V的反应很快。 pgslot a5game.app 海外华人视频网xiaobaotv.video

生成的代码识别了网页的布局结构,还原了CSS样式,图片的部分用了占位符,没有选择截图原图模糊局部。

所以我追加了一个更刁钻的需求,根据每个帖子的主题搜索合适的图片素材填入代码里, iyifanyfsp.app fortuneoxdemográtis a5game.app

Image

GLM-4.6V找图还找挺准的,那也不能只复刻UI吧,交互我也想复刻下来 寻秦记爱壹帆yfsp.app

所以我把点开帖子后的详情页也发过去了,照样是按键,评论,视频进度条等都实现了。 爱壹帆影视yfsp.app a5game a5game.app

图片

GLM-4.6V的表现蛮不错的,

它没有胡堆div,也可以给出自己搜索后的图片,多轮对话叠加交互,给出了干净利落的修改方案。

搞定了代码,再来做些枯燥的能丢给AI就绝不自己动手的多模态信息处理。

我在一次对话里丢给了它手写表格,发票和手写简历的混合数据。

提示语也是复合的, 爱一帆 yfsp.app 小宝影院在线视频xiaobaotv.video

识别图中的表格,并以HTML格式输出,识别图中的印章,不同字段分开,并以JSON格式输出,识别图中的文字,并以Markdown格式输出。 电影小宝影院xiaobaotv.video

图片

这其实是一个非常考验模型Grounding,也就是定位能力的任务。传统的OCR往往只能把字读出来,但不知道字在哪,也不知道字之间的关系。 sugarrush1000demo a5game.app 爱壹帆国际版 yfsp.app

wxv_4287775108300980224

GLM-4.6V有原生多模态的优势,

输出结果里,表格被完美还原成了HTML,行列对齐,数据无误。 免费在线影院xiaobaotv.video

印章识别里没有把印章里的字混成一团, 小宝影院电影xiaobaotv.video

而是精准地将印章单位、名称,税号等分成了不同的Key-Value键值对,封装在JSON里。

这种结构化的输出能力,也就是说后续我可以直接把GLM4.6V接入到MCP,实现自动化录入。 爱壹帆电影 yfsp.app 足球比分 a5game.app

Image

OK,难度升级!

进入深水区,学术研究与复杂文档分析。 爱亦凡yfsp.app

我找来了两篇论文,要求它结合这两篇论文的图表对比前后有什么不同, JogodoTigrinho a5game.app tigrinhodemo a5game.app tigrinho gratis a5game.app xiaobao xiaobaotv.video

对比一下Transformer和xLSTM模型的异同,并思考和阐述改进xLSTM的优化思路。 jogosdemopg a5game.app

ImageImage

GLM-4.6V的分析结果是直接带论文细节截图的,

表格,架构图,论文引用都可以识别下来的。 aiyifan yfsp.app

Image

我还让它干了一件有趣的事, pg a5game.app demotigrinho a5game.app

根据论文,写一个图文并茂的微信公众号推送来介绍这篇文章,要夸张一点。 sweetbonanza1000demo a5game.app

wxv_4287775923773898763

它立刻切换了人格,从学者变成了自媒体, slotsdemo a5game.app

提取了论文的核心亮点,配上了夸张的标题,甚至还从原始文档中截取了关键图片,嵌入到文章的合适位置。

那GLM-4.6V单次可以阅读多长的文档呢? 爱壹帆免费版yfsp.app fortunetigerbônusgrátissemdepósito a5game.app

为了测试GLM-4.6V的文档理解能力,我直接甩给它一份长达114页的文档,那是巴菲特历年的持仓报告。我的问题是故意为难它的,

在2015年至2017年期间,巴菲特的前五大持仓股中,哪只股票的年度回报率波动最大,即最高回报率与最低回报率差距最大?该股票在2017年的回报率是多少? 小寶影院xiaobaotv.video

wxv_4287777217297612810

典型的大海捞针任务, fortunetigerdemográtis a5game.app

模型需要遍历长文档,提取三年的数据,进行计算比对,最后锁定目标。

Image

我是做了反复验证的,真的在90页找到了对应的表,验算之后跟GLM-4.6V算的也一样。 爱壹帆电影yfsp.app slotpix a5game.app

Image

最后,模型对动态画面的理解同样至关重要。 iyftvyfsp.app pragmatic a5game.app

我给它看了一段视频,让它详细描述这个视频,而不是直接根据字幕给总结 Caça-níqueis a5game.app

wxv_4287778091726110729

7分钟的视频,一刀没剪,33s完成上传读取和结果输出,我还是下载到本地没有字幕文件的状态的。看得出来GLM-4.6V对长视频的理解也上了一个台阶。 plataformademo a5game.app slots a5game.app jogodotigrinhodemo a5game.app 小宝影院xiaobaotv.video

它能概括视频的主旨,还能捕捉到画面中一闪而过的关键信息,比如爬行动物隐喻的部分,以及不同动物类比的人物角色。这种能力在视频内容的自动审核及检索上照样很好用。 pgdemo a5game.app

测试完这一圈,我的心情是挺复杂的。 demo a5game.app

隔壁的OpenAI被Google的Gemini 3 Pro吓完了, 一帆视频yfsp.app pgslotgacor a5game.app sweetbonanza1000demo a5game.app

这两天急着要发GPT-5.2来救场。 ifuntvyfsp.app slotdemo a5game.app

指标传的太唬人了,全部指标都完胜,

结果被发现这图还是Banana2做的。。。

有这空不如学学智谱吧, 爱一番yfsp.app 电影爱壹帆yfsp.app

实打实做一个好用的模型。

模型应该是在解决问题,而不是制造用量焦虑。  ifvodyfsp.app fortunedragon demo a5game.app 小寶影院电影xiaobaotv.video

当硅谷们把使用门槛提高提高又提高的时候,  demo a5game.app Cassinos a5game.app

能有一个随叫随到真能干活的国产模型顶上来,  pglucky88 a5game.app

本身就是我们最大的底气。 

少了一分对被封号的担忧, iyf yfsp.app pgdemo a5game.app

多了一分对工作流的掌控,  demo a5game.app

这可能才是AI时代, 爱壹帆在线yfsp.app

我们最需要的技术护城河。 slot a5game.app

@ 作者 / 卡尔 Caça-níqueis a5game.app

00目录 0
    讨论 我来说一句 发布发表评论 发布0等 0 人为本文章充电 8年大厂大模型算法 & ΑI创业者|擅长数字人 & AI视频 & AI音乐 |创建 AI 学习体系 learnprompt, 社群破万 |持续输出 AI 前沿科技专业解读,关注我,让更多人成为AGI时代的领跑者 关注