【GPT-4多模态评测】超强识图能力,从此训练集打标就交给ChatGPT了

chatGpt在线2024-05-05 20:03:34113

前言

GPT-4的识图能力有点惊喜,准确度比SD的反推模型好多了哈哈,语义理解能力很强,以后打标工作可以交给GPT了,自己只需要最后微调一遍就行了,接下来请看各种测试案例截图


DALL·E 3 案例识图分析

     经典小女孩和摊贩街景

先放官方描述和案例图,然后再放GPT识别结果对比,下方案例也是相同节奏~

官方描述:一条繁忙的城市街道,在满月的照耀下闪闪发光。人行道上熙熙攘攘的行人在享受夜生活,在街角的小摊上,一个留着火红头发的年轻女子,身穿标志性的天鹅绒斗篷,正在与脾气坏坏的老摊贩讨价还价。那个脾气坏坏的摊贩是一位高大、精致的男士,穿着一套利落的西装,留着一抹引人注目的胡子,他正在兴致勃勃地使用着他的蒸汽朋克电话进行交谈。


     鳄梨心理咨询

一幅插图,一个鳄梨坐在心理医生的椅子上,说着'我只是觉得内心空虚',中间有一个果核大小的洞。而治疗师,一把匙,正在匆匆记录着笔记。


     科幻心脏

一幅插图,是一个由半透明玻璃制成的人类心脏,矗立在汹涌的海洋中的基座上。阳光穿透云层照亮了心脏,揭示出其中微小的宇宙。地平线上以粗体字刻着引言:“在你内心找到宇宙。”


     秋叶乐队

一部二维动画,展现了一个由拟人化的秋叶组成的民谣乐队,每个叶子都演奏着传统的蓝草乐器,在一个充满乡村氛围的森林背景中,柔和的收获月光洒在其中。


     肉山风景画

一幅广袤的风景画,完全由各种肉类构成,展现在观众面前。嫩滑多汁的烤牛肉山丘、鸡腿树、培根河流和火腿巨石创造出一个超现实但令人垂涎的场景。天空装点着辣香肠太阳和萨拉米云朵。


     咖啡中的惊涛骇浪

暴风雨天气下放在窗台上的咖啡杯的3D渲染图。窗外的风暴在咖啡中反射,杯子里可以看到微型闪电和湍流。房间灯光昏暗,增添了戏剧性的气氛

     土豆国王

小小的马铃薯国王戴着雄伟的王冠,坐在宝座上,监督着他们庞大的马铃薯王国,里面充满了马铃薯臣民和马铃薯城堡

     香蕉沙发

一张充满活力的黄色香蕉形状的沙发坐在一个舒适的客厅中,它的曲线托起一堆五颜六色的靠垫。在木地板上,一块有图案的地毯增添了些许怪异的魅力,而一个盆栽植物坐落在角落里,朝向透过窗户射进来的阳光伸展。

【GPT-4多模态评测】超强识图能力,从此训练集打标就交给ChatGPT了


     多图一起识别

多图一起识别会相对简化描述,还是单独识别的效果最好感觉。


拓展案例识图分析

     设计类图片识图分析


总结

以上就是GPT-4的识图能力啦~以后打标工作可以交给GPT,配合插件自动打标几千张不是梦,道友们可以一试~
希望本期评测对大家有所帮助~更多教程敬请期待下期更新!
有想学习Stable Diffusion道友可以看一下我之前写的Stable Diffusion学习应用指南,用8000+字60+图回答了为什么要学Stable Diffusion,怎么学Stable Diffusion,学了Stable Diffusion怎么应用落地等几个问题,值得新手一看:

【AIGC】超完整的Stable Diffusion 学习应用指南(8月最新版)


最后提一下,想有一个一起学习Stable Diffusion的社群和氛围的,可以加入 Stable Diffusion 炼丹阁 群聊和道友们一起交流丹道奥秘,比如 讨论药材的选取与火候的控制,成丹的评估方案等等~ 仙途漫漫,携手同行哈哈哈

本文链接:https://www.joeyce.com/chatgpt/196.html

相关文章

网友评论