ChatGPT王炸升级!能看、能听、能说,人类硅基时代即将来临?

chatGpt在线2024-05-05 03:19:38120

作者 | 天行君



千呼万唤始出来,ChatGPT王炸升级!能看、能听、能说,正式支持多模态! 


人类奇点时刻真的就要来了么?


北京时间9月25日,OpenAI正式官宣ChatGPT升级多模态。


更新一、图像理解能力 


升级多模态的GPT3.5与GPT4可以分析理解图片中的信息,基于图片内容进行回答。 


更新二、听说能力 


语音识别用的是OpenAI的Whisper模型,语音合成使用全新的AI模型,只需要几秒钟的样本音频与文本,就能合成相差无几的音频。


按照计划,OpenAI将在未来两周时间里向付费用户推送这项功能。


还记得吗?在今年3月GPT-4的发布会上,最令人感到震惊的一幕。


OpenAI总裁Greg Brockman拿着一张草稿纸画了个草图,随手拍了张照就让GPT-4在10秒钟时间里生成了这个网站的代码。



文本、图像、语音实时交互,AI理解语音和图像,所见即所得,现在真的可以梦想成真了!


语音还好说,因为本质上还是TTS的技术,让文本和语音之间互相转化。


照官方意思,以后你和老婆吵架再吵不赢的话,可以直接把ChatGPT拍到桌子上,让它代替你来吵架~


用来给小孩讲睡前故事那更不在话下。


但读取图像这个能力就有点逆天了,它不是那种以图搜图的传统模式,而是用OCR技术去真的识别用户发出来的图片,哪怕这个图片是用户现拍的、没有在网上出现过,ChatGPT也能做出理解并调用大模型进行回应。

这个视频是一个实录,拍了自行车的照片问ChatGPT怎么调整自行车座椅高度,你们可以感受一下什么叫恐怖如斯。



我在自己的ChatGPT上测试,真的是被这个逆天能力惊吓到了,我感觉是在和一个真人聊天,而不是机器。


先丢了张自行车的图片给它,问如何把座椅调低。



可以看到ChatGPT通过python调用图像读取能力解析并回复。



然后提供了通用的调整方法,并让我给出细节图片提供具体建议。



然后根据我上传的细节图片解析并提供了更具体明确的操作方案。



这个样子,那我们以后可以拍一张冰箱的照片,然后让ChatGPT来推荐菜谱在旅行时拍摄一张地标的照片,让ChatGPT来做导游讲述这处景点;也能拍一张数学题的照片,让ChatGPT来解答。


患有乐高玩具密集恐惧症的爸妈也终于可以解放了,拍个照片丢给GPT去教孩子拼装就好了。


对了,根据OpenAI的说法,这个多模态版本在10个月前就训练好了,之前一直藏着,即便如此,现在出牌依然是几个代差的领先地位。


照这样的发展速度,以后还有什么ChatGPT做不到的吗?AI的边界在哪里?人类的未来在哪里?


要不人类进程按个快进键直接跳到硅基时代吧,我等不及了!




-END-


↓往期精彩文章,点击阅读↓


“刘德华为在,不怕没柴烧”,让刘德华去华为发布会,这是哪个天才脑瓜想的主意?!


库克懵了?印度产的iPhone15,全球都不要,只供中国?


说好的华为Mate60呢?为什么还是苹果iPhone15?越骂越贵,越骂越抢?




一 叶 知  秋  一  隅 观 局

/ 点击👆千千微语👇关注我,加星标 /



你点的每个在看,我都认真当成了喜欢


本文链接:https://www.joeyce.com/chatgpt/193.html

相关文章

网友评论