ChatGPT王炸升级！能看、能听、能说，人类硅基时代即将来临？

chatGpt在线2024-05-05 03:19:38335

先做个广告：如需代注册ChatGPT或充值 GPT4.0会员（plus），请添加站长微信：gptchongzhi

推荐使用GPT中文版,国内可直接访问：https://ai.gpt86.top

作者 | 天行君

千呼万唤始出来，ChatGPT王炸升级！能看、能听、能说，正式支持多模态！

人类奇点时刻真的就要来了么？

北京时间9月25日，OpenAI正式官宣ChatGPT升级多模态。

更新一、图像理解能力

升级多模态的GPT3.5与GPT4可以分析理解图片中的信息，基于图片内容进行回答。

更新二、听说能力

语音识别用的是OpenAI的Whisper模型，语音合成使用全新的AI模型，只需要几秒钟的样本音频与文本，就能合成相差无几的音频。

按照计划，OpenAI将在未来两周时间里向付费用户推送这项功能。

还记得吗？在今年3月GPT-4的发布会上，最令人感到震惊的一幕。

OpenAI总裁Greg Brockman拿着一张草稿纸画了个草图，随手拍了张照就让GPT-4在10秒钟时间里生成了这个网站的代码。

文本、图像、语音实时交互，AI理解语音和图像，所见即所得，现在真的可以梦想成真了！

语音还好说，因为本质上还是TTS的技术，让文本和语音之间互相转化。

照官方意思，以后你和老婆吵架再吵不赢的话，可以直接把ChatGPT拍到桌子上，让它代替你来吵架~

用来给小孩讲睡前故事那更不在话下。

但读取图像这个能力就有点逆天了，它不是那种以图搜图的传统模式，而是用OCR技术去真的识别用户发出来的图片，哪怕这个图片是用户现拍的、没有在网上出现过，ChatGPT也能做出理解并调用大模型进行回应。

这个视频是一个实录，拍了自行车的照片问ChatGPT怎么调整自行车座椅高度，你们可以感受一下什么叫恐怖如斯。

我在自己的ChatGPT上测试，真的是被这个逆天能力惊吓到了，我感觉是在和一个真人聊天，而不是机器。

先丢了张自行车的图片给它，问如何把座椅调低。