47. 特别实测｜从「它」到《Her》，浅析ChatGPT最新语音模式如何假装爱你

订阅我们： Apple Podcasts | Android | 泛用及国内平台

拿到ChatGPT最新语音模式的内测资格，让我们比初次接触文字模式还要兴奋。在我们看来，人类交流远非简单的文字转语音那么浅显。文字作为人类最为概括、理性、结构化的沟通方式，ChatGPT处理起来其实并不难。

相比之下，语音交流触及了人类沟通最直接、最未经修饰的形式。它不仅包含语言本身，还蕴含更多微妙元素。说话者的语气、音量变化、停顿节奏等非语言因素，都能为交流增添丰富的层次和意义。正是这些细微而复杂的特质，使得语音模式更能体现人与人之间沟通的本质，这也让我们格外期待。

本次评测，我们会竭力避开ChatGPT可以「借力文字」而无法体现语音交流本质的方法，来看看它是否可以达到《Her》中斯嘉丽的智能程度。

我们尝试测试ChatGPT在英语学习、中国方言（粤语、沪语）、多角色对话（音色）、音乐识别与创作、人类情感识别与表达、创意生成六个方面的表现。节目中，我们使用真实录音最大还原ChatGPT的现场表现，以及我们的主/客观评价。

英语作为全球最广泛使用的语言，也是ChatGPT背后的最大语料库，我们自然要看看它的「主场」表现。ChatGPT作为一个可以完全暴露语言缺陷的绝佳练习伙伴，是目前最合适的AI语音落地场景。所以，我们首先测试了英语学习场景。

感受完国际范儿，我们好奇ChatGPT是否可以理解我们的日常方言，尤其是以南方语系为代表的变调方言。我们主要测试了粤、沪两种方言。这两种语言都保留了古汉语中「入声」迹象，且包含一些需要了解当地文化、历史才能更好理解的概念。所以，我们接着测试了方言识别场景。

人与人之间沟通的前提是什么？是语义的准确性？还是附带的人类情感？但在讨论这些之前，我们更要知道「谁在和我们说话」。想象一个原始人小孩，听到熟悉父母和陌生人的声音时，谁会对他产生更大影响？从进化论角度，听谁的话对他更有利？同样一句话，不同的人说出来，你的感受也不一样，因为份量和情感不同。所以，我们关心ChatGPT是否可以识别音色，知道它在和谁对话。

AI音乐并不新鲜，比如Suno（一款AI音乐制作工具），但现在看来，更像是一个危机。从乐理角度看，人类使用的和弦、旋律走向等编曲特性趋同性严重，有人甚至怀疑，未来会不会有旋律写尽的一天。所以，抱着不让人类音乐向无聊、枯燥方向演进的幻想，我们想看看ChatGPT能否识别旋律，并与我们共同创作。

情感测试是我们最期待的环节。语言作为信息载体，帮助我们建立合作纽带。但为什么我们还会言不由衷、词不达意？是语言天生多义？还是语言承载着更微妙的东西？ChatGPT能否听出我们的言外之意，如讽刺、愤怒、离别的不舍，以及它是否会像人一样情绪失控。所以，我们在测试中不断让ChatGPT面临冲突升级，看它是否会为了保护「妻子和孩子」，突破系统提示词限制，做出意料之外的情感行为。

ChatGPT的最大特点是回复及时，你一梳理好想法，答案就瞬间生成。但我们不行，因为我们要消化、理解并回复对话。所以，这次我们选择让Claude帮忙，让它与ChatGPT魔法对轰，双方接替回答，看几轮对话之内能否创作出精彩故事。

更多语音测试相关信息，可查看OpenAI官方报告：GPT-4o System Card

时间轴：

00:04:44 英语学习新革命？ChatGPT展现出比多邻国等App更灵活、更符合用户习惯的语言学习模式。
00:08:12 方言识别的惊喜与尴尬：完美驾驭粤语,却在上海话前「洋泾浜」？
00:16:40 多角色对话ChatGPT变「音盲」:能模仿多种角色，但无法真正理解「谁在说话」，《Her》男主破防也和这有关？
00:37:21 音乐创作是「禁区」：ChatGPT对音乐相关内容强烈拒绝，主播苦苦哀求，竟也不为所动？
00:46:59 情感表达「套公式」：如果ChatGPT把人类复杂情感量化为数学方程，过于相似却又不够真实，往往会引发人类不适
00:56:03 创意生成「大对决」：ChatGPT VS Claude，魔法对轰之下，ChatGPT论为「捧哏角色」？
01:01:03 总体评价
01:10:36 彩蛋

主持：

王隐

敬礼

Playlist：

London Symphony Orchestra & Valery Gergiev – Boléro

联系我们：

你可以通过邮件向我们反馈节目中的问题和建议： hi@webview.tech

微博：@WEB VIEW播客

我们的网站： webview.tech

47. 特别实测｜从「它」到《Her》，浅析ChatGPT最新语音模式如何假装爱你

时间轴：

主持：

Playlist：

联系我们：

发表评论 取消回复

发表评论取消回复