
众所周知,生成式人工智能(AI)容易出现事实错误。那么,当您要求ChatGPT生成150个假定事实,并且不想花费整个周末的时间手工确认每个事实时,您该怎么办呢?
对我来说,我求助于其他人工智能。在本文中,我将解释这个项目,考虑每个AI在事实核查摊牌中的表现,并提供一些最后的想法和注意事项,如果您也想冒险进入这个错综复杂的小通道,它们都是一样的。
上周,我们发布了一个非常有趣的项目,我们让DALL-E 3在ChatGPT中运行,生成50张它认为代表美国每个州的风景如画的图像。我还让ChatGPT列出了“关于这个州你知道的三个最有趣的事实”。正如我的编辑在文章标题中所说,结果是“非常奇怪”。
ChatGPT把金门大桥放在加拿大的某个地方。该工具将自由女神放置在美国中西部和曼哈顿岛的某个地方。它产生了两座帝国大厦。简而言之,ChatGPT得到了它的抽象表现主义,但结果非常酷。
至于个别的事实,他们大多是正确的。我对美国的地理和历史很熟悉,并且认为ChatGPT生成的事实中很少有明显的错误。但我没有做任何独立的事实核查。我只是把结果看了一遍,说它们足够好。
但如果我们真的想知道这150个事实子弹的准确性呢?这类问题似乎是人工智能的理想项目。
事情是这样的。如果GPT-4 (ChatGPT Plus使用的OpenAI大型语言模型(LLM))生成事实陈述,我并不完全相信它应该检查它们。这就像要求高中生在不使用任何参考文献的情况下写一篇历史论文,然后自我纠正他们的工作。他们已经开始提供可疑信息了,你还让他们自己纠正?不,我觉得不太对劲。
但如果我们将这些事实提供给其他人工智能中的其他法学硕士呢?谷歌的巴德和Anthropic的克劳德都有自己的法学硕士学位。必应使用GPT-4,但我想我应该测试一下它的反应,以达到完善的目的。
正如您将看到的,我从Bard那里得到了最好的反馈,所以我将它的反馈以一种颠倒宇宙自然秩序的循环方式反馈给ChatGPT。这是一个很酷的项目。
Claude使用Claude 2 LLM,这也在Notion的AI实现中使用。克劳德允许我给它提供一份包含全部事实(不含图片)的PDF文件。这是我得到的结果:
总的来说,克劳德发现事实列表基本上是准确的,但它确实有三个项目的一些澄清。我限制了ChatGPT事实的长度,这个限制抑制了事实描述中的细微差别。克劳德的事实核查对这种缺乏细微差别的说法提出了质疑。
总的来说,这是一个令人鼓舞的回应。
然后是微软的Copilot,即更名为必应聊天的人工智能。Copilot不允许上传pdf文件,所以我试着把所有50个州的事实都粘贴进去。这种方法很快就失败了,因为Copilot只接受最多2000个字符的提示:
我问副驾驶如下问题:
这是我得到的结果:
它几乎重复了我要求它检查的事实数据。所以,我试着用一个更有力的提示来引导它:
它又一次把我要求它验证的数据给了我。我发现这个输出非常奇怪,因为Copilot使用与ChatGPT相同的LLM。显然,微软对它的调整与ChatGPT不同。
我放弃了,转投巴德。
谷歌刚刚宣布了他们的新双子座法学硕士。我还不能使用Gemini,所以我在谷歌的PaLM 2机型上进行了这些测试。
与《克劳德》和《副驾驶员》相比,巴德的作品更出色,或者用莎士比亚的话说,它“像巨人一样跨越了狭窄的世界”。
以下是调查结果:
重要的是要注意,许多州的事实甚至没有得到各州的一致同意,或者存在细微差别。在下一节中我将向您展示,我将这个列表反馈给ChatGPT,它在阿拉斯加和俄亥俄州的答案中发现了两个差异。
但这里还有其他失误。在某种程度上,巴德对这项任务补偿过度了。例如,巴德正确地指出,除了缅因州以外,其他州也生产龙虾。但缅因州全力投入龙虾生产。我从来没有去过另一个州,它把微型龙虾陷阱作为最受欢迎的旅游陷阱饰品之一。
或者我们选内华达州和51区。ChatGPT说:“绝密军事基地,谣传有不明飞行物目击。”巴德试图纠正,他说:“51区不仅仅是有UFO目击的传闻。这是一个真正的绝密军事设施,其目的不得而知。”他们说的几乎是一样的。巴德只是忽略了严格字数限制所带来的细微差别。
巴德在没有理解上下文的情况下选择ChatGPT的另一个地方是明尼苏达州。是的,威斯康辛州也有很多湖泊。但巴德并没有说明尼苏达州拥有最多的湖泊。它只是将明尼苏达州描述为“万湖之州”,这是明尼苏达州最常见的口号之一。
巴德也被堪萨斯的事缠住了。ChatGPT表示,堪萨斯州是“美国本土地理中心的所在地”。巴德声称是南达科他州。如果你把阿拉斯加和夏威夷也算进去,那就对了。但ChatGPT说的是“连续”,这个荣誉属于堪萨斯州黎巴嫩附近的一个点。
我可以继续讲下去,下一节我会讲到,但是你们明白了。巴德的事实核查似乎令人印象深刻,但它经常偏离重点,和其他人工智能一样出错。
在我们继续讨论ChatGPT对巴德的事实检查的有限事实检查之前,让我指出巴德的大多数条目要么是错误的,要么是错误的。然而,谷歌把它的人工智能答案放在大多数搜索结果的前面。你担心吗?这确实让我担心。
先生们,女士们,这样的奇事,简直是不值一提。
从一开始,我就能看出巴德搞错了一个事实——阿拉斯加比德克萨斯州大得多。所以,我想,让我们看看ChatGPT是否可以核查巴德的事实核查。有那么一刻,我认为这种人工智能的尾巴追逐可能会把月球撞出地球轨道,但后来我决定冒整个宇宙结构的风险,因为我知道你会想知道发生了什么:
以下是我提供给ChatGPT的内容:
以下是ChatGPT所说的(为了清楚起见,月球确实仍在轨道上):
正如你所看到的,ChatGPT对巴德错误地声称德克萨斯是最大的州提出了质疑。它还对俄亥俄州和堪萨斯州作为航空的诞生而感到有点兴奋,这比大多数学校教授的争议更大。
人们普遍认为威尔伯和奥维尔·赖特驾驶了第一架飞机(实际上是在北卡罗来纳州的基蒂霍克),尽管他们在俄亥俄州的代顿建造了他们的莱特飞行器。也就是说,来自新西兰、英国、法国、德国和美国其他地区的乔治·凯利爵士(1804年)、亨利·吉福德(1852年)、范姆·邓波姆(1874年)、克莱姆·阿德(1890年)、奥托·李林塔尔(1891年)、塞缪尔·兰利(1896年)、古斯塔夫·怀特黑德(1901年)和理查德·皮尔斯(1902年)都有理由声称自己是第一个飞行的人。
但我们还是把重点交给ChatGPT,因为它只有10个词来发表声明,而俄亥俄州是莱特兄弟开自行车店的地方。
让我们先澄清一点:如果你要提交一篇论文或一份文件,你需要你的事实是正确的,那就自己做事实核查。否则,你在德克萨斯的雄心壮志可能会被阿拉斯加的问题淹没。
正如我们在测试中看到的那样,结果(与Bard一样)看起来非常令人印象深刻,但却完全或部分错误。总的来说,让不同的人工智能相互交叉检查是很有趣的,这是一个我可能会进一步探索的过程,但结果只是决定性的,它们是多么的不确定。
副驾驶完全放弃了,只是要求继续小睡。克劳德对几个答案的细微差别提出了异议。巴德给出了大量的答案,但显然,不仅人类会犯错,人工智能也会犯错。
最后,我必须引用真正的吟游诗人的话:“困惑现在已经成就了他的杰作!”
你觉得呢?你最喜欢的人工智能有哪些令人震惊的错误?你是否满足于相信人工智能的事实,还是现在你会自己进行事实核查?请在下面的评论中告诉我们。
你可以在社交媒体上关注我每天的项目更新。一定要订阅我在Substack上的每周更新时事通讯,并在Twitter上关注我@DavidGewirtz,在Facebook上关注我Facebook.com/DavidGewirtz,在Instagram上关注我Instagram.com/DavidGewirtz,在YouTube上关注我YouTube.com/DavidGewirtzTV。
2025-10-15 20:32:02
2025-07-17 10:41:22
2025-07-17 10:38:16
2025-07-17 10:34:29
2025-07-17 10:32:07
2025-07-17 10:28:18
2025-07-17 10:26:00
2025-07-17 10:22:26
发表评论