我与巴德、克劳德和副驾驶核实了ChatGPT的事实——这个人工智能最肯定是错误的-陌自动

　　众所周知，生成式人工智能(AI)容易出现事实错误。那么，当您要求ChatGPT生成150个假定事实，并且不想花费整个周末的时间手工确认每个事实时，您该怎么办呢?

　　对我来说，我求助于其他人工智能。在本文中，我将解释这个项目，考虑每个AI在事实核查摊牌中的表现，并提供一些最后的想法和注意事项，如果您也想冒险进入这个错综复杂的小通道，它们都是一样的。

　　上周，我们发布了一个非常有趣的项目，我们让DALL-E 3在ChatGPT中运行，生成50张它认为代表美国每个州的风景如画的图像。我还让ChatGPT列出了“关于这个州你知道的三个最有趣的事实”。正如我的编辑在文章标题中所说，结果是“非常奇怪”。

　　ChatGPT把金门大桥放在加拿大的某个地方。该工具将自由女神放置在美国中西部和曼哈顿岛的某个地方。它产生了两座帝国大厦。简而言之，ChatGPT得到了它的抽象表现主义，但结果非常酷。

　　至于个别的事实，他们大多是正确的。我对美国的地理和历史很熟悉，并且认为ChatGPT生成的事实中很少有明显的错误。但我没有做任何独立的事实核查。我只是把结果看了一遍，说它们足够好。

　　但如果我们真的想知道这150个事实子弹的准确性呢?这类问题似乎是人工智能的理想项目。

　　事情是这样的。如果GPT-4 (ChatGPT Plus使用的OpenAI大型语言模型(LLM))生成事实陈述，我并不完全相信它应该检查它们。这就像要求高中生在不使用任何参考文献的情况下写一篇历史论文，然后自我纠正他们的工作。他们已经开始提供可疑信息了，你还让他们自己纠正?不，我觉得不太对劲。

　　但如果我们将这些事实提供给其他人工智能中的其他法学硕士呢?谷歌的巴德和Anthropic的克劳德都有自己的法学硕士学位。必应使用GPT-4，但我想我应该测试一下它的反应，以达到完善的目的。

　　正如您将看到的，我从Bard那里得到了最好的反馈，所以我将它的反馈以一种颠倒宇宙自然秩序的循环方式反馈给ChatGPT。这是一个很酷的项目。

　　Claude使用Claude 2 LLM，这也在Notion的AI实现中使用。克劳德允许我给它提供一份包含全部事实(不含图片)的PDF文件。这是我得到的结果:

　　总的来说，克劳德发现事实列表基本上是准确的，但它确实有三个项目的一些澄清。我限制了ChatGPT事实的长度，这个限制抑制了事实描述中的细微差别。克劳德的事实核查对这种缺乏细微差别的说法提出了质疑。

　　然后是微软的Copilot，即更名为必应聊天的人工智能。Copilot不允许上传pdf文件，所以我试着把所有50个州的事实都粘贴进去。这种方法很快就失败了，因为Copilot只接受最多2000个字符的提示:

　　它几乎重复了我要求它检查的事实数据。所以，我试着用一个更有力的提示来引导它:

　　它又一次把我要求它验证的数据给了我。我发现这个输出非常奇怪，因为Copilot使用与ChatGPT相同的LLM。显然，微软对它的调整与ChatGPT不同。

　　谷歌刚刚宣布了他们的新双子座法学硕士。我还不能使用Gemini，所以我在谷歌的PaLM 2机型上进行了这些测试。

　　与《克劳德》和《副驾驶员》相比，巴德的作品更出色，或者用莎士比亚的话说，它“像巨人一样跨越了狭窄的世界”。

　　重要的是要注意，许多州的事实甚至没有得到各州的一致同意，或者存在细微差别。在下一节中我将向您展示，我将这个列表反馈给ChatGPT，它在阿拉斯加和俄亥俄州的答案中发现了两个差异。

　　但这里还有其他失误。在某种程度上，巴德对这项任务补偿过度了。例如，巴德正确地指出，除了缅因州以外，其他州也生产龙虾。但缅因州全力投入龙虾生产。我从来没有去过另一个州，它把微型龙虾陷阱作为最受欢迎的旅游陷阱饰品之一。

　　或者我们选内华达州和51区。ChatGPT说:“绝密军事基地，谣传有不明飞行物目击。”巴德试图纠正，他说:“51区不仅仅是有UFO目击的传闻。这是一个真正的绝密军事设施，其目的不得而知。”他们说的几乎是一样的。巴德只是忽略了严格字数限制所带来的细微差别。

　　巴德在没有理解上下文的情况下选择ChatGPT的另一个地方是明尼苏达州。是的，威斯康辛州也有很多湖泊。但巴德并没有说明尼苏达州拥有最多的湖泊。它只是将明尼苏达州描述为“万湖之州”，这是明尼苏达州最常见的口号之一。

　　巴德也被堪萨斯的事缠住了。ChatGPT表示，堪萨斯州是“美国本土地理中心的所在地”。巴德声称是南达科他州。如果你把阿拉斯加和夏威夷也算进去，那就对了。但ChatGPT说的是“连续”，这个荣誉属于堪萨斯州黎巴嫩附近的一个点。

　　我可以继续讲下去，下一节我会讲到，但是你们明白了。巴德的事实核查似乎令人印象深刻，但它经常偏离重点，和其他人工智能一样出错。

　　在我们继续讨论ChatGPT对巴德的事实检查的有限事实检查之前，让我指出巴德的大多数条目要么是错误的，要么是错误的。然而，谷歌把它的人工智能答案放在大多数搜索结果的前面。你担心吗?这确实让我担心。

　　从一开始，我就能看出巴德搞错了一个事实——阿拉斯加比德克萨斯州大得多。所以，我想，让我们看看ChatGPT是否可以核查巴德的事实核查。有那么一刻，我认为这种人工智能的尾巴追逐可能会把月球撞出地球轨道，但后来我决定冒整个宇宙结构的风险，因为我知道你会想知道发生了什么:

　　以下是ChatGPT所说的(为了清楚起见，月球确实仍在轨道上):

　　正如你所看到的，ChatGPT对巴德错误地声称德克萨斯是最大的州提出了质疑。它还对俄亥俄州和堪萨斯州作为航空的诞生而感到有点兴奋，这比大多数学校教授的争议更大。

　　人们普遍认为威尔伯和奥维尔·赖特驾驶了第一架飞机(实际上是在北卡罗来纳州的基蒂霍克)，尽管他们在俄亥俄州的代顿建造了他们的莱特飞行器。也就是说，来自新西兰、英国、法国、德国和美国其他地区的乔治·凯利爵士(1804年)、亨利·吉福德(1852年)、范姆·邓波姆(1874年)、克莱姆·阿德(1890年)、奥托·李林塔尔(1891年)、塞缪尔·兰利(1896年)、古斯塔夫·怀特黑德(1901年)和理查德·皮尔斯(1902年)都有理由声称自己是第一个飞行的人。

　　但我们还是把重点交给ChatGPT，因为它只有10个词来发表声明，而俄亥俄州是莱特兄弟开自行车店的地方。

　　让我们先澄清一点:如果你要提交一篇论文或一份文件，你需要你的事实是正确的，那就自己做事实核查。否则，你在德克萨斯的雄心壮志可能会被阿拉斯加的问题淹没。

　　正如我们在测试中看到的那样，结果(与Bard一样)看起来非常令人印象深刻，但却完全或部分错误。总的来说，让不同的人工智能相互交叉检查是很有趣的，这是一个我可能会进一步探索的过程，但结果只是决定性的，它们是多么的不确定。

　　副驾驶完全放弃了，只是要求继续小睡。克劳德对几个答案的细微差别提出了异议。巴德给出了大量的答案，但显然，不仅人类会犯错，人工智能也会犯错。

　　最后，我必须引用真正的吟游诗人的话:“困惑现在已经成就了他的杰作!”

　　你觉得呢?你最喜欢的人工智能有哪些令人震惊的错误?你是否满足于相信人工智能的事实，还是现在你会自己进行事实核查?请在下面的评论中告诉我们。

　　你可以在社交媒体上关注我每天的项目更新。一定要订阅我在Substack上的每周更新时事通讯，并在Twitter上关注我@DavidGewirtz，在Facebook上关注我Facebook.com/DavidGewirtz，在Instagram上关注我Instagram.com/DavidGewirtz，在YouTube上关注我YouTube.com/DavidGewirtzTV。