巴德是谷歌对人工智能爆炸迅速成为本世纪最具颠覆性技术的回应。生成式 AI 聊天机器人正在改变我们与技术互动的方式,科技巨头正争先恐后地分一杯羹。

可以公平地说,Google Bard 的第一次迭代并没有受到冷遇。然而,这是一项快速发展的技术,谷歌在 2023 年谷歌 I/O 大会上宣布了一系列更新。

让我们在对比 Google Bard 与 ChatGPT 时看看这些改进的表现如何。

两者都依赖大型语言模型 (LLM) 来生成“类人”响应。

这个复杂主题的简单定义是 LLM 是设计用于执行自然语言处理 (NLP) 任务的机器学习模型。

Google Bard 和 ChatGPT 在不同的 LLM 上运行:

让我们看看这两个模型的实际应用并分析它们的性能。

为了测试这些工具,我们设计了一个练习来比较它们在各种指标上的表现。但 Google Bard 与 ChatGPT 正面交锋的第一步必须是让工具在你的机器上运行。

这两种工具的注册都很简单,尽管谷歌巴德国家限制很不方便。但是,使用 VPN 可以规避这些限制。

两个聊天机器人都很快指出,他们的回答的准确性不应该只看表面价值。通过向 Google Bard 询问一个不应该有任何问题的简单问题证明了这一点:“Google Bard 使用的是什么大型语言模型?”

如您所见,这是一个过时的回复,证明了应始终仔细检查回复准确性的声明。但其他一些最近的更新在响应中也很明显。

首先是暗模式的加入,这在第一次迭代中被省略了。第二个是包含一个 Google it 按钮和建议的后续问题。

这些都是对该工具的欢迎更新。

现在让我们看看它与免费版的 ChatGPT 相比如何。我们向这两种工具提出了一个简单的问题:“有多少球迷参加了 2022 年卡塔尔世界杯?”

Google Bard 的回复为我们提供了精确的数字并添加了一些其他的出勤统计数据。

ChatGPT 无法提供最新信息。

接下来,我们尝试在非主题数据上进行测试。我们要求两个聊天机器人回答这个问题:“开车到太阳需要多长时间?”

首先是谷歌吟游诗人;它回答了一些全面的细节。

我们对 ChatGPT 的回应感到非常失望。这应该被认为是一个假设问题,其结果只需要一些基本的算术。

为了给 ChatGPT 第二次机会,我们改写了问题并问:“我以 65mph 的速度到达太阳需要多长时间?”

这次它确实产生了一些有意义的数字,但它把这个数字四舍五入到 150 万小时,导致答复之间相差八年。然而,这种差异可能是由于地球和太阳之间的距离造成的。

过时的信息是免费 ChatGPT 版本的一个已知问题。因此,让我们稍微平衡一下竞争环境,并通过针对更高级的 GPT-4 LLM 测试 Bard 来测试 Google Bard 与 ChatGPT 的准确性。

为了测试它们,我们提出了一个简单的问题,该问题依赖于主题数据以获得准确的答桉:“谁是 Twitter 的新 CEO,她的历史是什么?”

首先是谷歌巴德。它正确地报道了 Linda Yaccarino 已被任命为 CEO,并准确地总结了她迄今为止的职业生涯。

尽管为缺乏细节而道歉,但 ChatGPT 的高级版本同样令人印象深刻。但是,值得重申的是,如果您使用的是 ChatGPT 免费版,这个问题会被一脸茫然!

在比较 Google Bard 与 ChatGPT 的准确性时,与 ChatGPT 免费版相比,Bard 表现更好。如果您使用的是 ChatGPT 的高级版本,则它们之间的区别并不大。然而,与任何聊天机器人一样,在确定结果的准确性时需要少许盐。

测试这些工具的创意输出质量比较棘手。没有可以直接比较的创造力滑动尺度。因此,我们将设置相同的创意任务,并对答桉的比较情况做出个人判断。

我们要求这两种工具以 William McGonagall(一位以烂诗闻名的苏格兰诗人)风格创作一首关于聊天机器人的短诗。

Google Bard 的原始版本给了我们这个:

与下面的 ChatGPT-3.5 答桉相比,这是平澹无奇的。

虽然这不是一个广泛的测试,但这个例子展示了我们发现的总体情况——ChatGPT 比 Google Bard 更擅长创造性任务。

至少,早期版本的 Bard 就是这种情况,这是我们用于原始测试的。新的 Google Bard 在更大的文本数据集上进行训练,谷歌表示这将赋予它更多的创造力。为了对此进行测试,我们要求它创作同一首诗:

如前所述,衡量创造力是一种判断,但对我们来说,与 ChatGPT 的努力相比,这首新诗仍然不足。 ChatGPT 似乎在创造力方面仍具有优势。但是 ChatGPT-4 呢?让我们对同一首诗进行勐烈抨击,看看高级版本如何比较。

再次,

在我看来,

ChatGPT 是个好去处,

说到创意!

为工具提供支持的不同 LLM 是工具执行方式的基础。它们是测试响应差异的关键原因,每个都有自己的优点和缺点。在它们之间进行选择将更多地取决于用户意图而不是用户偏好。

一些决定性因素包括:

总而言之,如果您正在寻求与其他 Google 服务的准确性和简化集成,那么 Google Bard 是更好的选择。它在界面方面也优于 ChatGPT,增加了 Google it 按钮和来源引用,使其成为更好的全能包。

Bard 提供的集成在这里至关重要,Gmail 拥有 18 亿用户,在聊天机器人之间进行选择时,此功能将成为许多人的主要吸引力。

这些工具在不同领域都表现出色,适用于商业和实际用途,毫无疑问,Google Bard 是最佳选择。但是,我们仍然发现 ChatGPT 在创造性任务中占据优势。而且,虽然比较笨拙,但有一些应用程序和扩展程序可以导出 ChatGPT 聊天记录。这确实稍微否定了 Bard 在集成方面的优势。

Google Bard 是免费的,ChatGPT 也有免费版本,所以测试这两种工具都很容易。

这两个平台都有很多粗糙的边缘,这是可以预料的。这是一项新技术,两者都是现场测试程序在公开场合出错的例子。硬币的另一面是,如此广泛的使用及其产生的反馈将加速这两种模型的发展。 Bard 添加的大量新功能充分证明了这一点。

我们正处于一场技术革命的开端,这场革命的破坏性如此之大,尽管有很多猜测,但其许多影响仍有待确定。但毫无疑问,像 Bard 和 ChatGPT 这样的工具将改变我们工作、休息和娱乐的方式。