统计数据等于理解吗?人工智能有道德指南针吗?从表面上看,这两个问题似乎同样异想天开,答案也同样显而易见。随着人工智能炒作的反响;然而,这些类型的问题似乎必然会被一次又一次地问到。最先进的研究有助于探索。
几十年前,AI研究人员基本上放弃了构建计算机来模仿我们极其灵活的人类智能的探索,转而创建有用的(即有利可图的)算法。尽管有这种可以理解的弯路,但一些AI爱好者将他们的创作标榜为真正的智能,GaryN.Smith在MindMatters上写道。
史密斯是波莫纳学院的弗莱彻琼斯经济学教授。他在金融市场、统计推理和人工智能方面的研究,经常涉及股市异常、统计谬误和数据滥用等问题,被广泛引用。他还是许多AI书籍的获奖作者。
在他的文章中,Smith着手探索大型语言模型(LLM)可能在多大程度上逼近真实智能。LLM的想法很简单:使用大量人类产生的知识数据集来训练机器学习算法,目标是生成模拟人类如何使用语言的模型。
有一些著名的LLM,例如Google的BERT,它是最早广泛使用且性能卓越的LLM之一。尽管BERT是在2018年推出的,但它已经是标志性的了。介绍BERT的出版物在2022年被引用次数接近40K,BERT带动了众多下游应用以及后续研发。
BERT在被认为是LLM的核心方面:参数数量方面已经远远落后于其后继者。这代表了每个LLM所体现的复杂性,目前AI专家的想法似乎是模型越大,即参数越多,它的性能就越好。
与之前拥有110亿个参数的T5-XXL模型相比,谷歌最新的SwitchTransformerLLM可扩展多达1.6万亿个参数,并将训练时间缩短多达7倍,且准确度相当。
OpenAI是GPT-2和GPT-3LLM的制造商,它们被用作商业应用程序的基础,例如通过API撰写文案以及与Microsoft合作,他们对LLM进行了广泛的研究。研究结果表明,影响模型规模的三个关键因素是模型参数的数量(N)、数据集的大小(D)和计算能力的大小(C)。
有专门设计用于测试LLM在自然语言理解方面的表现的基准,例如GLUE、SuperGLUE、SQuAD和CNN/DailyMail。谷歌发表的研究表明,在这些基准测试中,T5-XXL与人类相当或优于人类。我们不知道开关变压器LLM有类似的结果。
但是,我们可以合理地假设SwitchTransformer正在为LaMDA提供支持,LaMDA是Google的“突破性对话技术”,又名聊天机器人,目前尚未向公众开放。BlaiseAguerayArcas,谷歌在西雅图的AI小组负责人,认为“统计数据确实等同于理解”,并引用了与LaMDA的一些交流作为证据。
这是史密斯开始探索该声明是否站得住脚的起点。这不是史密斯第一次这样做。按照GaryMarcus和其他深度学习评论家的思路,Smith声称LLM在某些条件下可能会产生看似合理的结果,但当出现人类很容易理解的输入时就会崩溃。
史密斯声称,这是因为法学硕士并不真正理解问题或不知道他们在说什么。2022年1月,史密斯报告使用GPT-3来说明统计不等于理解的事实。2022年3月,史密斯试图再次进行他的实验,这是由于OpenAI承认雇用40名承包商来手动满足GPT-3的答案这一事实引发的。
一月份,史密斯尝试了一些问题,每个问题都产生了一些“令人困惑和矛盾”的答案。3月,GPT-3连贯而明智地回答了每一个问题,每次都给出了相同的答案。然而,当Smith尝试新的问题和变体时,他发现OpenAI的承包商正在幕后工作以修复出现的故障。
这促使Smith将GPT-3比作MechanicalTurk,这是一种建于18世纪的国际象棋自动机,其中一位国际象棋大师巧妙地隐藏在机柜内。尽管一些LLM支持者认为,在某些时候,LLM的庞大规模可能会产生真正的智慧,但Smith离题了。
史密斯写道,GPT-3非常像一位优秀魔术师的表演。我们可以暂时搁置怀疑,认为这是真正的魔法。或者,即使我们知道这只是幻觉,我们也可以享受表演。
人工智能语言模型有道德指南针吗?
缺乏常识性理解以及由此产生的令人困惑和矛盾的结果构成了LLM众所周知的缺点——但还有更多。法学硕士提出了一系列伦理问题,其中最突出的问题围绕着培训和使用它们对环境的影响,以及这些模型所表现出的偏见和毒性。
迄今为止,在这场正在进行的公开对话中,最引人注目的事件可能是谷歌道德人工智能团队负责人TimnitGebru和MargaretMitchell的终止/辞职。Gebru和Mitchell在2020年试图发表记录这些问题并提出问题的研究时在谷歌面临审查。
然而,尽管有伦理意义,但也有实际意义。为商业目的而创建的LLM应该符合他们所服务的受众的规范和道德标准,这样才能取得成功。例如,制作因其语言而被认为不可接受的营销副本会限制LLM的适用性。