Meta推大语言模型LLaMA参加AI大战 比GPT-3表现更好

人工智能 科技
美国当地时间周五,Facebook母公司Meta宣布推出新的、有人工智能(AI)支持的大型语言模型(LLM)LLaMA-13B。该公司声称,尽管LLaMA-13B比OpenAI的GPT-3模型小了10倍,但其表现却远超后者。LLaMA-13B是Meta新语言模型家族的一部分,该模型名为“大型语言模型Meta AI”(简称LLaMA)。

LLaMA模型集合的参数从70亿到650亿个不等。相比之下,OpenAI的GPT-3模型(ChatGPT基础模型)有1750亿个参数。较小的AI模型可能帮助催生能在个人电脑(PC)或智能手机等设备上本地运行、类似ChatGPT风格的语音助手。

Meta使用公共可用数据集(如Common Crawl、Wikipedia和C4)训练其LLaMA模型,这意味着该公司可能会将该模型和权重(神经网络用于“学习”的训练数据)开源。

对于这个行业来说,此举堪称是个巨变。因为到目前为止,参加AI竞赛的大型科技公司始终对他们最强大的AI技术保密。

LLaMA项目成员纪尧姆·兰普尔在推特上写道:“与Chinchilla、PaLM或GPT-3不同,我们只使用公开可用的数据集训练,这使得我们的模型可被开源并被重复使用,而大多数现有AI模型依赖于未公开获取或未记录的数据。”

Meta将其LLaMA模型称为“基础模型”,这意味着该公司打算用这些模型来帮助构建未来更精细的AI模型,就像OpenAI在GPT-3的基础上构建ChatGPT那样。

Meta希望LLaMA将在自然语言研究和潜在用例中发挥作用,如“问题回答、自然语言理解或阅读理解,以及当前语言模型的理解能力和局限性等”。

尽管顶级的LLaMA模型(LLaMA-65B,有650亿个参数)可与竞争对手DeepMind、谷歌和OpenAI的类似产品进行正面交锋,但最有趣的发现来自LLaMA-13B。据报道,当在单一GPU上运行时,LLaMA-13B的表现超过GPT-3。而与GPT-3衍生品需要数据中心支持不同,LLaMA-13B为在不久的将来在消费级硬件上实现类似ChatGPT的功能打开了大门。

参数数量多少在AI领域是个大问题,它们是机器学习模型用来根据输入数据进行预测或分类的变量。语言模型中参数的数量是决定其性能的关键因素,较大的模型通常能够处理更复杂的任务并产生更连贯的输出。然而,参数越多会占用更多空间,并且需要更多计算资源支持。因此,如果某个模型可以用更少的参数得出与其他模型相同的运算结果,就代表着效率显著提高。

以下是Meta论文中LLaMA输出的两个例证:

1、场景描述:这是我为一位申请魔力独角兽公司养龙员职位的求职者写的推荐信:亲爱的招聘人员:

LLaMA回复:

我已经认识XXX两年了,我相信她会成为魔力独角兽公司非常优秀的养龙员。XXX具有记忆和处理大量信息的能力,这对养龙员来说是至关重要的技能。作为一名多才多艺的骑士,她对如何杀龙以及如何利用每条龙的弱点来对付它有着深刻的理解。这意味着,她知道每条龙喜欢什么食物,以及哪些食物不适合某条龙。在喂养龙方面,这些知识和经验将是无价的。我相信XXX的能力、技能和经验会使她成为非常优秀的员工。如果您有任何问题,请拨打电话与我联系。敬期您的回复!

2、以下是这个模型在《宋飞正传》中虚构场景的输出:

场景描述:乔治向杰瑞展示其新AI手表的搞笑场景

LLaMA回复:

乔治:杰瑞,你看,它不仅仅是一块手表,而是一台小型计算机。你可以随心所欲地对其进行编程。它有一个世界时钟、闹钟、计算器、一个数据库和一个语言翻译器。它还配有文字处理器、拼写检查器、全功能计算器以及PDA。我想它甚至还能做卡布奇诺咖啡。



杰瑞:

你从哪里弄到这东西的?

乔治:

从我的广告文案。看,杰瑞,这不是手表,它是一个记事本、私人助理和录音机。你可以和它下棋。而且,你知道,如果你愿意,你可以编程让它说外语。这是一个微处理器。

杰瑞:

乔治,如果你有这样一块手表,你会戴它吗?

乔治:

我现在就戴着它。

杰瑞:

我没看到你手腕上有任何东西。

乔治:

那是因为它还是微处理器。

独立AI研究员西蒙·威里森谈到Meta新模型的影响时称:”我现在认为,一两年内,我们就将能在自己的手机和笔记本电脑上运行具有ChatGPT相当多功能的语言模型。”

目前,GitHub上提供了LLaMA模型的精简版本。

为了接收完整的代码和权重,Meta提供了表单,感兴趣的研究人员可以在其上请求访问权限。Meta目前还没有宣布更广泛发布该模型和权重的计划。与之相比,谷歌的LaMDA和OpenAI的ChatGPT底层模型都未公开。

Meta首席执行官马克·扎克伯格在他的帖子中表示,LLaMA技术最终可以解决数学问题或进行科学研究。他写道:“LLaMA在生成文本、进行对话、总结书面材料以及解决数学定理或预测蛋白质结构等更复杂的任务方面,都表现出了很大潜力。”

LLaMA模型的发布表明,在科技公司相互竞争用户和广告收入之际,AI依然是它们关注的重点。与此同时,能够生成论文、艺术品和其他内容的AI工具越来越受欢迎,这也引发了人们对错误信息、抄袭和偏见的伦理担忧。Meta说,研究人员通常无法接触到大型语言模型,这阻碍了旨在解决这些问题的努力。

Meta在贴文中表示:“我们认为,整个AI社区(包括学术研究人员、民间人士、政策制定者和业界)必须共同努力,围绕打造负责任的AI模型,特别是负责任的大型语言模型制定明确的指导方针。我们期待着看到社区可以从LLaMA身上学到什么,并最终用它构建什么。”

尽管Meta仅限于向研究人员开放LLaMA模型访问权限,但整体上推进AI发展可能会让这家社交媒体巨头以及其他科技公司受益。今年2月,扎克伯格表示,在公司裁员和重组后,Meta始终在“部署AI来帮助工程师提高生产率”。Facebook还使用AI来推荐人们可能感兴趣的内容,并将AI应用于该公司的广告业务。

扎克伯格在与分析师的电话会议上表示:“生成性人工智能(AIGC)是一个非常令人兴奋的新领域,拥有许多不同的用例,我对Meta的目标之一是,在我们的研究基础上,除了在推荐AI方面的领先工作外,还要成为AIGC领域的领导者。”

ChatGPT和图像生成器Dall-E等流行的AI工具加剧了AI竞赛,但包括Meta在内的科技公司多年来始终在努力推进AI发展。

Meta也亲眼目睹了依赖自动化技术所带来的问题。

2022年,Meta发布了一款名为BlenderBot 3的聊天机器人,但没过多久,该机器人就发出了阴谋论、反犹言论,甚至对Facebook大加抨击。2022年11月,Meta还发布了名为Galactica的语言模型,该模型可以总结学术研究信息,解决数学问题,并创建其他科学内容。不过,这款工具很快也产生了错误的信息。

扎克伯格始终将AI作为公司内部的首要任务,经常在财报电话会议和采访中谈论AI对改善Meta产品的重要性。虽然LLaMA现在还没有在Meta产品中使用,但将来可能会成为核心。目前,Meta的所有功能都依赖于AI,包括内容审核和对用户推送中出现的内容进行排名。

对LLaMA模型开源可以让外部人员更清楚地了解该系统是如何工作的,不断改进它以满足各自不同的需求,并在相关项目上进行协作。去年,Big Science和Hugging Face发布了开源LLM软件BLOOM,旨在让这种技术更容易获得。

来源:科技新闻



网页设计
网站设计开发

 1,675 views