公司部署自己的大型语言模型的五种方法

CIOAge
公司有几种部署LLM的方式,比如允许员工访问公共应用程序,使用Prompt工程和API将LLM嵌入现有软件,使用矢量数据库提高准确性和相关性,微调现有模型,或者构建自己的LLM。

GenAI是历史上发展最快的新技术,GenAI正在改变世界,改变我们创建图像和视频、音频、文本和代码的方式。

根据戴尔9月份对IT决策者的一项调查,76%的人表示,GenAI将对他们的公司产生“重大”影响,大多数人预计在未来12个月内将看到有意义的结果。

大型语言模型(LLM)是一种关注文本和代码而不是图像或音频的GenAI,尽管一些模型已经开始集成不同的形式。当今公司中最受欢迎的LLM是ChatGPT和其他OpenAI GPT模型,Anthropic的Claude,Meta的Llama 2,以及来自Abu Dhabi技术创新研究所的开源模型Falcon,该模型以支持英语以外的语言而闻名。

公司有几种部署LLM的方式,比如允许员工访问公共应用程序,使用Prompt工程和API将LLM嵌入现有软件,使用矢量数据库提高准确性和相关性,微调现有模型,或者构建自己的LLM。

部署公有LLM

Dig Security是一家以色列云数据安全公司,其工程师使用ChatGPT编写代码,首席执行官Dan Benjamin说:“每个工程师都会用东西来帮助他们更快地编写代码。”而ChatGPT是最早也是最简单的编码助手之一,但它有一个问题——你永远不能确定你上传的信息是否不会被用于培训下一代模型。Dig Security通过两种方式解决了这一可能性,首先,该公司使用安全网关来检查上传了哪些信息。

“我们的员工知道他们不能上传任何敏感的东西,”Benjamin说。“它被封住了。”

其次,该公司将其工程师输送到运行在Azure私有云上的ChatGPT版本,这意味着Dig Security拥有自己的独立ChatGPT实例。Benjamin说,即使用这种腰带和吊带的方法来确保安全,这也不是一个完美的解决方案。“没有完美的解决方案。任何认为存在的公司,都是在自欺欺人。

例如,某人可以使用VPN或个人计算机访问ChatGPT的公有版本,这就是另一种程度的风险缓解的用武之地。

“这一切都是关于员工培训,”他说,“并确保他们了解自己需要做什么,并在数据安全方面接受过良好的培训。”

Dig Security公司并不孤单。

加州SkyHigh Security公司营销总监Tracy Holden表示,2023年上半年,近100万最终用户通过公司基础设施访问了ChatGPT,用户数量在1-6月之间增长了1500%。

在Netskope Threat Labs 7月份的一份报告中,发布到ChatGPT的源代码比任何其他类型的敏感数据都多,每月每10000个企业用户发生158起事件。

最近,公司已经得到了更安全、更适合企业的选择,比如微软的Copilot,它将易用性与额外的控制和保护结合在一起。在11月初的OpenAI DevDay上,首席执行官Sam Altman表示,目前有1亿活跃用户在使用该公司的ChatGPT聊天机器人,200万开发者在使用其API,超过92%的财富500强公司都在使用OpenAI平台。

矢量数据库和RAG

对于大多数希望定制LLM的公司来说,检索增强生成(RAG)是可行的。如果有人在谈论嵌入或向量数据库,这就是他们通常的意思,它的工作方式是用户提出一个问题,比如说,关于公司的政策或产品,这个问题并不是马上就交给LLM的,相反,它首先被处理,用户是否有权访问该信息?如果有访问权,则通常从矢量数据库中检索所有可能相关的信息,然后,问题和相关信息被发送到LLM,并嵌入到优化提示中,该优化提示还可以指定LLM应该使用的回答和语气的优选格式。

矢量数据库是一种在一系列列表中组织信息的方式,每个列表都按不同的属性排序,例如,你可能有一个按字母顺序排列的列表,你的回复越接近字母顺序,它们就越相关。

按字母顺序排列的列表是一维向量数据库,但向量数据库可以有无限多个维度,使你可以根据它们与任意数量的因素的接近程度来搜索相关答案,这使得它们非常适合与LLM一起使用。

Salesloft是一家销售平台供应商,其首席产品和工程官Ellie Fields表示:“目前,我们正在将所有内容转换为矢量数据库。是的,它们正在发挥作用。”

而且,它比使用简单的文档为LLM查询提供上下文更有效,她说。

该公司主要使用ChromaDB,这是一个开源的矢量存储,主要用于LLM。Salesloft使用的另一个矢量数据库是PgVECTOR,这是针对PostgreSQL数据库的矢量相似性搜索扩展。

“但我们也用FAISS和Pinecone做了一些研究,”她说。FAISS,或Facebook AI Similarity Search,是Meta提供的一个开源库,支持多媒体文档中的相似性搜索。

Pinecone是一个专有的基于云的矢量数据库,也受到开发人员的欢迎,它的免费层支持多达10万个矢量。一旦从矢量数据库中检索到相关信息并嵌入到提示符中,查询就会被发送到在Microsoft Azure上的私有实例中运行的OpenAI。

“我们将Azure认证为我们平台上的新子处理器,”Fields说。“当我们为客户的信息配备了新的处理器时,我们总是让他们知道。”

但Salesloft也与谷歌和IBM合作,并正在开发也使用这些平台的GenAI功能。

“我们肯定会与不同的供应商和不同的模式合作,”她说。情况一周又一周在变化。如果你不看不同的车型,你就错失良机了。因此,RAG允许企业将他们的专有数据与模型本身分开,随着更好的模型的发布,更容易交换模型。此外,矢量数据库甚至可以实时更新,而不需要对模型进行更多的微调或重新训练。

“我们已经更换了模型,从OpenAI到Azure上的OpenAI,”Fields说,“我们已经在不同的OpenAI模型之间进行了切换,我们甚至可能针对我们的客户群的不同部分支持不同的型号。”

她补充说,有时不同的型号有不同的API。“这不是小事,”她说,但换掉一个模型仍然比再培训容易。“我们还没有找到一个用例来更好地服务于微调,而不是矢量数据库,”Fields补充道。“我相信有一些用例,但到目前为止,我们还没有找到性能更好的用例。”

Salesloft推出的LLM的首批应用之一是添加了一项功能,允许客户向潜在客户生成销售电子邮件。“客户花了很多时间来写这些电子邮件,”Fields说。“它很难开始,而且有很多作家的障碍。”因此,现在客户可以指定目标角色、他们的价值主张和行动号召-他们会收到三封可以个性化的不同草稿电子邮件。Fields说,Salesloft使用OpenAI的GPT 3.5撰写这封电子邮件。

本地运行的开源模型

总部位于波士顿的Ikigai Labs提供了一个平台,允许公司构建定制的大型图形模型,或设计用于处理结构化数据的人工智能模型,但为了使界面更易于使用,Ikigai在其前端安装了LLM,例如,该公司使用了Falcon开源LLM的70亿参数版本,并在自己的环境中为一些客户运行它。

为了向LLM提供信息,Ikigai使用了也在本地运行的矢量数据库,它建立在边界森林算法的基础上,联合创始人兼联合首席执行官Devavrat Shah说。

“四年前在麻省理工学院,我和我的一些学生尝试了大量的矢量数据库,”同时也是麻省理工学院人工智能教授的Shah说,“我知道它会有用的,但没这么有用。”

他表示,将模型和矢量数据库都保存在本地意味着数据不会泄露给第三方。“对于那些愿意向他人发送查询的客户,我们使用OpenAI,”Shah说。“我们是不可知论者。”

构建了自己的ChatPWC工具的普华永道,也是LLM不可知论者。“ChatPWC让我们的员工更有能力,”该公司合伙人、Gen AI Go-Market战略负责人Bret Greenstein说,例如,它包括用于生成职位描述的预置提示。“它有我所有的格式、模板和术语,”他说,“我们有人力资源、数据和提示专家,我们设计的东西能产生非常好的招聘信息。现在,没有人需要知道如何使用令人惊叹的提示语来生成职位描述。”

该工具是基于Microsoft Azure构建的,但该公司也为谷歌云平台和AWS构建了它。“我们必须为我们的客户服务,他们存在于每个云上,” Greenstein说。同样,它也进行了优化,在后端使用不同的型号,因为这是客户想要的。他补充说:“我们让每一种模式都能发挥作用。Llama 2,Falcon——我们什么都有。”

当然,市场变化很快,Greenstein建议企业对他们的人工智能部署采取“不后悔”的政策。

“人们可以做很多事情,”他说,“比如建立独立于模型的数据,以及建立治理。”然后,当市场发生变化,一种新的模式出现时,数据和治理结构仍将是相关的。

微调

管理咨询公司AArete采用了开源模型GPT 2,并根据自己的数据对其进行了微调。该公司负责数字技术服务的副总裁Priya Iragavarapu说:“这是轻量级的。我们想要一个开源的,能够在我们的环境中获取并发布它的软件。”

如果AArete使用托管模型并通过API连接到它,则会出现信任问题。她说:“我们担心来自提示的数据可能最终会出现在哪里,我们不想冒这些风险。”

在选择开源模型时,她会考虑以前的下载次数、社区支持和硬件要求。

她说:“基础模式也应该有一些任务相关性。”有一些模型适用于特定的任务。例如,我最近研究了一个拥抱脸模型,它可以将PDF中的内容解析为结构化格式。

金融界和医疗保健行业的许多公司都在根据自己的额外数据集对LLM进行微调。

她说:“基本的LLM是在整个互联网上接受培训的。”通过微调,公司可以创建专门针对其业务用例的模型。

一种常见的方法是创建一个问题和答案的列表,并根据这些问题和答案微调一个模型。事实上,OpenAI在8月份开始允许使用问答方法对其GPT 3.5型号进行微调,并在11月的DevDay上推出了一套新的GPT 4微调、定制和RAG选项。

这对于客户服务和帮助台应用程序特别有用,在这些应用程序中,公司可能已经拥有常见问题数据库。

同样在戴尔的调查中,21%的公司更愿意在自己的环境中使用自己的数据来重新培训现有模型。

Constellation Research公司副总裁兼首席分析师Andy Thurai说:“最受欢迎的选择似乎是Llama 2。” Llama 2有三种不同的尺寸,对于月用户少于7亿的公司是免费的,公司可以在自己的数据集上对其进行微调,并相当快地推出新的定制模型,他表示。事实上,Hugging Face LLM排行榜目前由Llama 2的不同微调和定制主导。在Llama 2之前,Falcon是最受欢迎的开源LLM,他补充道。“现在是一场军备竞赛。”他说,微调可以创建一个针对特定业务用例更准确的模型。“如果你使用的是一个广义的Llama模型,精度可能会很低。”

与RAG嵌入相比,微调也有一些优势。在嵌入的情况下,公司必须对每个查询进行矢量数据库搜索。“而且你已经有了数据库的实现,” Thurai说。“这也不是一件容易的事。”

微调也没有上下文窗口限制。有了嵌入,可以添加到提示符的信息就只有这么多了。如果一家公司确实进行了微调,他们不会经常这样做,就在基础人工智能模型的显著改进版本发布时。

最后,如果一家公司有一个快速变化的数据集,可以结合嵌入使用微调。“你可以先对其进行微调,然后对增量更新进行RAG,”他说。

Forrester Research分析师Rowan Curran预计,在未来一年左右的时间里,将出现大量微调的、特定于领域的模型,公司还可以提炼模型,使其在特定任务中更有效率,但他说,只有一小部分公司——10%或更少——会这么做。

普华永道的Greenstein表示,开发SaaS应用等应用的软件公司可能会进行微调。“如果你有一个高度可重复的模式,微调可以降低你的成本,”他说,但对于企业部署,RAG在90%到95%的情况下效率更高。

加拿大企业搜索和推荐公司Coveo的ML副总裁Sebastien Paquet补充道:“我们实际上正在研究针对特定垂直市场的微调模型。”我们有一些专门的垂直领域有专门的词汇,比如医学垂直领域。销售卡车零部件的企业有自己的零部件命名方式。

然而,就目前而言,该公司使用的是在Azure私有云上运行的OpenAI的GPT 3.5和GPT 4,并隔离了LLM API调用,以便Coveo可以在需要时切换到不同的型号。它还针对特定的用例使用了一些来自Hugging Face的开源LLM。

从头开始构建LLM

很少有公司会从头开始建立自己的LLM,毕竟,根据定义,它们是相当大的。OpenAI的GPT 3具有1750亿个参数,并在45TB的数据集上进行训练,训练成本为460万美元。据OpenAI首席执行官Sam Altman称,GPT 4的成本超过1亿美元。

正是这种大小赋予了LLM魔法和处理人类语言的能力,具有一定程度的常识,以及遵循指令的能力。

“你不能仅仅靠自己的数据来训练它,”Insight的杰出工程师Carm Taglienti说。“在数千万参数上进行训练是有价值的。”

今天,几乎所有的LLM都来自大型超大规模公司或OpenAI和Anthropic等专注于人工智能的初创公司。

即便是在构建自己的模型方面拥有丰富经验的公司,也不愿创建自己的LLM。

例如,Salesloft多年来一直在构建自己的人工智能和机器学习模型,包括使用更早技术的GenAI模型,但对从头开始构建全新的尖端基础模型犹豫不决。

“这是一个巨大的计算步骤,至少在这个阶段,我认为我们还没有开始。”Fields说。

责任编辑:赵宁宁 来源: 企业网D1Net
相关推荐

2023-12-27 11:31:27

2022-01-13 20:00:16

C语言编程语言

2019-05-09 15:06:59

大数据SEO优化

2022-12-29 08:46:15

IT采购投资

2024-03-29 15:43:32

大型语言模型人工智能

2022-12-07 11:24:51

首席信息官IT

2009-07-03 17:48:24

JSP页面跳转

2023-10-11 09:00:00

2023-09-18 14:46:13

CIO领导者

2011-04-21 10:08:34

2022-01-10 06:52:59

查询MySQL字段

2021-11-02 07:54:40

List分片Java

2020-04-02 10:45:48

多云云计算云平台

2022-11-23 13:46:02

云支出云计算

2015-09-10 09:30:54

Java多线程同步

2024-03-29 09:00:00

大型语言模型ChatGPT

2021-09-06 09:42:13

工业环境IIoT工业 4.0

2023-08-17 12:37:35

2023-07-21 08:00:00

API数字世界

2009-11-07 19:09:35

Windows 7优惠

51CTO技术栈公众号