公司部署自己的大型语言模型的五种方法-51CTO.COM

GenAI是历史上发展最快的新技术，GenAI正在改变世界，改变我们创建图像和视频、音频、文本和代码的方式。

根据戴尔9月份对IT决策者的一项调查，76%的人表示，GenAI将对他们的公司产生“重大”影响，大多数人预计在未来12个月内将看到有意义的结果。

大型语言模型(LLM)是一种关注文本和代码而不是图像或音频的GenAI，尽管一些模型已经开始集成不同的形式。当今公司中最受欢迎的LLM是ChatGPT和其他OpenAI GPT模型，Anthropic的Claude，Meta的Llama 2，以及来自Abu Dhabi技术创新研究所的开源模型Falcon，该模型以支持英语以外的语言而闻名。

公司有几种部署LLM的方式，比如允许员工访问公共应用程序，使用Prompt工程和API将LLM嵌入现有软件，使用矢量数据库提高准确性和相关性，微调现有模型，或者构建自己的LLM。

部署公有LLM

Dig Security是一家以色列云数据安全公司，其工程师使用ChatGPT编写代码，首席执行官Dan Benjamin说：“每个工程师都会用东西来帮助他们更快地编写代码。”而ChatGPT是最早也是最简单的编码助手之一，但它有一个问题——你永远不能确定你上传的信息是否不会被用于培训下一代模型。Dig Security通过两种方式解决了这一可能性，首先，该公司使用安全网关来检查上传了哪些信息。

“我们的员工知道他们不能上传任何敏感的东西，”Benjamin说。“它被封住了。”

其次，该公司将其工程师输送到运行在Azure私有云上的ChatGPT版本，这意味着Dig Security拥有自己的独立ChatGPT实例。Benjamin说，即使用这种腰带和吊带的方法来确保安全，这也不是一个完美的解决方案。“没有完美的解决方案。任何认为存在的公司，都是在自欺欺人。

例如，某人可以使用VPN或个人计算机访问ChatGPT的公有版本，这就是另一种程度的风险缓解的用武之地。

“这一切都是关于员工培训，”他说，“并确保他们了解自己需要做什么，并在数据安全方面接受过良好的培训。”

Dig Security公司并不孤单。

加州SkyHigh Security公司营销总监Tracy Holden表示，2023年上半年，近100万最终用户通过公司基础设施访问了ChatGPT，用户数量在1-6月之间增长了1500%。

在Netskope Threat Labs 7月份的一份报告中，发布到ChatGPT的源代码比任何其他类型的敏感数据都多，每月每10000个企业用户发生158起事件。

最近，公司已经得到了更安全、更适合企业的选择，比如微软的Copilot，它将易用性与额外的控制和保护结合在一起。在11月初的OpenAI DevDay上，首席执行官Sam Altman表示，目前有1亿活跃用户在使用该公司的ChatGPT聊天机器人，200万开发者在使用其API，超过92%的财富500强公司都在使用OpenAI平台。

矢量数据库和RAG

对于大多数希望定制LLM的公司来说，检索增强生成(RAG)是可行的。如果有人在谈论嵌入或向量数据库，这就是他们通常的意思，它的工作方式是用户提出一个问题，比如说，关于公司的政策或产品，这个问题并不是马上就交给LLM的，相反，它首先被处理，用户是否有权访问该信息?如果有访问权，则通常从矢量数据库中检索所有可能相关的信息，然后，问题和相关信息被发送到LLM，并嵌入到优化提示中，该优化提示还可以指定LLM应该使用的回答和语气的优选格式。

矢量数据库是一种在一系列列表中组织信息的方式，每个列表都按不同的属性排序，例如，你可能有一个按字母顺序排列的列表，你的回复越接近字母顺序，它们就越相关。

按字母顺序排列的列表是一维向量数据库，但向量数据库可以有无限多个维度，使你可以根据它们与任意数量的因素的接近程度来搜索相关答案，这使得它们非常适合与LLM一起使用。

Salesloft是一家销售平台供应商，其首席产品和工程官Ellie Fields表示：“目前，我们正在将所有内容转换为矢量数据库。是的，它们正在发挥作用。”

而且，它比使用简单的文档为LLM查询提供上下文更有效，她说。

该公司主要使用ChromaDB，这是一个开源的矢量存储，主要用于LLM。Salesloft使用的另一个矢量数据库是PgVECTOR，这是针对PostgreSQL数据库的矢量相似性搜索扩展。

“但我们也用FAISS和Pinecone做了一些研究，”她说。FAISS，或Facebook AI Similarity Search，是Meta提供的一个开源库，支持多媒体文档中的相似性搜索。

Pinecone是一个专有的基于云的矢量数据库，也受到开发人员的欢迎，它的免费层支持多达10万个矢量。一旦从矢量数据库中检索到相关信息并嵌入到提示符中，查询就会被发送到在Microsoft Azure上的私有实例中运行的OpenAI。

“我们将Azure认证为我们平台上的新子处理器，”Fields说。“当我们为客户的信息配备了新的处理器时，我们总是让他们知道。”

但Salesloft也与谷歌和IBM合作，并正在开发也使用这些平台的GenAI功能。

“我们肯定会与不同的供应商和不同的模式合作，”她说。情况一周又一周在变化。如果你不看不同的车型，你就错失良机了。因此，RAG允许企业将他们的专有数据与模型本身分开，随着更好的模型的发布，更容易交换模型。此外，矢量数据库甚至可以实时更新，而不需要对模型进行更多的微调或重新训练。

“我们已经更换了模型，从OpenAI到Azure上的OpenAI，”Fields说，“我们已经在不同的OpenAI模型之间进行了切换，我们甚至可能针对我们的客户群的不同部分支持不同的型号。”

她补充说，有时不同的型号有不同的API。“这不是小事，”她说，但换掉一个模型仍然比再培训容易。“我们还没有找到一个用例来更好地服务于微调，而不是矢量数据库，”Fields补充道。“我相信有一些用例，但到目前为止，我们还没有找到性能更好的用例。”

Salesloft推出的LLM的首批应用之一是添加了一项功能，允许客户向潜在客户生成销售电子邮件。“客户花了很多时间来写这些电子邮件，”Fields说。“它很难开始，而且有很多作家的障碍。”因此，现在客户可以指定目标角色、他们的价值主张和行动号召-他们会收到三封可以个性化的不同草稿电子邮件。Fields说，Salesloft使用OpenAI的GPT 3.5撰写这封电子邮件。

本地运行的开源模型

总部位于波士顿的Ikigai Labs提供了一个平台，允许公司构建定制的大型图形模型，或设计用于处理结构化数据的人工智能模型，但为了使界面更易于使用，Ikigai在其前端安装了LLM，例如，该公司使用了Falcon开源LLM的70亿参数版本，并在自己的环境中为一些客户运行它。

为了向LLM提供信息，Ikigai使用了也在本地运行的矢量数据库，它建立在边界森林算法的基础上，联合创始人兼联合首席执行官Devavrat Shah说。

“四年前在麻省理工学院，我和我的一些学生尝试了大量的矢量数据库，”同时也是麻省理工学院人工智能教授的Shah说，“我知道它会有用的，但没这么有用。”

他表示，将模型和矢量数据库都保存在本地意味着数据不会泄露给第三方。“对于那些愿意向他人发送查询的客户，我们使用OpenAI，”Shah说。“我们是不可知论者。”

构建了自己的ChatPWC工具的普华永道，也是LLM不可知论者。“ChatPWC让我们的员工更有能力，”该公司合伙人、Gen AI Go-Market战略负责人Bret Greenstein说，例如，它包括用于生成职位描述的预置提示。“它有我所有的格式、模板和术语，”他说，“我们有人力资源、数据和提示专家，我们设计的东西能产生非常好的招聘信息。现在，没有人需要知道如何使用令人惊叹的提示语来生成职位描述。”

该工具是基于Microsoft Azure构建的，但该公司也为谷歌云平台和AWS构建了它。“我们必须为我们的客户服务，他们存在于每个云上，” Greenstein说。同样，它也进行了优化，在后端使用不同的型号，因为这是客户想要的。他补充说：“我们让每一种模式都能发挥作用。Llama 2，Falcon——我们什么都有。”

当然，市场变化很快，Greenstein建议企业对他们的人工智能部署采取“不后悔”的政策。

“人们可以做很多事情，”他说，“比如建立独立于模型的数据，以及建立治理。”然后，当市场发生变化，一种新的模式出现时，数据和治理结构仍将是相关的。

微调

管理咨询公司AArete采用了开源模型GPT 2，并根据自己的数据对其进行了微调。该公司负责数字技术服务的副总裁Priya Iragavarapu说：“这是轻量级的。我们想要一个开源的，能够在我们的环境中获取并发布它的软件。”

如果AArete使用托管模型并通过API连接到它，则会出现信任问题。她说：“我们担心来自提示的数据可能最终会出现在哪里，我们不想冒这些风险。”

在选择开源模型时，她会考虑以前的下载次数、社区支持和硬件要求。

她说：“基础模式也应该有一些任务相关性。”有一些模型适用于特定的任务。例如，我最近研究了一个拥抱脸模型，它可以将PDF中的内容解析为结构化格式。

金融界和医疗保健行业的许多公司都在根据自己的额外数据集对LLM进行微调。

她说：“基本的LLM是在整个互联网上接受培训的。”通过微调，公司可以创建专门针对其业务用例的模型。

一种常见的方法是创建一个问题和答案的列表，并根据这些问题和答案微调一个模型。事实上，OpenAI在8月份开始允许使用问答方法对其GPT 3.5型号进行微调，并在11月的DevDay上推出了一套新的GPT 4微调、定制和RAG选项。

这对于客户服务和帮助台应用程序特别有用，在这些应用程序中，公司可能已经拥有常见问题数据库。

同样在戴尔的调查中，21%的公司更愿意在自己的环境中使用自己的数据来重新培训现有模型。

Constellation Research公司副总裁兼首席分析师Andy Thurai说：“最受欢迎的选择似乎是Llama 2。” Llama 2有三种不同的尺寸，对于月用户少于7亿的公司是免费的，公司可以在自己的数据集上对其进行微调，并相当快地推出新的定制模型，他表示。事实上，Hugging Face LLM排行榜目前由Llama 2的不同微调和定制主导。在Llama 2之前，Falcon是最受欢迎的开源LLM，他补充道。“现在是一场军备竞赛。”他说，微调可以创建一个针对特定业务用例更准确的模型。“如果你使用的是一个广义的Llama模型，精度可能会很低。”

与RAG嵌入相比，微调也有一些优势。在嵌入的情况下，公司必须对每个查询进行矢量数据库搜索。“而且你已经有了数据库的实现，” Thurai说。“这也不是一件容易的事。”

微调也没有上下文窗口限制。有了嵌入，可以添加到提示符的信息就只有这么多了。如果一家公司确实进行了微调，他们不会经常这样做，就在基础人工智能模型的显著改进版本发布时。

最后，如果一家公司有一个快速变化的数据集，可以结合嵌入使用微调。“你可以先对其进行微调，然后对增量更新进行RAG，”他说。

Forrester Research分析师Rowan Curran预计，在未来一年左右的时间里，将出现大量微调的、特定于领域的模型，公司还可以提炼模型，使其在特定任务中更有效率，但他说，只有一小部分公司——10%或更少——会这么做。

普华永道的Greenstein表示，开发SaaS应用等应用的软件公司可能会进行微调。“如果你有一个高度可重复的模式，微调可以降低你的成本，”他说，但对于企业部署，RAG在90%到95%的情况下效率更高。

加拿大企业搜索和推荐公司Coveo的ML副总裁Sebastien Paquet补充道：“我们实际上正在研究针对特定垂直市场的微调模型。”我们有一些专门的垂直领域有专门的词汇，比如医学垂直领域。销售卡车零部件的企业有自己的零部件命名方式。

然而，就目前而言，该公司使用的是在Azure私有云上运行的OpenAI的GPT 3.5和GPT 4，并隔离了LLM API调用，以便Coveo可以在需要时切换到不同的型号。它还针对特定的用例使用了一些来自Hugging Face的开源LLM。

从头开始构建LLM

很少有公司会从头开始建立自己的LLM，毕竟，根据定义，它们是相当大的。OpenAI的GPT 3具有1750亿个参数，并在45TB的数据集上进行训练，训练成本为460万美元。据OpenAI首席执行官Sam Altman称，GPT 4的成本超过1亿美元。

正是这种大小赋予了LLM魔法和处理人类语言的能力，具有一定程度的常识，以及遵循指令的能力。

“你不能仅仅靠自己的数据来训练它，”Insight的杰出工程师Carm Taglienti说。“在数千万参数上进行训练是有价值的。”

今天，几乎所有的LLM都来自大型超大规模公司或OpenAI和Anthropic等专注于人工智能的初创公司。

即便是在构建自己的模型方面拥有丰富经验的公司，也不愿创建自己的LLM。

例如，Salesloft多年来一直在构建自己的人工智能和机器学习模型，包括使用更早技术的GenAI模型，但对从头开始构建全新的尖端基础模型犹豫不决。

“这是一个巨大的计算步骤，至少在这个阶段，我认为我们还没有开始。”Fields说。