准确的电话号码和 WhatsApp 号码提供商。 如果您想要电子邮件营销活动列表或短信营销活动,那么您可以联系我们的团队。 telegram: @latestda

越小越好 大规模语言模型需要缩小规模

大型语言模型 (LLM) 经常争夺最大、最强大模型的称号,但许多对使用 LLM 感兴趣的公司开始意识到,更大的模型并不总是意味着更好。

生成式人工智能工具的采用正在迅速增加。IDC 对 2000 多名 IT 和业务决策者的调查显示,与 2022 年相比,公司计划在未来一年半内将更多预算投入到人工智能计划上。

生成式人工智能已经对多个行业的企业和企业产生了重大影响。IDC 的一项调查显示,由于过去三年的人工智能投资,较早采用该技术的公司的创新能力提高了 35%,可持续性提高了 33%。

ⓒ 盖蒂图片银行

客户和员工保留率也提高了 32% IDC 人工智能和自

动化研究集团副总裁 Ritu Jiothi 表示:“未来 5 到 10 年,人工智能将在为我们的客户提供真正竞争优势方面发挥与云一样重要的作用。”巨大的竞争优势,”他说。

参数为数千亿甚至数万亿 韩国号码数据 的通用法学硕士乍一看似乎很强大,但它们消耗计算周期的速度使得制造或扩展必要芯片的速度无法跟上,从而对服务器容量造成了负担。出于特定业务目的,训练模型所需的时间过长。

Gartner Research 副总裁兼特别分析师 Aviva Litan 表示:“很快,GPU 芯片的扩展将无法跟上模型尺寸增长的步伐。” “因此,继续增加模型尺寸并不是一个可持续的选择。​​”

安永全球人工智能咨询主管 Dan Diaccio 对此表示赞同

韩国号码数据

并补充说目前 GPU 订单积压。芯片短缺不仅对于创建法学硕士的科技公司来说是一个问题,而且对于那些希望调整其模型或建立自己专有的法学硕士的公司来说也是一个问题。

因此,微调和建立专业企业法 大胆的数据 学硕士的成本相当高,导致了知识增强包和用专业知识构建图书馆提示等趋势,”迪亚西奥说。

此外,未来,使用更多数据训练的较小的特定领域模型将挑战当前占主导地位的 LLM,例如 OpenAI 的 GPT 4、Meta AI 的 LLaMA 2 或 Google PaLM 2。

较小的模型也更容易针对特定用例进行训练。

所有法学硕士,无论规模大小,都是通过称为即时工程的过程学习的,该过程涉及提供模型问题并对其进行正确回答,从而使算法能够更准确地做出反应。目前,有一个单独的市场可以买卖提示列表,例如“ChatGPT 的 100 个最佳提示”。

然而,法学硕士吸收的数据越多,产生不准确结果的可能性就越大。生成式人工智能工具基本上是下一个单词预测器。换句话说,如果输入了错误的信息,则可能会得到错误的结果。(众所周知,LLM 已经犯了几个错误,导致所谓的“幻觉”,即下一个单词生成引擎偏离轨道并生成完全错误的响应。)OpenAI 的 GPT 4 或 Meta 非常大型的通用 LLM,

例如作为人工智能的 LLaMA,包含数十亿甚至数万亿的参数,但可能会为垂直工业或专业用途输出不准确和不专业的结果。参数的作用是帮助确定 LLM 可以为查询提供的各种答案中的适当项目。

利坦表示,“大型法学硕士”使用众所周知的技术并不断改进,但只有拥有足够资源、资金和技术的大型科技公司才能开发和维护它们。

“因此,LLM的权力集中在少数占主导地位的公司本身就是一个严重的风险,”李坦说,“强大的技术力量集中在极少数公司手中,这并不是一件好事。” 这些公司没有真正的制衡。此外,芯片行业也跟不上。这是因为与模型尺寸的扩展和增长相比,GPU创新的速度缓慢。“硬件的变化速度始终慢于软件,”他说。

根据您的具体需求定制 LLM 培训
虽然像 GPT 4 这样的模型是使用从互联网和其他来源收集的大量信息进行预先填充和训练的,但 Prompt Engineering 允许生成式 AI 用户使用专有或行业特定信息来定制他们的响应。例如,如果用户公司通过本机 API 将 ChatGPT 连接到自己的后端应用程序和数据库,则生成式 AI 工具可以利用该公司的专有信息来实现更多特定业务目的。

德勤对 115 名首席财务官进行的一项新调查显示,42% 的受访者表示他们的公司正在尝试生成式人工智能,15% 的受访者正在将其纳入公司战略。参与调查的约三分之二的首席财务官表示,生成式人工智能将占明年预算的不到 1%,约三分之一的人预计这一比例为 1-5%。

63% 的首席财务官认为缺乏人力资源和能力是引入和部署生成式人工智能的最大障碍。随着公司面临内部人才短缺,越来越多的科技公司正在推出基于法学硕士的生成式人工智能工具,这些工具可以自动化业务任务或帮助用户解决冗余或重复性任务。

去年 3 月,Salesforce 宣布计划推出一款基于 GPT 的聊天机器人,与其 CRM 平台配合使用。同月,微软还发布了基于 GPT-4 的 Dynamics 365 Co-Pilot,它可以自动化一些 CRM 和 ERP 任务。此外,还有生成式人工智能平台可以帮助编写代码或执行人力资源任务,例如对求职者进行排名或推荐员工晋升。

主要的法学硕士开发商也开始针对特定行业用途定制他们的模型。

例如,Google 目前提供两种特定于领域的模型:Med-PaLM 2 是 PaLM 2 的医学调整版本,将于下个月以预览版形式向医疗和生命科学行业的更广泛受众发布。Sec-Palm 是一个为了安全目的而调整的版本。利用安全情报,例如 Google 对威胁形势的看法以及 Mandiant 关于漏洞、恶意软件、威胁指标和行为威胁行为者资料的一线情报。

谷歌还提供 Vertex AI,这是一套用于定制 PaLM 2 LLM(以及谷歌声称的任何其他第三方或开源模型)的调整方法。

在回答 Computerworld 的问题时,谷歌发言人表示:“谷歌客户可以使用这些调整方法来根据自己的特定业务用例定制配置,利用自己的企业数据,同时还提供最适合其用例的方法的指导、业务目标和预算。“我们提供指导,”他回答道。

该发言人表示,Vertex AI 提供了即时调整和适配器调整等定制功能,这需要更大的训练数据集(数百到数千个示例)和少量的计算能力来运行训练。

Vertex AI 还提供“利用人类反馈的强化学习”。这是一种接收人类对输出的反馈并使用 Vertex AI 管道调整模型的方法。

为各个垂直行业创建LLM或为客户微调模型的初创公司也纷纷出现。

例如,Writer是一家为企业提供全栈生成式AI平台,支持业务运营、产品、销售、人力资源运营和营销的初创公司。此外,它还提供针对特定行业定制的各种语言模型。最小的模型有 1.28 亿个参数,最大的模型 Palmyra-X 有 400 亿个参数。

Reiter联合创始人兼首席执行官May Habib表示:“我们对基础模型进行微调,以支持多个行业。”例如,就

医疗模型Palmyra-Med而言,基础模型Palmyra-40B是通过应用命令微调为 。该公司通过此过程使用从 PubMedQA 和 MedQA 这两个开源来源中选择的医疗数据集来培训 LLM。Litan 说:“

较小的模型现在正在成为许多研究人员和最终用户的可行选择。人工智能的扩散“从控制和解决方案的角度来看,‘财富’是一件积极的事情。许多实验和创新将启用更多(例如 5-10 倍))数据或选定的数据,这表明小型模型可以接近大型法学硕士的性能,”他说。

Facebook 母公司 Meta 在 2 月份发布了 LLaMa LLM 的版本,该版本比其前身小得多,参数数量为 7 至 650 亿个。Mehta 还声称,130 亿参数的 LLaMa 模型在大多数基准测试中都优于更大的 GPT-3 模型。梅塔表示,其紧凑的法学硕士可以通过“测试新方法、验证他人的工作以及用更少的计算能力和资源探索新的用例”来“民主化”对生成式人工智能的访问。

斯坦福大学、英伟达和约翰霍普金斯大学等研究机构和学术机构也正在进行创新。约翰·霍普金斯大学发起了 BabyLM 挑战,旨在创建一个小得多的模型,其性能可与非常大的 LLM 相媲美。利坦说:“所有这些活动都需要在实验室外得到证明,但我们肯定正在取得进展。”

其他技术也在测试中,包括为特定任务训练小型子模型作为更大模型的一部分的技术人工智能

辅助的企业搜索引擎“企业越来越担心使用 GPT 和 PaLM 等模型,因为这些模型非常庞大,需要由模型提供商托管,”提供商 Glean 的首席执行官 Arvind Jain 表示。数据正在经过提供商之手。”

Glynn 的搜索引擎严重依赖 GPT-4、PaLM 2 和 LLaMa 2 等 LLM,将用户查询与寻找数据或内部文档的企业相匹配。

基于云的法学硕士仍然存在对安全、隐私和版权侵权的担忧。前谷歌特别工程师 Jain 表示,OpenAI 和谷歌保证他们不会滥用客户数据来改进 LLM,并且公司正在接受这些保证。

Leave a comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *