新翻译了:OpenAI 生产环境最佳实践官方指南
这份指南全面介绍了如何将产品原型发布到生产环境的最佳实践。不论你是资深的机器学习工程师还是刚入门的技术爱好者,这份指南都能为你提供在实际生产环境中成功应用该平台所需的各种工具和知识。内容涵盖从如何保护 API 访问安全到如何构建能应对高流量的架构。参考这份指南,可以帮助你更顺畅、高效地部署应用程序到生产环境。
请求补全(Completion)的延迟主要受两个因素的影响:使用的模型和生成的 Token 数量。在这个过程中,大部分延迟通常源自 Token 生成步骤。在调用补全时,提示词(Prompt)的 Token 造成的延迟非常小。但生成这些补全用的 Token 要花费更多时间,因为它们是一个接一个产生的。生成长度越长,由于每个 Token 的生成,所累积的延迟也越多。
在考虑降低成本时,一个实用的方法是把成本看作是 Token 数量和每个 Token 成本的函数。 按照这个方法,您可以从两方面着手降低成本:一是通过使用更小的模型来降低每个 Token 的成本,二是尝试减少所需的 Token 数量。您可以通过使用更简短的提示、模型微调或缓存用户的常见查询来实现这一点,从而避免重复处理。
原始地址:https://t.co/qQSkfJi3HK
翻译:https://t.co/dSbwbjRzze