OpenAI 发布 gpt-4o-audio-preview 模型
主要功能包括:
- 根据文本生成语音响应。
- 分析音频输入的情感、语调和音调。
- 支持语音到语音的互动,音频既可以作为输入也可以作为输出。
与Realtime API的区别:
gpt-4o-audio-preview:主要用于语音生成、语音情感分析、语音到语音交互,注重语音输入和输出的细节处理,如语调、情感等。
Realtime API:侧重实时数据处理,适用于需要即时反馈的场景,如实时语音转文本、即时翻译等连续互动的应用。
支持多种模式组合,包括:
- 文本输入 → 文本 + 音频输出:将输入的文本生成文本和语音输出。
- 音频输入 → 文本 + 音频输出:根据音频输入生成文本和语音输出。
-音频输入 → 文本输出:将音频转化为文本。
- 音频输入 → 文本输出:将音频转化为文本。输出:混合输入,生成文本和语音输出。
- 文本 + 音频输入 → 文本输出:混合输入,生成文本输出。
价格如下:
文本输入标记:约 $5 美元/每百万 tokens。
文本输出标记:约 $15 美元/每百万 tokens。
音频输入标记:价格为 $100 美元/每百万 tokens,相当于每分钟音频约 $0.06 美元。
音频输出标记:价格较高,为 $200 美元/每百万 tokens,相当于每分钟音频约 $0.24 美元
详细:https://t.co/tHxslE678N