在今日凌晨2点,OpenAI启动了第九场技术盛会直播,并隆重推出了o1模型的API,同时对实时API进行了重大升级,以支持WebRTC技术。
相较于之前的预览版(o1-preview),新发布的o1模型API在思考成本上实现了60%的削减,并新增了先进的视觉处理功能。GPT-4o的音频处理成本同样降低了60%,而mini版本的定价更是惊人地降低了10倍。
此外,OpenAI还推出了一种创新的偏好微调技术。通过采用直接偏好优化算法,大型模型能够更精准地适应用户的个性化风格偏好。
原文请阅读:https://mp.weixin.qq.com/s/o0nLqj2fQx0OLR9kcFMzQA
在今日的发布中,o1模型API的正式版带来了一系列创新功能,这些功能包括:
函数调用:使得模型能够根据输入自动触发后端服务或外部API,从而处理更为复杂的任务;
结构化输出:支持以JSON格式返回数据,确保输出结果的结构化,便于后续的解析和应用。
开发者消息:作为一种新型系统消息,赋予开发者更大的权限来引导模型的行为;
推理工作量参数:允许调整模型的思考时长,以实现性能与准确性之间的最佳平衡。
在演示环节,OpenAI呈现了一个利用o1模型高级视觉功能的实例——错误表单检测。该应用通过上传含有填写错误的文本表格图片,o1模型能够准确识别出计算错误,并给出具体的修正建议。
此外,o1模型还能在执行需要精确操作的任务时,利用其内置的函数库与后端服务器进行通信,获取最新的税率等关键信息,以确保结果的精确性和最新性。
WebRTC是一项专为网络环境设计的实时通讯技术,广泛应用于视频会议和低延迟视频流等场景。OpenAI在其实时API中集成了WebRTC支持,这使得AI应用能够自动适应互联网的动态变化,如动态调整比特率和执行回声消除,从而为实时语音应用提供了更优的性能和稳定性。
与旧版的Websockets集成相比,WebRTC的集成显著简化了开发过程。开发者在使用Websockets时,通常需要编写200至250行代码来处理诸如反压等问题。而通过WebRTC,只需12行代码就能实现相同的功能。
在实时语音聊天应用的开发中,WebRTC的应用使得开发者能够以更快的速度构建出功能完备的应用程序,极大提升了开发效率。
在演示环节,通过编写简洁的HTML代码,演示了如何建立点对点连接,实现音频流的即时发送与接收,凸显了WebRTC支持下实时语音应用开发的高效性。开发者可以专注于应用逻辑的构建,而无需深入复杂的网络通信细节,这大幅降低了开发工作的复杂度。
此外,为了简化开发者集成实时API的过程,OpenAI推出了Python SDK的支持,并大幅下调了服务价格。
偏好微调与常规的监督学习微调有着本质的区别:
它通过成对样本的比较学习机制,使模型能够捕捉并适应特定应用场景中的微妙差异。在进行偏好微调时,开发者需要准备一组包含两个版本答案的数据集,其中一个版本被标记为更优。随后,这些数据被输入模型进行训练,目的是让模型学会识别优秀与普通答案之间的细微差别,并根据用户的反馈持续优化其行为准则。
偏好微调特别适合那些对回答的格式、语气或抽象特质(如友好度、创造力)有特定要求的应用场景。例如,在开发金融咨询聊天机器人时,除了希望模型能提供专业准确的财务建议外,还希望其沟通方式友好且易于理解。
通过偏好微调,可以向模型展示多种对话示例,直至找到最理想的表达方式。这种方法在涉及主观评价的任务上,如客户服务或个性化推荐系统,能够显著提升模型的表现。
偏好微调的应用不仅限于文本生成,它同样适用于图像生成、代码补全等其他类型的输出任务。通过学习大量样例,模型能够形成一套稳定的行为模式,更好地满足用户需求。而且,这种微调方式支持持续迭代和改进,随着高质量数据的不断积累,模型的表现也将得到提升。
目前,这些API已经广泛可用,更多详细信息可以在OpenAI的开发论坛上查阅。