chatgpt使用了什么框架

Chatai是由OpenAI设计和开发的自然语言处理模型,它是一种基于深度学习的生成式对话模型。GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。GPT-1只有12Transformer层,而到了GPT-3,则增加到96层。

图片1.png

ChatGPTGPT 1-3的技术对比

TAMER框架

这里不得不提到TAMERTraining an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)这个框架。该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。

图片2.png

TAMER框架论文

引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。

TAMER则可以将人类标记者的知识,以奖励信反馈的形式训练Agent,加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术,语料成本更低。通过TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。

图片3.png

TAMER架构在强化学习中的应用

具体实现上,人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中,Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。在此基础上,Chatai可以比GPT-3更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。

ChatGPT的训练过程

1. 教模型说话,由上文产生下文(初始GPT3/GPT3.5

引导模型感知人类的意图,根据人类的意图说话(Supervised Fine-Tuning on GPT3/GPT3.5

对经过引导的模型的回答进行打分(Reward Model

将打分结果返回给模型,让模型根据打分结果不断进行循环迭代(Reinforcement Learning from Human Feedback

2. ChatGPT是组装模型,从这一点上来说,它不是创新的。

3. 精心设计的人工标注、雄厚财力支撑起来的训练资源、耐心地打磨等待和技术搬运、社会对非盈利组织的宽容等等不那么AI技术的原因,才是ChatGPT从效果到口碑都起飞的主要原因。

 


主题测试文章,只做测试使用。发布者:admin,转转请注明出处:http://chatai.xznaqushi.com