chatgpt使用了什么框架
Chatai是由OpenAI设计和开发的自然语言处理模型,它是一种基于深度学习的生成式对话模型。GPT家族与BERT模型都是知名的NLP模型,都基于Transformer技术。GPT-1只有12个Transformer层,而到了GPT-3,则增加到96层。
ChatGPT与GPT 1-3的技术对比
TAMER框架
这里不得不提到TAMER(Training an Agent Manually via Evaluative Reinforcement,评估式强化人工训练代理)这个框架。该框架将人类标记者引入到Agents的学习循环中,可以通过人类向Agents提供奖励反馈(即指导Agents进行训练),从而快速达到训练任务目标。
TAMER框架论文
引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现,但是仍然存在着许多不足,例如训练收敛速度慢,训练成本高等特点。特别是现实世界中,许多任务的探索成本或数据获取成本很高。如何加快训练效率,是如今强化学习任务待解决的重要问题之一。
而TAMER则可以将人类标记者的知识,以奖励信反馈的形式训练Agent,加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术,语料成本更低。通过TAMER+RL(强化学习),借助人类标记者的反馈,能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。
TAMER架构在强化学习中的应用
具体实现上,人类标记者扮演对话的用户和人工智能助手,提供对话样本,让模型生成一些回复,然后标记者会对回复选项打分排名,将更好的结果反馈回模型中,Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统,通过奖励策略对模型进行微调并持续迭代。在此基础上,Chatai可以比GPT-3更好的理解和完成人类语言或指令,模仿人类,提供连贯的有逻辑的文本信息的能力。
ChatGPT的训练过程
1. 教模型说话,由上文产生下文(初始GPT3/GPT3.5)
引导模型感知人类的意图,根据人类的意图说话(Supervised Fine-Tuning on GPT3/GPT3.5)
对经过引导的模型的回答进行打分(Reward Model)
将打分结果返回给模型,让模型根据打分结果不断进行循环迭代(Reinforcement Learning from Human Feedback)
2. ChatGPT是组装模型,从这一点上来说,它不是创新的。
3. 精心设计的人工标注、雄厚财力支撑起来的训练资源、耐心地打磨等待和技术搬运、社会对非盈利组织的宽容等等不那么AI技术的原因,才是ChatGPT从效果到口碑都起飞的主要原因。
主题测试文章,只做测试使用。发布者:admin,转转请注明出处:http://chatai.xznaqushi.com