chatgpt使用了什么框架-chatai中文版入口

Chatai是由OpenAI设计和开发的自然语言处理模型，它是一种基于深度学习的生成式对话模型。GPT家族与BERT模型都是知名的NLP模型，都基于Transformer技术。GPT-1只有12个Transformer层，而到了GPT-3，则增加到96层。

ChatGPT与GPT 1-3的技术对比

TAMER框架

这里不得不提到TAMER（Training an Agent Manually via Evaluative Reinforcement，评估式强化人工训练代理）这个框架。该框架将人类标记者引入到Agents的学习循环中，可以通过人类向Agents提供奖励反馈（即指导Agents进行训练），从而快速达到训练任务目标。

TAMER框架论文

引入人类标记者的主要目的是加快训练速度。尽管强化学习技术在很多领域有突出表现，但是仍然存在着许多不足，例如训练收敛速度慢，训练成本高等特点。特别是现实世界中，许多任务的探索成本或数据获取成本很高。如何加快训练效率，是如今强化学习任务待解决的重要问题之一。

而TAMER则可以将人类标记者的知识，以奖励信反馈的形式训练Agent，加快其快速收敛。TAMER不需要标记者具有专业知识或编程技术，语料成本更低。通过TAMER+RL（强化学习），借助人类标记者的反馈，能够增强从马尔可夫决策过程(MDP)奖励进行强化学习(RL)的过程。

TAMER架构在强化学习中的应用

具体实现上，人类标记者扮演对话的用户和人工智能助手，提供对话样本，让模型生成一些回复，然后标记者会对回复选项打分排名，将更好的结果反馈回模型中，Agents同时从两种反馈模式中学习——人类强化和马尔可夫决策过程奖励作为一个整合的系统，通过奖励策略对模型进行微调并持续迭代。在此基础上，Chatai可以比GPT-3更好的理解和完成人类语言或指令，模仿人类，提供连贯的有逻辑的文本信息的能力。

ChatGPT的训练过程

1. 教模型说话，由上文产生下文（初始GPT3/GPT3.5）

引导模型感知人类的意图，根据人类的意图说话（Supervised Fine-Tuning on GPT3/GPT3.5）

对经过引导的模型的回答进行打分（Reward Model）

将打分结果返回给模型，让模型根据打分结果不断进行循环迭代（Reinforcement Learning from Human Feedback）

2. ChatGPT是组装模型，从这一点上来说，它不是创新的。

3. 精心设计的人工标注、雄厚财力支撑起来的训练资源、耐心地打磨等待和技术搬运、社会对非盈利组织的宽容等等不那么AI技术的原因，才是ChatGPT从效果到口碑都起飞的主要原因。

主题测试文章，只做测试使用。发布者：admin，转转请注明出处：http://chatai.xznaqushi.com

chatgpt使用了什么框架

相关推荐