|
Post by account_disabled on Jan 27, 2024 4:00:32 GMT -5
标记和字符。 所有代币都来自人类编写的海量数据集。其中包括涵盖所有不同主题、风格和流派的书籍、文章和其他文档,以及从开放互联网上抓取的数量令人难以置信的内容。基本上,它可以处理人类知识的总和来开发用于生成文本的网络。 基于所有这些训练,GPT-3 的神经网络拥有 1750 亿个参数或变量,允许它接受输入(您的提示),然后根据它赋予不同参数的值和权重(以及少量的随机性) ),输出它认为最符合您的请求的任何内容。OpenAI 没有透露 GPT-4 有多少参数,但可以肯定地猜测,它超过 1750 亿个,比曾经传闻的100 万亿个参数要少。 无论确切的数字是多少,参数越多并不意味着越好。GPT-4 增强的能力部分可能来自于比 GPT-3 拥有更多的参数,但很大程度上可能归功于其训练方式的改进。 根据人类反馈进行强化学习 (RLHF) 当然,GPT 最初的神 电话号码数据 经网络完全不适合公开发布。毕竟,它是在几乎没有指导的情况下在开放互联网上进行训练的。因此,为了进一步完善 ChatGPT 以安全、合理和连贯的方式响应各种不同提示的能力,它通过一种称为人类反馈强化学习 (RLHF) 的技术针对对话进行了优化。 本质上,OpenAI 创建了一些演示数据,向神经网络展示了它在典型情况下应如何响应。 由此,他们创建了一个带有比较数据的奖励模型(其中两个或多个模型响应由人工智能培训师进行排名),因此人工智能可以了解在任何给定情况下哪个是最佳响应。虽然 RLHF 不是纯粹的监督学习,但它允许对 GPT 等网络进行有效的微调。 来自 ChatGPT 的图表显示了 GPT-3 的训练方式 图片来自ChatGPT 自然语言处理(NLP) 所有这些努力都是为了使 GPT 在自然语言处理(NLP)方面尽可能有效。NLP 是一个巨大的桶类别,涵盖了人工智能的许多方面,包括语音识别、机器翻译和聊天机器人,但它可以理解为教 AI 理解语言规则和语法、编程以开发复杂的过程。
|
|