AI - 星K泡饭

加载中...

全部编程 4 生活 2 AI 2

Transformer架构大揭秘的封面

AI

Transformer架构大揭秘

前置知识大模型训练与推理原理简介 2017年谷歌在发表的论文中第一次推出了Transformer架构，直到现在，市面上大多数的LLM（Large Language Model，大语言模型）基本都在延用这套架构，只不过在谷歌的架构基础上做了不同程度的优化和改进。

91

0

0

大模型训练与推理原理的封面

AI

大模型训练与推理原理

本文只做科普扫盲，会和最新技术有不匹配的情况，请谨慎阅读！大模型的训练整体上分为三个阶段：预训练 SFT（监督微调） RLHF（基于人类反馈的强化学习）比作人的三个阶段就是：幼年～18岁高中毕业，一直在学习理论知识，即训练模型的通用能力。大学以及后续学习生涯，会选择一到多个专业进行精修，

42

0

0

关闭

首页

博客

瞬间

图库

知识库

关于我

返回顶部