Transformer架构大揭秘 前置知识 大模型训练与推理原理 简介 2017年谷歌在发表的论文中第一次推出了Transformer架构,直到现在,市面上大多数的LLM(Large Language Model,大语言模型)基本都在延用这套架构,只不过在谷歌的架构基础上做了不同程度的优化和改进。 AI 2026-06-11 21 0 0
大模型训练与推理原理 本文只做科普扫盲,会和最新技术有不匹配的情况,请谨慎阅读! 大模型的训练 整体上分为三个阶段: 预训练 SFT(监督微调) RLHF(基于人类反馈的强化学习) 比作人的三个阶段就是: 幼年~18岁高中毕业,一直在学习理论知识,即训练模型的通用能力。 大学以及后续学习生涯,会选择一到多个专业进行精修, AI 2026-06-11 10 0 0
峨眉山之旅 万万没想到,这次峨眉山之旅竟然成了最后的狂欢。 上周末跟同事去夜爬峨眉山,最长的路线,耗时16个半小时,最后是在接引殿做缆车上去的,实在是累得不行了。 最初只是单纯想爬上去看日出,为此我做了充足的准备:糖果/牛肉干、电解质粉、葡萄糖口服液、半月板护膝、雨衣、上山之前买了登山竹竿和雨鞋套。同时上周一直 生活 2025-09-02 198 0 0
已完成旧博客的数据迁移 之前的几版博客都是我自己手搓的项目,从最初的纯HTML+CSS到后来的HTML+CSS+JS,以及上两个版的博客分别使用Vue2和Vue3写了一个。虽然我对发博客并不积极,但是这一路也见证了我的成长。 直到毕业后,实在没有时间和精力去折腾这些东西了,所以博客基本上就没有改动过,除了每年续费域名和服务 2025-08-23 57 2 0
回望我的编程之旅 依稀记得初中毕业的时候,我们班主任找每个同学谈心(现在想想还挺良心的),老师问我是打算上普高还是做其他打算:因为从初三开始我一直熬夜玩王者成绩一落千丈,错过了县中的分数线。那时候也没啥打算,我妈说我适合做那种做办公室的工作,不适合干体力活,所以我第一个想到的就是学电脑,我妈也觉得不错,所以我当时就打 编程 2025-03-12 58 0 0
让用户重新拿回数据的所有权——SoLiD前路漫漫 今天的主角是SoLiD,一个可能会改变互联网的开源项目。如果你感兴趣也可以自己去看看。 前景 我曾经说过我对信息孤岛是嗤之以鼻的,各大互联网厂商都在筑起一堵高墙,用户的数据被死死的控制在他们手里,但是另人搞笑的却是层出不穷的大厂数据泄露事件,这种双标的行为属实是令人有点难蹦。很多用户为了对抗选择了不 2024-12-29 76 0 0