于飞的博客

所有标签

#Docker ¹ #Dify ¹ #离线部署 ¹ #插件开发 ¹ #DevOps ¹ #ohmyzsh ¹ #补全 ¹ #zsh ¹ #docker ¹ #昇腾 ¹ #OMG ¹ #Ascend C ¹ #AI推理 ¹ #自定义算子 ¹ #协程 ¹ #网络编程 ¹ #异步编程 ¹ #C++ ¹ #多线程 ¹ #注意力机制 ¹ #Transformer ¹ #编码器 ¹ #解码器 ¹ #GPT ¹ #技术祛魅 ¹ #ReAct Agent ¹ #Claude ¹ #Managed Agents ¹ #低代码 ¹ #Anthropic ¹ #LangGraph ¹ #DeepAgents ¹ #图编排 ¹ #ReAct ¹ #通讯录 ¹ #技巧 ¹ #同步问题 ¹ #QQ邮箱 ¹ #FlClash ¹ #网络代理 ¹ #Clash ¹ #局域网 ¹ #工具配置 ¹ #Git ¹ #微架构 ¹ #性能优化 ¹ #x86 ¹ #CPU ¹ #ARM ¹ #Intel ¹ #Apple ¹ #iTerm2 ¹ #效率 ¹ #快捷键 ¹ #终端 ¹ #Mac ³ #AI芯片 ¹ #AI技术 ¹ #微调 ¹ #强化学习 ¹ #RLHF ¹ #Homebrew ² #包管理器 ¹ #教程 ¹ #开发环境 ² #macOS ² #Microsoft 365 ¹ #OneDrive ¹ #Word ¹ #用户体验 ¹ #4A ¹ #职业选择 ¹ #伪专家 ¹ #技术成长 ¹ #技术管理 ¹ #架构 ¹ #架构设计 ¹ #MCP ¹ #Tool ¹ #Skill ¹ #AI Agent ³ #职业发展 ¹ #存储系统 ¹ #CUDA ² #大模型微调 ¹ #macOS技巧 ¹ #大写锁定 ¹ #输入法设置 ¹ #Caps Lock ¹ #MacBook ¹ #推理服务 ¹ #大模型 ³ #压测指标 ¹ #性能测试 ¹ #技术科普 ² #AI ² #OpenClaw ² #插件 ¹ #VS Code ¹ #图片水印 ¹ #Halo ²

AI #大模型 #微调 #强化学习 #RLHF #AI技术

大模型微调与强化学习的核心区别，你真的搞懂了吗？

微调是让模型学会说话，强化学习是让模型学会说好话。本文用最通俗的比喻，讲透两者的本质区别与技术流程。

于飞发布于 2026-03-17