【NLP算法面经】腾讯、头条算法岗详细面经(★附面题整理★)
🌟 嗨,你好,我是 青松 !
🌈 自小刺头深草里,而今渐觉出蓬蒿。
NLP Github 项目推荐:
【AI 藏经阁】:https://gitee.com/fasterai/ai-e-book
介绍:该仓库主要分享了数百本 AI 领域电子书
【AI 算法面经】:fasterai/nlp-interview-handbook#面经
介绍:该仓库一网打尽互联网大厂NLP算法面经,算法求职必备神器
【大模型(LLMs)面试笔记】:https://gitee.com/fasterai/nlp-interview-handbook
介绍:该仓库汇总了 NLP 算法工程师高频面题,适合大模型初学者和正在准备面试的小伙伴希望能帮助各位同学缩短面试准备时间,不错过金三银四涨薪窗口,迅速收获心仪的Offer 🎉🎉🎉
文章目录
- 大模型(LLMs)高频面题全面整理(🌟2025 Offer 必备🌟)
-
- 一、大模型进阶面
- 二、大模型微调面
- 三、大模型(LLMs)基础面
- 四、NLP 任务实战面
- 五、NLP 基础面
-
- [💯 分词(Tokenizer)篇](https://t.zsxq.com/YmHO4)
- [💯 词嵌入(Word2Vec)篇](https://t.zsxq.com/YmHO4)
- [💯 卷积神经网络(CNN)篇](https://t.zsxq.com/YmHO4)
- [💯 循环神经网络(RNN)篇](https://t.zsxq.com/YmHO4)
- 💯 长短期记忆网络(LSTM)篇
- [💯 BERT 模型篇](https://t.zsxq.com/YmHO4)
- [💯 BERT 变体篇](https://t.zsxq.com/YmHO4)
- [💯 BERT 实战篇](https://t.zsxq.com/YmHO4)
- 六、深度学习面
写在前面
本硕华南某985,有过两段实习经历,一段是大厂的算法实习,另一段是招行Fintech实习,虽然岗位都是机器学习,但工作的内容都和推荐相关,很感谢这两段实习带给我的成长,对春招找实习有非常大的帮助,面试常常被问到…
春招找实习面试了三家大厂,offer情况:「字节跳动(小程序平台)」、「腾讯(CDG广告)」
另外,「阿里」 交叉面面完了,面试官说下一面HR面…
(虽然三份投的也都是机器学习算法岗位,但聊了工作内容感觉也都是和推荐相关,这大概是我与推荐的缘分吧…)
字节:(2技术+1HR)
一面
本来是约的下午,面试官临时有事改到那天晚上9点,感觉他也有点疲惫所以问的东西并不多~
自我介绍
项目/实习
RandomForest和XGBoost区别
XGB相对于GBDT的改进的地方
如何提特征?
防止过拟合?
手撕:寻找数组中是否存在超过一半的数字,时间复杂度O(N)
概率题:抛硬币一亿次都是正面,下一次是反面的概率有多大?看到概率题脱口而出的1/2(自己都笑了,虽然知道答案不是但面试过程交流下来感觉很轻松就没想那么多了),面试官也笑了说我们做机器学习的,就不能常规思维去想这个问题,从最大似然的角度思考blabla直接告诉我怎么分析了。
反问。
字节的效率果然是出了名的,第二天就通知下一面…但自己想多做准备就延后一周再二面了
二面
自我介绍
一面面试官已经问过其中一个实习的项目了,还有其他项目想讲一下吗
为什么要选择RandomForest
中间问了一些和项目相关的算法基础知识
深度学习的东西用过哪些
RNN和LSTM,GRU的对比优缺点?
手撕:给定一个升序数组1,元素有重复,对每个元素算一下平方后得到新的数组2,问数组2中不相同的元素的个数?要求时间复杂度O(N),空间复杂度O(1)
方程题:我们有n个蛋,k层楼,假设蛋从第m层楼及以上往下扔会碎,现在要找到m,问在最坏的情况下至少需要试出多少次才能知道m。w(n,k)表示次数。写出状态转移方程w(n,k)。
注:写状态方程是很懵的,第一次遇到,自己说了思路(其实没啥思路但觉得也要开口讲些东西,哪怕错的也说明你有在思考),面试官超级耐心疯狂暗(明)示,最后一步一步写出来,最后他也说了虽然我一开始没思路,但是经过提醒之后每一步都能写出来也挺不错。(所以个人感觉面试的过程也是一个交流的过程,不是被试者单方面的output,说不定遇到的面试官超级nice,哪怕说错了也不会直接放弃你而是引导和暗示)
HR面
其实很惊讶没有三面…emm直接HR面然后就oc有被惊喜到…(可能是我面的部门海量hc?)
腾讯:(3技术+1HR)
一面
自我介绍。
涉及到的实习经历?如何构建特征?
分类模型怎么构建?(跟自己实习内容有关)
共享屏幕画GRU4Rec时序推荐模型的结构。(主要是负采样了)
推荐的评价指标有哪些。
归一化了解过哪些。
写LR的loss(这个是自己挖坑,本来只让说一下,当时共享屏幕,所以我就说了那我写出来吧,但感觉又会推导,所以想一步直接写出来最后的结果,就是经过sigmoid处理,差点翻车。。还好最后写出来了)
手撕:找出数组中第K大的数。leetcode原题,要求O(n)。
二面:
全程被问“还有吗”,面试官很厉害一直在深挖东西,感觉被掏空
自我介绍。
问非计算机学院的,学过计算机基础的课程吗?他提了一下计算机网络(瞬间慌了,这是我学过最差的课了。。)还问了解过一些基础算法不是机器学习的算法,比如贪心搜索等等的。(还好用过)
说一面面试官已经问过项目了所以不再问了。。。(接下来就是疯狂问模型还有原理)
首先讲一个自己最熟悉的机器学习的模型/算法。(我讲了一下树模型)
RandomForest和XGB之间的差别。(讲了大概五六个点他表示比较满意)
追问:为什么RF关注方差,XGB关注偏差。
追问:XGB并行化如何实现。(自己讲了两三个点。问还有吗?再讲了一两个点)
追问:XGB对GBDT的改进的地方有哪些。(自己讲了两个点。问还有吗?再讲了一个点。再问还有吗。。)
追问:XGB使用正则项防止过拟合,L1和L2两个的原理是什么。(回答了L1,L2的作用,他说我回答的是这两个的结果不是原理,想知道为什么?自己有点想不起来,随便说了一下,他表示不太满意,说这方面还需要加强学习。)
LightGBM和XGB的区别(改进的地方)
追问:LightGBM如何并行化。
追问:防止过拟合的方法有哪些(讲了三四个点吧。。追问还有吗?再讲了一个点?再追问???陷入沉思中,他说你刚刚回答的都是从模型和结构上相关的角度,有没有其他角度??我大概就是用过上面说的那些了。他说没有用过但是知道的也可以说一下。又从数据的角度讲了一些。)
用过分布式计算吗?做过大规模数据吗?(瑟瑟发抖说数据大概百万级。他说那肯定不需要分布式了,分布式都是亿级以上,好的没事这方面也是和业务相关以后还是要多学习。我说好的好的。还好在这个点没有为难我,无限感恩。)
算法题:找出数组中a+b=c的组合,其中abc都在数组里面。时间空间复杂度?
快要结束的时候,面试官和我聊了一下组里有四五个和我同校的师兄师姐,都很不错。有被惊喜到,第一次感受到母校强大的光环,感动师兄师姐都太棒了沾了福气
三面:(应该就是总监面了)
全程问的技术问题就三个吧
RF和GBDT、XGB和LGB的区别、优化(没问得很细)
在IEG做的项目基于什么平台?
深度学习应用在推荐系统的发展?
手撕:青蛙跳台阶,吃虫子,青蛙每次只能跳一阶或者二阶台阶,每个台阶的虫子是一个数组a[m],青蛙最多只能跳n次,其中0<m<1000,0<n<100,问青蛙怎么样吃到最多的虫子?
反问。聊了一些业务~非常亲切nice
HR面
一些常规问题。感觉真诚一些自信一点好好回答都没问题的~
总结
关于算法基础,楼主是属于看东西比较慢但基础比较扎实一点点的人,对于简历上提到过的每一个算法都要真的会~
面试过程心态也要放好,记得看过一句话,面试是一个互动的过程,面试官也是希望问到你会的相关的东西,也庆幸一下自己遇到的面试官都超级nice,问到一些我不会的都会稍加引导和暗示,整个面试的过程都学到了很多东西。
关于做题,2020年之前还没有刷过leetcode,用了将近一个月的时间做完剑指offer和80%的leetcode hot,但题确实是真的不得不刷,阿里面试遇到的题就是自己没做的20%leetcode hot之一,真想锤自己一下…
有努力就会有收获,最后祝大家都能收到心仪的offer(▽)~
大模型(LLMs)高频面题全面整理(🌟2025 Offer 必备🌟)
全面总结了【大模型面试】的高频面题和答案解析,答案尽量保证通俗易懂且有一定深度。
适合大模型初学者和正在准备面试的小伙伴。
希望也能帮助你快速完成面试准备,先人一步顺利拿到高薪 Offer 🎉🎉🎉
一、大模型进阶面
💯 DeepSeek篇
【大模型进阶面 之 DeepSeek篇】 你必须要会的高频面题 查看答案
- 一、概念篇
- 二、模型结构篇
- 三、预训练篇
- **四、有监督微调篇
- 五、强化学习篇
💯 大模型编辑篇
【大模型进阶面 之 模型魔改篇】 你必须要会的高频面题 查看答案
- 模型编辑(Model Editing)核心目标是什么?
- 对比重新预训练和微调,模型编辑的优势和适用场景是什么?
- 如何用模型编辑修正大语言模型中的知识错误?
- 如何量化评估模型编辑的五大性质?
- 模型编辑局部性如何避免“牵一发而动全身”的问题?
- 知识缓存法(如SERAC)的工作原理是什么?
- 附加参数法(如T-Patcher)如何在不改变原始模型架构的情况下实现编辑?
- 知识缓存法和附加参数法的优缺点有何优缺点?
- ROME方法如何通过因果跟踪实验定位知识存储位置?
- 元学习法(如MEND)如何实现“学习如何编辑”?
- 元学习法的双层优化框架如何设计?
- More …
💯 大模型压缩篇
【大模型进阶面 之 模型压缩篇】 你必须要会的高频面题 查看答案
- 💯 为什么需要对大模型进行压缩和加速?
- 💯 什么是低秩分解?
- 💯 什么是奇异值分解(SVD)?
- 💯 权值共享为什么有效?
- 💯 什么是模型量化?
- 💯 什么是混合精度分解?
- 💯 什么是基于反馈的知识蒸馏?
- 💯 什么是基于特征的知识蒸馏?
- 💯 模型蒸馏的损失函数是什么?
- 💯 描述一下剪枝的基本步骤?
- More …
💯 分布式训练篇
【大模型进阶面 之 分布式训练篇】 你必须要会的高频面题 查看答案
- PS架构和Ring-AllReduce架构有何不同?
- 什么是张量并行,如何使用集群计算超大矩阵?
- 讲一讲谷歌的GPipe算法?
- 讲一讲微软的PipeDream算法?
- ZeRO1、ZeRO2、ZeRO3分别做了哪些优化?
- 用DeepSpeed进行训练时主要配置哪些参数?
- More …
二、大模型微调面
💯 有监督微调(SFT)篇
【大模型微调面 之 SFT篇】 你必须要会的高频面题 查看答案
- 💯 从零训练一个大模型有哪几个核心步骤?
- 💯 为什么要对LLM做有监督微调(SFT)?
- 💯 如何将一个基础模型训练成一个行业模型?
- 💯 如何准备SFT阶段的训练数据?
- 💯 如何自动生成指令构建SFT的训练数据?
- 💯 LM做有监督微调(SFT)变傻了怎么办?
- 💯 有监督微调(SFT)和人工偏好对齐(RLHF)有何区别?
- More …
💯 高效微调篇
【大模型微调面 之 PEFT篇】 你必须要会的高频面题 查看答案
- 💯 全量微调与参数高效微调的区别是什么?
- 💯 什么是轻度微调?轻度微调有哪些常用方法?
- 💯 什么是BitFit微调?
- 💯 分层微调如何设置学习率?
- 💯 什么是适配器微调?适配器微调有哪些优势?
- 💯 讲一讲IA3微调?
- 💯 提示学习(Prompting) 代表方法有哪些?
- 💯 指令微调(Instruct-tuning) 和 提示学习(Prompting)的区别是什么?
- 💯 详细说明LoRA的工作原理及其优势?
- 💯 LoRA存在低秩瓶颈问题,ReLoRA和AdaLoRA分别通过哪些方法改进?
- 💯 动态秩分配(如AdaLoRA)如何根据层的重要性调整秩?
- More …
💯 提示学习篇
【大模型微调面 之 提示学习篇】 你必须要会的高频面题 查看答案
- 💯 提示学习(Prompting) 代表方法有哪些?
- 💯 前缀微调(Prefix-tining)的核心思想?
- 💯 提示微调(Prompt-tuning)的核心思想?
- 💯 P-tuning 的动机是什么?
- 💯 P-tuning v2 进行了哪些改进?
- 💯 提示微调(Prompt-tuning)与 Prefix-tuning 区别是什么?
- 💯 提示微调(Prompt-tuning)与 fine-tuning 区别是什么?
- More …
💯 人类对齐训练(RLHF)篇
【大模型微调面 之 RLHF篇】 你必须要会的高频面题 查看答案
- 💯 RLHF有哪几个核心流程?
- 💯 RLHF与SFT的本质区别是什么?为什么不能只用SFT?
- 💯 什么是人类偏好对齐中的"对齐税"(Alignment Tax)?如何缓解?
- 💯 在强化学习中,基于值函数的和基于策略的的优化方法有何区别?
- 💯 什么是近端策略优化(PPO)?
- 💯 RLHF中的PPO主要分哪些步骤?
- 💯 PPO中的重要性采样(Importance Sampling)如何修正策略差异?
- 💯 DPO如何通过隐式奖励建模规避强化学习阶段?
- 💯 DPO vs PPO:训练效率与性能上限的对比分析?
- 💯 RLHF训练数据的格式是什么样的?
- 💯 如何选择人类偏好对齐训练算法?
- More …
💯 Prompt 工程篇
【大模型微调面 之 提示工程篇】 你必须要会的高频面题 查看答案
- 💯 Prompt工程与传统微调的区别是什么?
- 💯 如何规范编写Prompt?
- 💯 上下文学习三种形式(零样本、单样本、少样本)的区别?
- 💯 如何通过预训练数据分布和模型规模优化上下文学习效果?
- 💯 思维链(CoT)的核心思想是什么?
- 💯 按部就班(如 Zero-Shot CoT、Auto-CoT)、三思后行(如 ToT、GoT)、集思广益(如 Self-Consistency)三种 CoT 模式有何异同?
- More …
三、大模型(LLMs)基础面
💯 大模型(LLMs)架构篇
【大模型基础面 之 LLM架构篇】 你必须要会的高频面题 查看答案
- 💯 LLM架构对Transformer都有哪些优化?
- 💯 什么是正弦(Sinusoidal)位置编码?
- 💯 什么是旋转位置编码(RoPE)?
- 💯 RoPE相对正弦位置编码有哪些优势?
- 💯 RoPE如何进行外推?
- 💯 如何进行位置线性内插(Position Interpolation)?
- 💯 NTK-Aware Scaled RoPE 和位置线性内插的区别是什么?
- 💯 PreNorm和PostNorm有何不同?
- 💯 为什么PreNorm通常能提升训练稳定性?
- 💯 为何使用 RMSNorm 代替 LayerNorm?
- 💯 LLM使用SwiGLU相对于ReLU有什么好处?
- 💯 SwiGLU的参数量是否会显著增加?如何优化?
- More …
💯 注意力机制(Attention)篇
【大模型基础面 之 注意力机制篇】 你必须要会的高频面题 查看答案
- 💯 为什么要引入 Attention 机制?
- 💯 Soft Attention 是什么?
- 💯 Hard Attention 是什么?
- 💯 Self-Attention 是什么?
- 💯 多查询注意力(Multi-Query Attention)是什么?
- 💯 分组查询注意力(Grouped Query Attention)是什么?
- 💯 分页注意力(Paged Attention)是什么?
- 💯 闪存注意力(Flash Attention)是什么?
- More …
💯 Transformer 理论篇
【大模型基础面 之 提示工程Transformer篇】 你必须要会的高频面题 查看答案
- 💯 Transformer 整体结构是怎么样的?
- 💯 Transformer的输入中为什么要添加位置编码?
- 💯 Transformer的位置编码是如何计算的?
- 💯 Position encoding为什么选择相加而不是拼接呢?
- 💯 多头注意力相对于单头注意力有什么优势?
- 💯 Transformer中自注意力模块的计算过程?
- 💯 什么是缩放点积注意力,为什么要除以根号d_k?
- 💯 批归一化和层归一化的区别?
- 💯 Layer Normalization 有哪几个可训练参数?
- 💯 Transformer 中有几种 Mask?
- More …
四、NLP 任务实战面
💯 文本分类篇
【NLP 任务实战面 之 文本分类篇】 你必须要会的高频面题 查看答案
- 如何用检索的方式做文本分类?
- 如何用Prompt的方式做文本分类?
- 使用LLM做文本分类任务为何需要做标签词映射(Verbalizer)?
- 文本分类任务中有哪些难点?
- 如何解决样本不均衡的问题?
- 如果类别会变化如何设计文本分类架构?
- More …
💯 命名实体识别(NER)篇
【NLP 任务实战面 之 实体识别篇】 你必须要会的高频面题 查看答案
- 实体识别中有哪些难点?
- CRF为什么比Softmax更适合NER?
- 如何使用指针标注方式做NER任务?
- 如何使用多头标注方式做NER任务?
- 如何使用片段排列方式做NER任务?
- 实体识别有哪些常用的解码方式?
- 如何解决实体嵌套问题?
- 实体识别的数据是如何进行标注的?
- 如何解决超长实体识别问题?
- More …
💯 关系抽取篇
【NLP 任务实战面 之 关系抽取篇】 你必须要会的高频面题 查看答案
- 常见关系抽取流程的步骤是怎样的?
- 如何抽取重叠关系和复杂关系?
- 介绍下基于共享参数的联合抽取方法?
- 介绍下基于联合解码的联合抽取方法?
- 关系抽取的端到端方法和流水线方法各有什么优缺点?
- 在进行跨句子甚至跨段落的关系抽取时,会遇到哪些特有的挑战?
💯 检索增强生成(RAG)篇
【NLP 任务实战面 之 RAG篇】 你必须要会的高频面题 查看答案
- 用户问题总是召回不准确,在用户理解阶段可以做哪些优化?
- 文档问答中,如何构建索引,提升对用户问题的泛化能力?
- 如何合并多路检索的结果,对它们做排序?
- BM25检索器总是召回无关的知识,最可能的原因是什么?
- 如何构建重排序模型的微调数据?
- More …
五、NLP 基础面
💯 分词(Tokenizer)篇
【NLP 基础面 之 分词篇】 你必须要会的高频面题 查看答案
💯 词嵌入(Word2Vec)篇
【NLP 基础面 之 词嵌入篇】 你必须要会的高频面题 查看答案
- 基于计数的表示方法存在哪些问题?
- CBOW 和 Skip-gram 哪个模型的词嵌入更好?
- Word2Vec的词向量存在哪些问题?
- 为什么说Word2vec的词向量是静态的?
- Word2Vec如何优化从中间层到输出层的计算?
- 负采样方法的关键思想的关键思想是什么?
- More …
💯 卷积神经网络(CNN)篇
【NLP 基础面 之 CNN篇】 你必须要会的高频面题 查看答案
💯 循环神经网络(RNN)篇
【NLP 基础面 之 RNN篇】 你必须要会的高频面题 查看答案
💯 长短期记忆网络(LSTM)篇
【NLP 基础面 之 LSTM篇】 你必须要会的高频面题 查看答案
- LSTM 如何缓解 RNN 梯度消失的问题?
- LSTM中记忆单元的作用是什么?
- LSTM有几个门,分别起什么作用?
- LSTM的前向计算如何进行加速?
- LSTM中的tanh和sigmoid分别用在什么地方?为什么?
- More …
💯 BERT 模型篇
【NLP 基础面 之 BERT模型篇】 你必须要会的高频面题 查看答案
- 为什么说BERT是双向的编码语言模型?
- BERT 是如何区分一词多义的?
- BERT的输入包含哪几种嵌入?
- BERT的三个Embedding直接相加会对语义有影响吗?
- BERT模型输入长度超过512如何解决?
- 什么是 80-10-10 规则,它解决了什么问题?
- BERT 嵌入与 Word2Vec 嵌入有何不同?
- More …
💯 BERT 变体篇
【NLP 基础面 之 BERT变体篇】 你必须要会的高频面题 查看答案
- ALBERT 使用的参数缩减技术是什么?
- RoBERTa 与 BERT 有什么不同?
- 在 ELECTRA 中,什么是替换标记检测任务?
- 如何在 SpanBERT 中掩盖标记?
- Transformer-XL 是怎么实现对长文本建模的?
- More …
💯 BERT 实战篇
【NLP 基础面 之 BERT实战篇】 你必须要会的高频面题 查看答案
- BERT为什么不适用于自然语言生成任务(NLG)?
- 在问答任务中,如何计算答案的起始索引和结束索引?
- 如何将 BERT 应用于命名实体识别任务?
- 如何进行继续预训练?
- Bert 未登录词如何处理?
- BERT在输入层如何引入额外特征?
- More …
六、深度学习面
💯 激活函数篇
【深度学习面 之 激活函数篇】 你必须要会的高频面题 查看答案
- 💯 为什么激活函数需要非线性函数?
- 💯 sigmoid 函数有什么缺点?
- 💯 tanh 函数作为激活函数有什么缺点?
- 💯 为什么选 relu 函数作为激活函数?
- 💯 为什么tanh收敛速度比sigmoid快?
- 💯 LLM使用SwiGLU相对于ReLU有什么好处?
- 💯 SwiGLU的参数量是否会显著增加?如何优化?
- More …
💯 优化器篇
【深度学习面 之 优化器篇】 你必须要会的高频面题 查看答案
- 💯 SGD是如何实现的?
- 💯 Momentum 是什么?
- 💯 Adagrad 是什么?
- 💯 RMSProp是什么?
- 💯 Adam 是什么?
- 💯 批量梯度下降(BGD)、随机梯度下降(SGD)与小批量随机梯度下降(Mini-Batch GD)的区别?
- More …
💯 正则化篇
【深度学习面 之 正则化篇】 你必须要会的高频面题 查看答案
- 💯 权重衰减的目的?
- 💯 L1 与 L2 的异同?
- 💯 为什么 L1 正则化 可以产生稀疏值,而 L2 不会?
- 💯 为什么Dropout可以解决过拟合问题?
- 💯 Dropout 在训练和测试阶段的区别是什么?
- 💯 如何选择合适的 Dropout 率?
- 💯 Dropout 和其他正则化方法(如 L1、L2 正则化)有何不同?
- More …
💯 归一化篇
【深度学习面 之 归一化篇】 你必须要会的高频面题 查看答案
- 💯 为什么归一化能提高求最优解速度?
- 💯 Batch Normalization 是什么?
- 💯 Layer Normalization 是什么?
- 💯 批归一化和组归一化的比较?
- 💯 批归一化和权重归一化的比较?
- 💯 批归一化和层归一化的比较?
- More …
💯 参数初始化篇
【深度学习面 之 参数初始化篇】 你必须要会的高频面题 查看答案
💯 过拟合篇
【深度学习面 之 过拟合篇】 你必须要会的高频面题 查看答案
💯 集成学习篇
【深度学习面 之 集成学习篇】 你必须要会的高频面题 查看答案
- 集成学习与传统单一模型相比有哪些本质区别?
- GBDT与 XGBoost 的核心差异是什么?
- 为什么XGBoost要引入二阶泰勒展开?对模型性能有何影响?
- Bagging的并行训练机制如何提升模型稳定性?
- 对比Bagging与Dropout在神经网络中的异同?
- Stacking中为什么要用K折预测生成元特征?
- 如何避免Stacking中信息泄露问题?
- 对比Boosting/Bagging/Stacking三大范式的核心差异(目标、训练方式、基学习器关系)?
- More …
💯 模型评估篇
【深度学习面 之 模型评估篇】 你必须要会的高频面题 查看答案
- 💯 混淆矩阵有何作用?
- 💯 什么是 F1-Score?
- 💯 什么是 Macro F1?
- 💯 什么是 Micro F1?
- 💯 什么是 Weight F1?
- 💯 Macro 和 Micro 有什么区别?
- 💯 ROC 曲线主要有什么作用?
- 💯 P-R 曲线有何作用?
- More …