深度学习论文精读

录制完成的论文

日期标题封面时长视频(播放数)
1/10/25OpenAI Sora
(包含Movie Gen和HunyuanVideo)
1:04:18bilibili
9/04/24Llama 3.1论文精读 · 5. 模型训练过程10:41bilibili
8/28/24Llama 3.1论文精读 · 4. 训练infra25:04bilibili
8/13/24Llama 3.1论文精读 · 3. 模型26:14bilibili
8/05/24Llama 3.1论文精读 · 2. 预训练数据23:37bilibili
7/31/24Llama 3.1论文精读 · 1. 导言18:53bilibili
3/30/23GPT-41:20:38bilibili
3/23/23大模型时代下做科研的四个思路1:06:29bilibili
3/10/23Anthropic LLM1:01:51bilibili
1/20/23Helm 全面语言模型评测1:23:37bilibili
1/11/23多模态论文串讲·下1:03:29bilibili
12/29/22Instruct GPT1:07:10bilibili
12/19/22Neural Corpus Indexer 文档检索55:47bilibili
12/12/22多模态论文串讲·上1:12:27bilibili
11/14/22OpenAI Whisper 精读1:12:16bilibili
11/07/22在讲 OpenAI Whisper 前先做了一个剪视频小工具23:39bilibili
10/23/22Chain of Thought 论文、代码和资源33:21bilibili
9/17/22CLIP 改进工作串讲(下)1:04:26bilibili
9/2/22CLIP 改进工作串讲(上)1:14:43bilibili
7/29/22ViLT 论文精读1:03:26bilibili
7/22/22理由、论据和担保【研究的艺术·四】44:14bilibili
7/15/22如何讲好故事、故事里的论点【研究的艺术·三】43:56bilibili
7/8/22DALL·E 2 逐段精读1:27:54bilibili
7/1/22明白问题的重要性【研究的艺术·二】1:03:40bilibili
6/24/22跟读者建立联系【研究的艺术·一】45:01bilibili
6/17/22Zero 逐段精读52:21bilibili
6/10/22DETR 逐段精读54:22bilibili
6/3/22Megatron LM 逐段精读56:07bilibili
5/27/22GPipe 逐段精读58:47bilibili
5/5/22Pathways 逐段精读1:02:13bilibili
4/28/22视频理解论文串讲(下)1:08:32bilibili
4/21/22参数服务器(Parameter Server) 逐段精读1:37:40bilibili
4/14/22视频理解论文串讲(上)51:15bilibili
3/31/22I3D 论文精读52:31bilibili
3/24/22斯坦福 2022 年 AI 指数报告 精读1:19:56bilibili
3/17/22AlphaCode 论文精读44:00bilibili
3/10/22OpenAI Codex 论文精读47:58bilibili
zhihu
3/3/22GPT, GPT-2, GPT-3 精读1:29:58bilibili
2/24/22Two-Stream 逐段精读52:57bilibili
2/10/22CLIP 逐段精读1:38:25bilibili
zhihu
2/6/22你(被)吐槽过论文不够 novel 吗?14:11bilibili
zhihu
1/23/22AlphaFold 2 精读1:15:28bilibili
zhihu
1/18/22如何判断(你自己的)研究工作的价值9:59bilibili
zhihu
1/15/22Swin Transformer 精读1:00:21bilibili
zhihu
1/7/22指导数学直觉52:51bilibili
zhihu
1/5/22AlphaFold 2 预告03:28bilibili
12/20/21对比学习论文综述1:32:01bilibili
zhihu
12/15/21MoCo 逐段精读1:24:11bilibili
zhihu
12/9/21如何找研究想法 15:34bilibili
12/8/21MAE 逐段精读47:04bilibili
zhihu
11/29/21ViT 逐段精读1:11:30bilibili
zhihu
11/18/21BERT 逐段精读45:49bilibili
zhihu
11/9/21GAN 逐段精读46:16bilibili
zhihu
11/3/21零基础多图详解 图神经网络(GNN/GCN)1:06:19bilibili
zhihu
10/27/21Transformer 逐段精读
(视频中提到的文献 1)
1:27:05bilibili
zhihu
10/22/21ResNet 论文逐段精读53:46bilibili
zhihu
10/21/21撑起计算机视觉半边天的 ResNet11:50bilibili
zhihu
10/15/21AlexNet 论文逐段精读55:21bilibili
zhihu
10/14/219年后重读深度学习奠基作之一:AlexNet19:59bilibili
zhihu
10/06/21如何读论文06:39bilibili
zhihu

所有论文

包括已经录制完成和之后将要介绍的论文。选取的原则是10年内深度学习里有影响力文章(必读文章),或者近期比较有意思的文章。当然这十年里重要的工作太多了,不可能一一过一遍。在选取的时候我会偏向一些之前 直播课 中没讲到过的。 欢迎大家在 讨论区 里提供建(点)议(歌)。

总论文数 67,录制完成数 32

(这里引用采用的是 semanticscholar,是因为它提供 API 可以自动获取,不用手动更新。)

计算机视觉 - CNN

已录制年份名字简介引用
2012AlexNet深度学习热潮的奠基作citation
 2014VGG使用 3x3 卷积构造更深的网络citation
 2014GoogleNet使用并行架构构造更深的网络citation
2015ResNet构建深层网络都要有的残差连接。citation
 2017MobileNet适合终端设备的小CNNcitation
 2019EfficientNet通过架构搜索得到的CNNcitation
 2021Non-deep networks让不深的网络也能在ImageNet刷到SOTAcitation

计算机视觉 - Transformer

已录制年份名字简介引用
2020ViTTransformer杀入CV界citation
2021Swin Transformer多层次的Vision Transformercitation
 2021MLP-Mixer使用MLP替换self-attentioncitation
2021MAEBERT的CV版citation

生成模型

已录制年份名字简介引用
2014GAN生成模型的开创工作citation
 2015DCGAN使用CNN的GANcitation
 2016pix2pix citation
 2016SRGAN图片超分辨率citation
 2017WGAN训练更加容易citation
 2017CycleGAN citation
 2018StyleGAN citation
 2019StyleGAN2 citation
 2020DDPMDiffusion Modelscitation
 2021Improved DDPM改进的 DDPMcitation
 2021Guided Diffusion Models号称超越 GANcitation
 2021StyleGAN3 citation
2022DALL.E 2CLIP + Diffusion models,文本生成图像新高度citation
2024Sora开启视频生成热潮 
2024Movie Gen精确的文本指导视频编辑、个性化视频生成 
2025HunyuanVideo开源视频生成框架 

计算机视觉 - Object Detection

已录制年份名字简介引用
 2014R-CNNTwo-stagecitation
 2015Fast R-CNN citation
 2015Faster R-CNN citation
 2016SSDSingle stagecitation
 2016YOLO citation
 2017Mask R-CNN citation
 2017YOLOv2 citation
 2018YOLOv3 citation
 2019CenterNetAnchor freecitation
2020DETRTransformercitation

计算机视觉 - 对比学习

已录制年份名字简介引用
2018InstDisc提出实例判别和memory bank做对比学习citation
2018CPC对比预测编码,图像语音文本强化学习全都能做citation
2019InvaSpread一个编码器的端到端对比学习citation
2019CMC多视角下的对比学习citation
2019MoCov1无监督训练效果也很好citation
2020SimCLRv1简单的对比学习 (数据增强 + MLP head + 大batch训练久)citation
2020MoCov2MoCov1 + improvements from SimCLRv1citation
2020SimCLRv2大的自监督预训练模型很适合做半监督学习citation
2020BYOL不需要负样本的对比学习citation
2020SWaV聚类对比学习citation
2020SimSiam化繁为简的孪生表征学习citation
2021MoCov3如何更稳定的自监督训练ViTcitation
2021DINOtransformer加自监督在视觉也很香citation

计算机视觉 - 视频理解

已录制年份名字简介引用
2014DeepVideo提出sports1M数据集,用深度学习做视频理解citation
2014Two-stream引入光流做时序建模,神经网络首次超越手工特征citation
2014C3D比较深的3D-CNN做视频理解citation
2015Beyond-short-snippets尝试使用LSTMcitation
2016Convolutional fusion做early fusion来加强时空间建模citation
2016TSN超级有效的视频分段建模,bag of tricks in videocitation
2017I3D提出Kinetics数据集,膨胀2D网络到3D,开启3D-CNN时代citation
2017R2+1D拆分3D卷积核,使3D网络容易优化citation
2017Non-local引入自注意力做视觉问题citation
2018SlowFast快慢两支提升效率citation
2021TimeSformer视频中第一个引入transformer,开启video transformer时代citation

多模态学习

已录制年份名字简介引用
2021CLIP图片和文本之间的对比学习citation
2021ViLT第一个摆脱了目标检测的视觉文本模型citation
2021ViLDCLIP蒸馏帮助开集目标检测citation
2021GLIP联合目标检测和文本定位citation
2021CLIP4Clip拿CLIP直接做视频文本retrievalcitation
2021ActionCLIP用多模态对比学习有监督的做视频动作分类citation
2021PointCLIP3D变2D,巧妙利用CLIP做点云citation
2022LSeg有监督的开集分割citation
2022GroupViT只用图像文本对也能无监督做分割citation
2022CLIPassoCLIP跨界生成简笔画citation
2022DepthCLIP用文本跨界估计深度citation

 

自然语言处理 - Transformer

已录制年份名字简介引用
2017Transformer继MLP、CNN、RNN后的第四大类架构citation
2018GPT使用 Transformer 解码器来做预训练citation
2018BERTTransformer一统NLP的开始citation
2019GPT-2更大的 GPT 模型,朝着zero-shot learning迈了一大步citation
2020GPT-3100倍更大的 GPT-2,few-shot learning效果显著citation
2024Llama 3.1强大的Meta开源模型 - 动态扩展,多模态学习,零样本学习,高效计算citation

系统

已录制年份名字简介引用
2014参数服务器支持千亿参数的传统机器学习模型citation
2018GPipe流水线(Pipeline)并行citation
2019Megatron-LM张量(Tensor)并行citation
2019Zero参数分片citation
2022Pathways将Jax拓展到上千TPU核上citation

图神经网络

已录制年份名字简介引用
2021图神经网络介绍GNN的可视化介绍citation

优化算法

已录制年份名字简介引用
 2014Adam深度学习里最常用的优化算法之一citation
 2016为什么超大的模型泛化性不错 citation
 2017为什么Momentum有效Distill的可视化介绍citation

新领域应用

已录制年份名字简介引用
 2016AlphaGo强化学习出圈citation
 2020AlphaFold赢得比赛的的蛋白质3D结构预测citation
2021AlphaFold 2原子级别精度的蛋白质3D结构预测citation
2021Codex使用注释生成代码citation
2021指导数学直觉分析不同数学物体之前的联系来帮助发现新定理citation
2022AlphaCode媲美一般程序员的编程解题水平citation

GPT,GPT-2,GPT-3 论文精读

GPT,GPT-2,GPT-3 论文精读【论文精读】哔哩哔哩bilibili