AI大事件

2012 - 2015 年:深度学习大爆炸

时间概念核心内容代表事件链接
2012.09CNN 崛起 (AlexNet)深度卷积神经网络首次在 ImageNet 夺冠,准确率远超传统算法AlexNet 开启深度学习革命AlexNet Paper (NIPS 2012)
2014.06GANs (生成对抗网络)通过“生成器”与“判别器”博弈,开创生成式 AI 先河Ian Goodfellow 提出 GANs 概念GANs Paper (2014)
2015.06YOLO 诞生 (v1)提出“You Only Look Once”,将检测视为回归问题,实现实时目标检测Joseph Redmon 发布 YOLO,改变了视觉检测效率YOLO v1 Paper
2015.12ResNet (残差网络)解决深层网络退化问题,使训练百层甚至千层网络成为可能微软发布 ResNet,斩获 ILSVRC 五项第一ResNet Paper (2015)

2016 - 2018 年:感知到理解的飞跃

时间概念核心内容代表事件链接
2016.03强化学习突破深度学习与强化学习结合,处理极端复杂的博弈空间AlphaGo 以 4:1 击败人类顶尖棋手李世石DeepMind: AlphaGo
2017.06Transformer 诞生抛弃 RNN,采用“注意力机制”并行处理数据,LLM 的核心架构Google 发布《Attention Is All You Need》Transformer Paper (2017)
2018.10BERT (预训练双向编码)引入“遮罩语言模型”,极大提升 NLP 任务的理解能力Google 发布 BERT,刷新 11 项 NLP 纪录BERT Paper (2018)

2019 - 2021 年:参数爆炸与生成预热

时间概念核心内容代表事件链接
2020.05GPT-3 (千亿级参数)1750 亿参数,首次展现“上下文学习(In-context Learning)”能力OpenAI 发布 GPT-3,AI 开始展现惊人的创作潜力OpenAI: GPT-3 Paper. Language Models are Few-Shot Learners
2020.05DETR抛弃 NMS、锚框等手工设计,首次将 Transformer 引入物体检测Facebook (Meta) 发布 Transformer架构的DETR挑战CNN架构的YOLO,开启视觉检测新范式DETR Paper (ECCV 2020)
2020.10ViT (Vision Transformer)抛弃卷积网络(CNN),将图像切块后像文本一样处理Google 发布《An Image is Worth 16x16 Words》,视觉架构转向 Transformer,挑战 CNN 霸主地位ViT Paper
2021.01CLIP & DALL-E借助 ViT 架构将图文关联,实现多模态理解与生成OpenAI 发布 DALL-E,开启多模态生成元年OpenAI Blog: DALL-E
2021.01**MoE & Switch Transformer仅激活模型的一部分参数进行计算,实现“稀疏性”,让模型规模突破万亿Google 发布 Switch Transformer,参数量达 1.6 万亿Switch Transformer Paper
2021.06GitHub Copilot基于 OpenAI Codex 的代码补全,AI 辅助编程商业化GitHub 推出 Copilot 预览版GitHub Blog: Introducing Copilot

2022 年:大模型觉醒之年

时间概念核心内容代表事件链接
2022.01CoT (思维链)通过 “Let’s think step by step” 诱导模型输出中间推理步骤Google 发布思维链研究,大幅提升模型逻辑推理能力CoT Paper (Google Brain)
2022.03Chinchilla Scaling Laws提出参数量与数据量的最佳平衡比例(约 1:20)DeepMind 发布 Chinchilla,70B 模型击败了 175B 的 GPT-3Chinchilla Paper
2022.10ReAct 框架将“推理(Reason)”与“行动(Act)”结合,允许模型在思考过程中调用搜索等外部工具Google & Princeton 发布 ReAct,奠定了 LLM Agent 的底层逻辑ReAct Paper
2022.11ChatGPT 爆发基于 GPT-3.5 的对话 AI,首次让公众体验“类人对话”OpenAI 发布 ChatGPT,5 天破百万用户OpenAI Blog: Introducing ChatGPT
2022.Q4Prompt Engineering(提示工程)通过精心设计输入指令引导 LLM 输出成为早期 AI 使用者的核心技能Google Developers: Prompt Design Guide

2023 年:多模态 + 开源崛起

时间概念核心内容代表事件链接
2023.03GPT-4 发布多模态(图像+文本)、更强推理、上下文达 32KOpenAI 宣称“AGI 重要一步”OpenAI GPT-4 Technical Report
2023.04LLM Agent 初现LLM 能调用工具、规划任务、自我反思AutoGPT、BabyAGI 开源引爆 GitHubAutoGPT GitHub
BabyAGI GitHub
2023.07开源大模型浪潮Meta 开源 Llama,打破闭源垄断Llama、Falcon、Mistral 推动本地部署Meta Llama 2 Announcement
Falcon LM (TII)
Mistral AI Launch
2023.09RAG(检索增强生成)让 LLM 结合私有知识库回答问题成为企业落地 LLM 的首选架构Lewis et al., “Retrieval-Augmented Generation”, 2020 (奠基)
LangChain RAG Docs
2023.12AI Coding 工具普及Copilot 全面商用,代码生成进入日常开发GitHub Copilot 覆盖超 3 万企业GitHub Copilot Enterprise Launch

2024 年:Agentic 智能体元年

时间概念核心内容代表事件链接
2024.02Multimodal Agents能看图、听音、操作 GUI 的智能体Google 推出 Astra,OpenAI 展示 GPT-4V 操控手机Google Astra Demo (I/O 2024)
OpenAI GPT-4o Vision Demo
2024.05Memory & ReflectionAgent 具备长期记忆与事后复盘能力Stanford 发布 “Reflexion” 框架Shinn & Cassano et al., “Reflexion: Language Agents with Verbal Reinforcement Learning”, NeurIPS 2023
2024.08Function Calling 2.0更可靠的工具调用协议(如 MCP 前身)Anthropic、OpenAI 升级 Tool Use APIAnthropic Tools Documentation
OpenAI Function Calling Guide
2024.10AI OS / AI Native App应用围绕 AI 重构,而非“加个聊天框”Notion AI、Cursor、Windsurf 等新锐产品崛起Notion AI
Cursor.sh
Windsurf.ai

2025 年:规范驱动 + 技术融合爆发年

时间概念核心内容代表事件链接
2025.01DeepSeek中国开源模型进入全球第一梯队DeepSeek App和DeepSeek-R1开源模型发布DeepSeek-R1 发布,性能对标 OpenAI o1 正式版
2025.01Spec-Driven Development (SDD)先写规范(Spec),AI 自动生成并维护代码AWS 推出 Kiro,GitHub 推出 Spec-kitAWS Kiro Announcement (re:Invent 2024)
GitHub Spec-kit Docs
2025.05MCP (Model Communication Protocol)统一 LLM 与外部工具通信的标准协议类似“AI 的 USB-C”,被 Cursor、Continue、Claude 采纳MCP Specification (GitHub)
2025.07Agentic IDEIDE 内置自主编程智能体(非仅补全)Cursor Pro、Trae、Qoder 支持“自然语言建项目”Cursor Agentic Mode
Trae.ai
Alibaba Qoder
2025.09AI Factories / AI DevOps用 AI 自动构建、测试、部署其他 AI 应用Microsoft 提出“AI 生产 AI”范式Microsoft Build 2025 Keynote
2025.10Skills (技能)模块化、可共享的 Agent 能力包Anthropic 在 Claude Code 中正式支持 SkillsIntroducing Agent Skills

视觉检测演进专项

时间概念核心内容代表事件链接
2013.11R-CNN (二阶段检测)开启深度学习检测时代。采用“先选框再分类”的 CNN 两阶段法,精度高但计算量巨大(非实时)Ross Girshick 发布 R-CNN,奠定物体检测基础架构R-CNN Paper
2015.06YOLO v1 (一阶段检测)对比 R-CNN: 同样基于 CNN,但将检测简化为单一回归问题。牺牲微小精度换取极致速度,实现实时检测Joseph Redmon 发布 YOLO,改变了工业界视觉落地进程YOLO v1 Paper
2015.12ResNet (残差网络)引入残差连接,解决了深度 CNN 训练中的梯度消失问题,成为后来所有 YOLO 版本的强力后盾微软发布 ResNet,斩获 ILSVRC 五项第一ResNet Paper
2020.04YOLOv4 / v5引入 CSPNet 等优化,将 CNN 架构的检测性能榨干到极致AlexeyAB 与 Ultralytics 发布,成为全球部署最广的检测工具YOLOv5 GitHub
2020.05DETR (视觉 Transformer)架构革命: 彻底抛弃 CNN 时代的锚框和 NMS 后处理,首次将 Transformer 引入检测任务Facebook 发布 DETR,开启视觉检测“去卷积”进程DETR Paper
2022.03ViT-Adapter将 Transformer 的全局建模能力引入检测主干网络,在大尺寸图像检测上超越传统 CNN视觉架构正式开始从卷积向注意力机制大迁移ViT-Adapter Paper
2024.03RT-DETR (实时 Transformer)地位更替: 解决了 Transformer 速度慢的顽疾。在相同延迟下精度全面超越 YOLOv8百度发布 RT-DETR,标志着 Transformer 在实时赛道击败 CNNRT-DETR Paper
2024.Q2Grounding DINO结合大语言模型,通过文字指令实现“零样本”物体检测物体检测从单一视觉识别进化为多模态语义理解Grounding DINO

NLP (自然语言处理) 专项

时间概念核心内容代表事件链接
2013.01Word2Vec (词向量)将单词转化为稠密向量,通过数学距离表示语义相似度Google 发布 Word2Vec,开启 NLP “词表征”时代Word2Vec Paper
2014.09Seq2Seq + Attention引入编码器-解码器架构与注意力机制,解决变长序列处理难题Bahdanau 等提出 Attention,奠定翻译任务基础Attention Paper (2014)
2017.06Transformer 架构架构分水岭: 彻底抛弃 RNN/CNN,利用自注意力机制实现大规模并行训练Google 发布《Attention Is All You Need》Transformer Paper
2018.10BERT (双向预训练)通过遮罩语言模型(MLM)获取上下文语义,统治理解类任务Google 发布 BERT,刷新 11 项 NLP 纪录BERT Paper (2018)
2020.05GPT-3 (千亿级参数)首次展现“上下文学习”能力,证明了 Scaling Law 的巨大潜力OpenAI 发布 GPT-3,开启大模型(LLM)狂潮GPT-3 Paper
2022.01CoT (思维链)通过中间推理步骤引导模型,AI 从“预测概率”转向“逻辑模拟”Google Brain 发布思维链研究,攻克复杂数学题CoT Paper
2022.11ChatGPT (RLHF)引入人类反馈强化学习,让模型生成内容符合人类偏好与安全规范OpenAI 发布 ChatGPT,解决“对齐”问题OpenAI Blog: ChatGPT
2024.09OpenAI o1 (推理模型)范式演进: 通过强化学习诱导模型在输出前进行长时间的自我推理OpenAI 发布 o1 预览版,显著提升理科逻辑能力OpenAI o1 Announcement
2025.01DeepSeek-R1 (推理开源)纯强化学习训练的开源推理模型,低成本复现 o1 级别性能DeepSeek 发布 R1 系列,打破推理大模型闭源垄断DeepSeek-R1 News
2025.Q4Logic-Native LLMs逻辑推理层与语言表述层彻底分离,解决大模型幻觉问题工业界普及“逻辑内核”架构,模型回答准确率趋近 100%LLM Logic Research

语音处理 (Speech) 专项

时间概念核心内容代表事件链接
2012.11DNN-HMM (深度神经网络)DNN 取代传统的混合高斯模型(GMM),识别率实现质的飞跃微软与 Google 联合宣布深度学习在语音识别的突破DNN-HMM Research
2016.09WaveNet (神经生成)摒弃拼接合成,基于神经网络逐个采样点生成原始音频波形DeepMind 发布 WaveNet,让机器合成音接近人声WaveNet Paper
2017.12Tacotron 2简化 TTS 流程,实现从字符到梅尔频谱的端到端合成Google 发布 Tacotron 2,确立了现代 TTS 的基本范式Tacotron 2 Paper
2022.09Whisper (通用识别)基于 Transformer 的大规模弱监督预训练,解决杂音与多语言难题OpenAI 开源 Whisper 语音识别系列模型Whisper Paper
2023.01VALL-E (神经编解码)基于离散代码的神经编解码语言模型,实现“3秒克隆”声音微软发布 VALL-E,开启了个性化语音生成元年VALL-E Paper
2024.05GPT-4o (原生语音交互)范式演进: 彻底抛弃 ASR+TTS 链路,实现音频输入输出的端到端训练OpenAI 发布 GPT-4o,延迟低至 320ms,具备情感表达OpenAI Blog: GPT-4o
2025.01Audio-Reasoning (语音推理)语音模型具备“思考”能力,能通过音调、语气推断用户真实意图OpenAI 升级 Advanced Voice Mode 推理能力OpenAI Voice Updates
2025.10Skill-Based Voice Agents将语音交互与 Agent 技能包结合,AI 可通过语音操控外部应用Anthropic 在 Claude Code 语音版中支持 Skills 调用Introducing Voice Skills

多模态生成 (AIGC) 专项:从像素重组到物理模拟

该领域完成了从“乱涂乱画”到“理解物理世界规律”的跨越。

时间概念核心内容代表事件链接
2014.06GANs (对抗网络)生成器与判别器博弈,开启了深度学习生成图像的先河Ian Goodfellow 提出 GANs 架构GANs Paper
2021.12Diffusion (扩散模型)通过“去噪”过程生成图像,稳定性与多样性全面超越 GANsOpenAI 发布 GLIDE,Stable Diffusion 随后爆发Diffusion Paper
2022.08Stable Diffusion开源图像生成模型,支持通过 Prompt 精确控图Stability AI 发布 SD v1.4,引爆 AI 绘画狂潮SD Launch
2024.02Sora (视频生成)基于 Transformer 处理时空切块,生成长达 1 分钟的一致性视频OpenAI 发布 Sora,展现了“模拟物理世界”的潜力Sora Blog
2025.12World Models (世界模型)AI 不仅生成画面,还能预测物体碰撞、重力等物理反馈视觉生成模型与物理引擎彻底融合,用于机器人预训练World Models Research

具身智能 (Embodied AI) 专项:AI 走进现实世界

这是 AI 的“终极战场”,让算法拥有实体,在物理空间执行任务。

时间概念核心内容代表事件链接
2022.08PaLM-SayCan将大语言模型作为机器人的“大脑”,规划复杂指令Google 展示机器人根据指令拿取零食SayCan Paper
2023.07RT-2 (视觉-语言-动作)提出 VLA 模型,将视觉识别与机器人动作控制统一训练Google 发布首个视觉-语言-动作大模型RT-2 Blog
2024.03Figure 01 + OpenAI机器人接入大模型,实现边说话边根据视觉反馈整理餐具Figure 发布接入 OpenAI 的机器人演示视频Figure AI News
2025.02End-to-End Robotics抛弃手工写代码控制关节,实现“视觉输入-动作输出”的全端到端训练特斯拉 Optimus 实现高度类人的灵巧手操作Tesla AI Day 2025
2026.01Robot-Brain 标准化类似电脑系统的统一机器人底层系统出现,实现技能跨硬件迁移宇树、Figure 等厂商达成机器人通用指令集共识Unified Robot OS

AI for Science 专项:AI 改变科研范式

AI 开始解决人类几十年无法攻克的科学难题(生物、材料、气象)。

时间概念核心内容代表事件链接
2020.11AlphaFold 2破解困扰生物学 50 年的“蛋白质折叠”难题DeepMind 预测了几乎所有人类已知蛋白质结构AlphaFold 2 Nature
2023.03GraphCast基于图神经网络的气象预测,精度与速度远超传统数值模拟Google 发布全球最准的中期天气预报模型GraphCast Paper
2023.11GNoME (新材料预测)AI 预测了 220 万种新晶体结构,相当于人类 800 年的知识积累DeepMind 发布新材料预测成果GNoME Blog
2025.05Drug-Discovery LLM专用大模型实现从靶点发现到药物分子设计的自动化首款由 AI 全流程设计的抗癌药物进入三期临床AI Medicine Review

音乐生成 (Music AI) 专项演进史

时间概念核心内容代表事件链接
2016.09Sony Flow MachinesAI 辅助创作。通过算法学习曲风,辅助人类写出旋律索尼发布全球首支 AI 创作流行曲《Daddy’s Car》Sony AI Music
2019.04MuseNet (OpenAI)深度学习作曲。能模拟 10 种乐器,结合从古典到流行的曲风OpenAI 发布 MuseNet,展示跨流派编排能力MuseNet Blog
2023.01MusicLM (Google)语义里程碑: 首次实现根据复杂文本描述(如“带有热带风情的爵士乐”)生成高保真音频Google 发布 MusicLM,将音乐生成引入大模型时代MusicLM Paper
2023.06AudioCraft / MusicGenMeta 开源的音乐生成模型,支持通过旋律和文字共同控制Meta 开源 AudioCraft,推动了社区二次开发热潮AudioCraft GitHub
2023.12Suno v2全流程集成: 首次在网页端实现“歌词+旋律+人声”一键生成,降低了创作门槛Suno 接入 Copilot 插件,开启 AI 音乐平民化元年Suno v2 Launch
2024.03Suno v3 / Udio工业革命: 生成质量达到“广播级”,具备复杂的转调、和声及情感表达Suno v3 发布;随后 Udio 带着更高的音频保真度横空出世Suno v3 News
2025.01Mureka / Suno v5本地化与推理: 深度理解特定语言(如中文)的曲风韵律,支持更长的生成时长(8分钟+)昆仑万维发布 Mureka;Suno 更新至 v5,音质实现无损化Mureka AI
2026.01Interactive DAW AgentAI 进驻数字音频工作站(DAW),支持对生成的音轨进行分层精修AI 音乐生成从“一键开盲盒”进化为“可交互生产力”AI DAW News

智能体 (Agentic Workflow) 专项:从工具到员工

不仅是对话,而是 AI 能够自主规划、使用工具、完成闭环任务。

时间概念核心内容代表事件链接
2023.04AutoGPT / BabyAGI首次展示 AI 能够自我拆解任务并循环执行开源社区掀起“自主智能体”热潮AutoGPT GitHub
2024.08MCP (模型通信协议)统一 AI 模型与外部数据库、工具、App 之间的通信标准Anthropic 发布 MCP,打破智能体连接壁垒MCP GitHub
2025.01Agentic IDEAI 不仅写代码,还能自主运行测试、修复 Bug、部署服务Cursor、Windsurf 成为开发者标配Cursor.com
2025.07Computer UseAI 具备操控操作系统(点击鼠标、输入文字)的视觉导航能力Anthropic 与 Apple 合作推出系统级控制 AgentClaude Blog
2025.10Claude Code / Skills智能体具备了模块化的“技能包”,能自主完成复杂的软件工程链路Anthropic 发布终端原生 AI 工程师Claude Code Release
2025.12OpenClaw (🦞)里程碑:跨OS、跨平台的开源 AI 助手,实现“Any OS, Any Platform”的全局操控OpenClaw 开源,标志着“个人 AI 雇员”时代的平民化OpenClaw Website
2026.01Agentic OS操作系统围绕 Agent 重新设计,App 演变为 Agent 可调用的组件Future of OS

本作品采用 知识共享署名 4.0 国际许可协议 进行许可。

转载时请注明原文链接:https://blog.hufeifei.cn/2026/01/ai/ai-events/

鼓励一下
支付宝微信