1)发展简史自从20世纪50年代图灵测试被提出以来,人类一直在探索如何用机器掌握语言智能。作为一种主要的语言理解和生成方法,自然语言处理模型(Natural Language Processing,NLP)在过去的二十年中得到了广泛的研究,并从统计语言模型逐步发展为神经语言模型。从2022年开始,大模型行业呈现爆发式增长。图2:语言大模型发展历史及代表性里程碑事件
来源:DeepSeek技术社区Transformer的引入(2017年):2017年,Vaswani等人通过其论文“Attention is All You Need”引入了Transformer架构,解决了早期模型如循环神经网络(RNNs)和长短期记忆网络(LSTMs)的关键限制,为现代大型语言模型奠定了基础。推进式对话AI——ChatGPT(2022年):2022年3月,OpenAI推出了GPT-3.5,相比于GPT-3,训练和微调有所改进。基于GPT-3.5和InstructGPT,OpenAI于2022年11月推出了对话式AI模型——ChatGPT,大模型开始向C端用户普及。多模态模型的问世(2023年):2023-2024年,像GPT-4V和GPT-4o这样的多模态大型语言模型,实现了将文本、图像、音频和视频整合到统一系统中。这些模型扩展了传统语言模型的能力边界,实现了更丰富的交互手段和解决更复杂问题的能力。推理模型快速发展(2024年):2024年9月,OpenAI发布的o1-preview大模型标志着人工智能的一次进步,尤其是在解决复杂推理任务(如数学和编程)方面。2025年1月,OpenAI发布o3,它在编程、数学、知识问答等领域都打破了o1创造的纪录。2)未来趋势:行业应用与AI智能体目前,AI Agent(人工智能自主智能体)正成为大模型应用热点方向之一。它是一种能够独立思考、感知环境、进行决策和执行动作的智能实体,其底层架构逻辑可以概括为:“大模型+插件+执行流程/思维链”。随着多智能体协作场景的日益重要和复杂,用于智能体之间通信协作的协议,比如MCP、A2A,逐渐兴起。
政策与融资动态