【新手学AI之33:100个关键词了解AI(26)】萍聚社区-德国热线-德国实用信息网人工智能

我爱免费 发表于 2025-10-4 15:37

新手学AI之33:100个关键词了解AI(26)

作者：微信文章
我

思

@my thoughts

Celebrate your life

功不唐捐玉汝于成

向内探索的力量超乎你的想象

通过100个核心关键词了解AI系列第26期来啦！

这期的内容聚焦【知识增强】。

01 知识图谱（Knowledge Graph）

定义：知识图谱是一种用图结构（节点 + 边）表示知识的方式，节点表示实体（如人、公司、地点、产品），边表示实体之间的关系（如“属于”“合作”“位于”）。知识图谱是连接数据与语义的桥梁，广泛应用于搜索、推荐、问答、风控和医疗等领域。未来的发展方向是与大语言模型结合，形成 “知识增强的智能体”，让AI既能记忆事实，又能进行逻辑推理.
知识图谱的核心组成：
实体 (Entity)
人物、地点、机构、产品等。示例：苹果公司、乔布斯、iPhone。

关系 (Relation)
实体之间的语义联系示例：乔布斯 → 创办 → 苹果公司

属性 (Attribute)

实体本身的特征

示例：iPhone → 发布年份 → 2007

知识图谱的关键技术
信息抽取：从文本、数据库、网页中提取实体和关系。实体消歧：解决同名不同义问题，比如“Apple”是水果还是公司。图数据库：Neo4j、JanusGraph、TigerGraph，用于高效存储和查询图结构数据。推理 (Reasoning)：利用已有知识推导新知识，例如：已知 “A是B的父亲”， “B是C的父亲”，可以推理出“A是C的祖父”。

知识图谱的应用

搜索引擎

Google Knowledge Graph：搜索“Leonardo DiCaprio”，直接显示他的电影、获奖信息，而不是单纯网页链接。

推荐系统

电商平台：通过知识图谱将“用户 → 购买 → 商品 → 品牌 → 类别”连接起来，提升推荐准确度。

智能问答

Siri、Alexa、ChatGPT 等利用知识图谱更好地理解复杂问题。

示例：问“乔布斯创办的公司CEO是谁”，模型可以沿着图谱推理。

金融风控

银行通过构建企业知识图谱发现隐形的股权关系，检测风险企业。

医疗健康

构建疾病-症状-药物知识图谱，辅助诊断与药物推荐。

知识图谱在 AI 中的作用
补充大模型的事实性：避免“幻觉”问题增强推理能力：将深度学习与符号推理结合（神经符号AI）可解释性：可视化知识路径，解释推荐或回答的依据

02嵌入（Embedding）

定义：嵌入是把离散的对象（词语、句子、图像、用户、商品等）转换为连续的低维向量的方法。
直观理解：它是“翻译器”，把无法直接计算的东西（如文字）变成计算机可以处理的数字向量表示。

例如：

“猫” →

“狗” →

这两个向量会非常接近，反映出“猫”和“狗”在语义上的相似性。
为什么需要嵌入：
机器无法直接理解语言，只能处理数字。如果直接用“one-hot编码”，每个词一个维度，导致维度过高（百万级）且无法表达语义相似性。嵌入通过学习语义空间，能让语义相似的对象在向量空间中靠近。

嵌入的类型
词嵌入（Word Embedding）
代表：Word2Vec、GloVe、FastText。特点：把词语映射到向量，捕捉语义关系。示例：vector("king") - vector("man") + vector("woman") ≈ vector("queen")。

句子/文档嵌入（Sentence/Document Embedding）
模型：Sentence-BERT, USE (Universal Sentence Encoder)用于相似句子检索、语义搜索。

多模态嵌入
图像、视频、音频也可以嵌入。示例：CLIP（OpenAI）：把图片和文字放在同一个向量空间。

用户 / 商品嵌入
推荐系统里，把用户和商品转为嵌入，计算相似度做推荐。

嵌入的计算方法
基于共现统计（早期）：Word2Vec、GloVe。基于深度学习模型：BERT、GPT、CLIP 直接输出嵌入向量。目标函数：通常是让“语义相关的对象”在向量空间中靠近，不相关的远离。

嵌入的应用
语义搜索
用户输入问题，系统将问题嵌入 → 与知识库嵌入比较 → 找到语义最接近的答案。
推荐系统
用户嵌入 vs 商品嵌入 → 最近邻推荐
聚类与分类
在嵌入空间中聚类，得到语义相似的组。
机器翻译 / 跨语言检索
多语言嵌入：把不同语言的句子映射到同一个向量空间
对齐与推理
结合知识图谱，用嵌入方法表示节点，增强推理。

与知识图谱的结合
知识图谱是结构化知识，但规模庞大、不易计算。嵌入能把节点和关系转化为向量，用于相似度计算和推理。典型方法：TransE, RotatE, Graph Embedding。

03RAG（检索增强生成)

定义：RAG 是一种把信息检索（Retrieval）和生成模型（Generation）结合起来的方法。
目标：解决大语言模型（LLM）“知识有限、容易幻觉”的问题。核心思想：
先从外部知识库（数据库、文档库、向量库）里检索相关信息。再把检索到的资料输入到生成模型，辅助它生成更准确的答案。

为什么需要 RAG
LLM 记忆有限：模型的训练数据有时间限制（知识可能过时）。避免幻觉：LLM 有时会“编造事实”。提升专业性：可以利用领域知识库（医学、法律、金融）。节省成本：不需要频繁对 LLM 进行昂贵的微调（Fine-tuning）。

RAG 的工作流程
用户问题 → 检索模块（向量数据库） → 找到相关文档 → 传给 LLM → LLM 结合文档生成答案
嵌入 (Embedding)：把文档和用户问题转换为向量表示。检索 (Retrieval)：在向量数据库里找到与问题最相关的文档。增强 (Augmentation)：把这些文档和用户问题一起输入到 LLM。生成 (Generation)：LLM 根据上下文生成答案

RAG vs. 微调（Fine-tuning）
RAG：外部检索 + 原始大模型，不改变模型参数。
优点：灵活、知识更新快、成本低。
Fine-tuning：修改模型参数，把知识“刻进”模型。
优点：适合固定任务、风格要求。
实际应用：

新知识 / 动态数据 → 用 RAG。固定领域 / 风格 → 用 Fine-tuning。两者可以结合。

END

如果喜欢，请点个关注吧~

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

新手学AI之33:100个关键词了解AI(26)