为什么AI能知道“猫“和“猫咪“是一回事?聊聊向量化 从猫和猫咪说起搜「猫咪图片」AI能找出标注着「猫」的图片。写一段产品描述AI能自动归类到「电子产品」而不是「服装」。问AI「怎么养猫」能返回「猫咪喂养指南」的文章。这些事情有个共同点AI得知道「猫」和「猫咪」意思相近甚至是一回事。但AI本质上是个概率模型它不直接理解文字。它眼里所有的文字都是数字。那它怎么知道哪些词意思相近靠的是向量化。向量化到底是什么向量化英文叫 Embedding。名字不用管说清楚是怎么回事。向量就是一串数字。「猫」这个词向量化之后变成这样的一串[0.23, 0.87, -0.12, 0.45, ...] 一共768个数字「猫咪」向量化之后也变成一串数字。因为意思相近这两串数字在整个数组里大部分位置的值都很接近。意思越相近的词它们的向量在数字空间里的距离就越近。把每个词想象成地图上的一个点——意思相近的词位置离得远不相关的词位置离得近。这张图就是那个「意义地图」的可视化「猫」和「猫咪」紧紧挨在一起「狗」离它们也不算远都是宠物但「汽车」就跑到角落去了。这就是向量化干的事——把文字变成坐标让AI能在空间里比较它们的远近。怎么变成向量的大模型在预训练的时候顺便学会了这件事。训练数据里「猫」和「猫咪」经常出现在差不多的上下文里——都跟「宠物」「喂养」「可爱」这些词在一起。模型就会发现这两个词应该离得近一点。经过海量文本的训练模型内部自然形成了一套意义地图——每个词都有自己固定的坐标向量而且意思相近的词坐标也相近。这套坐标不是人设计的是模型自己从数据里悟出来的。有个很出名的例子「国王」的向量 - 「男人」的向量 「女人」的向量 ≈ 「皇后」的向量模型并没有被人告诉过国王和皇后的关系就像男人和女人的关系但它从海量文本里自己学到了。图中四个箭头分别代表国王、男人、女人、皇后的向量方向减去男人的向量再加上女人的向量结果刚好指向皇后——语义关系被编码进了向量里。向量化捕捉的是语义关系不是字面相似度。「猫」和「猫咪」字面差了一个字但语义几乎一样。「猫」和「猫科动物」字面差很多但语义相关。向量数据库是什么向量化解决了怎么把文字变成坐标但还有一个问题这些坐标存哪里怎么快速找到离得最近的坐标这就是向量数据库的用处。普通数据库擅长精确匹配——找标题等于「猫」的文章。向量数据库擅长语义匹配——找意思跟「猫咪喂养」最接近的文章哪怕文章里根本没出现「猫咪」这两个字。具体流程图上画的就是这四步知识库里所有文档先向量化存进向量数据库提问时把问题也向量化然后在向量数据库里找最接近的那几段文档最后送给大模型当参考资料生成答案。这就是RAG检索增强生成的核心原理之前有一篇文章专门讲了什么是RAG有兴趣的小伙伴搜索我的主页查看。向量化能干嘛除了RAG向量化还有很多用得到的地方。语义搜索。搜「怎么换轮胎」能找出「轮胎更换步骤」的文档哪怕字面不完全匹配。内容推荐。看完一篇讲「猫粮测评」的文章推荐系统知道推「猫咪喂养指南」而不是「汽车维修」。去重。两篇文章标题完全不同但内容几乎一样向量化之后能发现它们的向量很接近判断为重复内容。分类。把一段文字向量化跟各个分类的典型向量比一下远近就能自动归类。关注小虾一起成长一起进化

相关新闻

最新新闻

设计模式:3. 装饰者模式

设计模式:3. 装饰者模式

可以这么通俗易懂,推荐各位去阅读原书。为加深知识印象,对书中内容进行梳理总结,书中的案例均由Java实现,而笔者本人目前主要使用C,因此该文章通过C来描述案例。由于本人水平有限,表达会有欠佳处&#xff0…

2026/7/3 5:27:43
Claude API 与 CRM 自动化:让销售记录更完整

Claude API 与 CRM 自动化:让销售记录更完整

很多团队明明已经用上了 CRM,却还是会碰到一个很现实的问题:客户聊了半天,系统里最后只剩下一个名字、一串手机号,再加几句看不太明白的备注。 销售不是不知道要记录,而是一天到晚忙着跟进客户、约会议、发方案&…

2026/7/3 5:27:43
AI Agent 如何实现自主决策?AI Agent 如何实现自主决策?一文讲透 Decision Engine 核心架构

AI Agent 如何实现自主决策?AI Agent 如何实现自主决策?一文讲透 Decision Engine 核心架构

网罗开发(小红书、快手、视频号同名)大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方…

2026/7/3 5:27:43
Mac版FaceFusion github 下载安装教程

Mac版FaceFusion github 下载安装教程

deactivateconda deactivate创建虚拟环境:/opt/homebrew/anaconda3/bin/python3.12 -m venv facefusionsource facefusion/bin/activate克隆代码git clone https://github.com/facefusion/facefusion cd facefusion完整安装 FaceFusion 全部依赖pip install -r requ…

2026/7/3 5:27:43
AI Skills 完整开发、分发、部署全详解

AI Skills 完整开发、分发、部署全详解

AI Skills 完整开发、分发、部署全详解 一、先搞懂:什么是AI Skill AI Skill 给大模型/智能体新增的标准化可复用任务能力,分两大类: 纯Prompt技能(无代码):只有指令、规则、知识库,AI靠提示词…

2026/7/3 5:27:43
发行节点与定价沟通:管理玩家预期的两个关键维度

发行节点与定价沟通:管理玩家预期的两个关键维度

游戏发行方在决定产品上线时间和价格时,面对的不只是市场窗口,还有玩家态度的直接反馈。最近的行业动态显示,无论是提前发售还是定价调整,本质上都是在管理用户期待。对产品而言,发行策略已经不只是销售规划&#xff0…

2026/7/3 5:22:43

周新闻

月新闻