网站首页
手机版

第二章:词语的魔法

更新时间:作者:小小条

【前情提要】

上一章,我们了解了Token(文字切片)和上下文窗口(AI的工作记忆)。智源科技成立了,林远、陆明、苏晴三人团队开始了与时间的赛跑。但一个问题还悬在空中:AI把文字切成Token之后,它真的"理解"这些词语的含义吗?

第二章:词语的魔法

【本章你将学到】

什么是词向量(Embedding):把词语变成数字的魔法语义空间:词语的GPS定位系统经典案例:国王 - 男人 + 女人 = 王后开源模型生态:Llama、Qwen、ChatGLM

【依赖知识】

第1章:Token概念(必须先读)

2024年3月的第三周,智源科技迎来了正式办公的第一天。

苏晴提前半小时到了公司。她站在窗前,看着中关村创业大街上匆匆走过的人群,心里有些紧张。

从滴滴离职的决定做得很突然。当陆明找到她的时候,她正处于职业倦怠期——做了五年产品经理,每天处理的都是差不多的需求,写差不多的PRD,开差不多的会。

"来做AI吧。"陆明说,"这是一个全新的领域,一切都要从零开始。"

就是这句话打动了她。

"苏晴?"

她转过身,看到林远推门走了进来,手里拎着早餐。

"给你带了豆浆和油条。"林远把袋子放到桌上,"陆明说你是北大中文系的?"

"是啊,怎么了?"

"没什么,"林远笑了笑,"只是觉得挺有意思的。咱们团队一个学中文的,一个学商科的,一个学计算机的。正好覆盖了做AI产品需要的三个视角。"

苏晴接过豆浆,好奇地问:"你觉得学中文对做AI产品有什么帮助?"

"帮助大了。"林远认真地说,"AI处理的核心对象就是语言。你比我更懂语言的结构、语法、修辞,这在设计提示词、评估AI输出质量的时候,都是非常重要的能力。"

苏晴若有所思地点点头。她原本还担心自己的文科背景在技术公司会显得格格不入,现在看来,这反而可能是一种优势。

"对了,"林远看了看表,"待会儿有个人要来,我给你们介绍一下。"

"谁?"

"我的一个朋友,叫老周。前阿里P8架构师,现在是自由职业者,在开源社区很活跃。"林远顿了顿,"他对大模型这块研究很深,我想请他来当我们的技术顾问。"

上午十点,老周准时出现在办公室门口。

他看起来四十出头,穿着一件洗得发白的格子衬衫,背着一个塞得鼓鼓囊囊的双肩包。头发有些乱,下巴上还有没刮干净的胡茬。

"老周!"林远迎了上去。

"小林,好久不见。"老周和他握了握手,目光扫过简陋的办公室,笑了笑,"不错嘛,比我当年创业的时候强多了。我那时候在一个车库里办公,夏天热得能蒸桑拿。"

苏晴有些惊讶。她原本以为"前阿里P8"会是那种西装革履、精明干练的形象,没想到是这样一个随和的中年人。

"苏晴是吧?"老周主动伸出手,"林远跟我说过你,北大中文系的才女。"

"老周过奖了。"苏晴有些不好意思。

几个人在会议室坐下。陆明也从外面赶了回来,简单寒暄之后,直奔主题。

"老周,我们想做一个企业级的AI助手,"陆明说,"林远负责技术架构,但我们需要一个有经验的人来把关。您能来当我们的技术顾问吗?"

老周没有立刻回答,而是问了一个问题:"你们打算用什么模型?"

"GPT-4。"林远说,"目前来看,它是效果最好的。"

老周点点头,又问:"只用GPT-4吗?"

"暂时是的。后期可能会考虑其他选择。"

"那我给你们讲讲现在大模型的格局吧。"老周从包里掏出一台笔记本电脑,打开了一个文档,"你们可能只关注OpenAI,但实际上,这个领域现在百花齐放。"

他把电脑转向大家,屏幕上显示着一张复杂的图表。

"第一梯队是闭源模型:OpenAI的GPT-4、Anthropic的Claude、Google的Gemini。效果最好,但价格也最贵,而且数据安全是个问题——你们的用户数据全都要发到别人的服务器上。"

苏晴皱了皱眉:"这确实是个问题。很多企业客户对数据安全很敏感。"

"所以就有了第二条路——开源模型。"老周指着图表的另一边,"Meta的Llama系列、阿里的Qwen(通义千问)、智谱的ChatGLM、百川、DeepSeek……这些模型可以部署在自己的服务器上,数据不出门。"

"开源模型的效果怎么样?"林远问。

"进步很快。"老周说,"去年Llama 2出来的时候,效果大概是GPT-3.5的水平。现在Llama 3已经能和GPT-4掰掰手腕了。国产的Qwen和DeepSeek也很强,在某些中文任务上甚至比GPT-4还好。"

陆明眼睛一亮:"那我们是不是应该考虑开源模型?成本会低很多吧?"

"成本确实低,但有个前提——你们得有足够的GPU。"老周解释道,"运行一个70亿参数的小模型,至少需要一张A100显卡,这玩意儿一张就要十几万。如果是700亿参数的大模型,需要的显卡更多。"

"所以这也是一笔投入。"林远若有所思。

"没错。对于创业公司来说,我的建议是:先用闭源模型快速验证产品,等业务跑起来了,再考虑迁移到开源模型降低成本。"

陆明和林远对视一眼,都觉得这个建议很务实。

"老周,"苏晴突然问道,"你刚才说AI处理语言,是把文字变成Token。但我不太理解,把文字切成小块之后,AI是怎么'理解'这些词的含义的?"

老周看了她一眼,眼里闪过一丝赞赏:"好问题。这就涉及到一个核心概念——词向量。"

老周站起来,走到白板前。

"我问你们一个问题,"他拿起马克笔,"'国王'和'王后'这两个词,它们之间有什么关系?"

"都是皇室成员。"陆明说。

"一个是男性,一个是女性。"苏晴补充道。

"很好。那'男人'和'女人'呢?"

"也是性别的区别。"

老周点点头,在白板上写下四个词:

国王 王后男人 女人

"人类能够理解这些词之间的关系,是因为我们有常识、有经验。但计算机不一样,它只认识数字。所以我们需要一种方法,把词语'翻译'成数字,而且这种翻译要能保留词语之间的语义关系。"

他在白板上画了一个坐标系。

"想象一下,我们把每个词语都放到一个坐标系里。在这个坐标系里,意思相近的词会靠得很近,意思不同的词会离得很远。"

苏晴的眼睛亮了起来:"就像地图上的GPS坐标?"

"完全正确!"老周赞许地指了指她,"这就是我们说的'词向量'(Word Vector),也叫'嵌入'(Embedding)。每个词都有一个唯一的'坐标',这个坐标就是一串数字。"

他在坐标系上标了几个点:

↑ 皇室/高贵 │ 王后 ● ● 国王 │──────────┼──────────→ 性别 │ 女人 ● ● 男人 │

"你们看,在这个简化的二维空间里,'国王'和'王后'都在上面(代表皇室),'男人'和'女人'都在下面(代表平民)。同时,'国王'和'男人'都在右边(代表男性),'王后'和'女人'都在左边(代表女性)。"

林远接过话:"所以词向量不只是一个位置,它还编码了词语的各种属性?"

"没错。实际的词向量不是二维的,而是几百维甚至上千维。每一维都可能代表某种语义特征——性别、单复数、时态、褒贬义、抽象程度……"

苏晴努力消化着这些信息:"等等,你说几百维?我能理解二维、三维,但几百维是什么概念?"

"别担心,没人能真正'想象'高维空间。"老周笑了笑,"你只需要知道,维度越高,能表达的语义细节就越丰富。就像描述一个人,你可以只说'高矮胖瘦'四个维度,也可以说身高、体重、年龄、性别、肤色、发型……几十个维度。维度越多,描述得越精确。"

老周转回白板,在四个词之间画了几条虚线。

"现在来看一个神奇的现象。"他说,"如果我们用向量做数学运算——"

他写下一个公式:

国王 - 男人 + 女人 = ?

"你们猜,结果会是什么?"

苏晴和陆明面面相觑。用词语做减法和加法?这听起来很奇怪。

"从语义角度想,"老周提示道,"'国王'去掉'男性'这个属性,再加上'女性'这个属性,会得到什么?"

"王后!"苏晴脱口而出。

"Bingo!"老周在白板上重重写下:

国王 - 男人 + 女人 ≈ 王后

"这就是词向量最神奇的地方。当我们把词语变成向量之后,语义关系就变成了数学关系。'国王'到'王后'的方向,和'男人'到'女人'的方向几乎是一样的——都是从男性到女性的转换。"

林远兴奋地站了起来:"所以AI不需要真正'理解'什么是国王、什么是王后,它只需要学会这些词在向量空间里的位置,就能捕捉到它们之间的关系?"

"理论上是这样。"老周点头,"这种方法叫做分布式语义(Distributional Semantics),基于一个假设:经常一起出现的词,意思往往相近。比如'咖啡'经常和'喝'、'杯子'、'提神'一起出现,AI就会学到这些词的向量应该比较接近。"

苏晴陷入沉思:"所以AI学*语言的方式,和人类完全不一样。我们是通过理解概念来学*词语,AI是通过统计词语的共现关系来学*向量。"

"说得太好了。"老周看着她,"这也是为什么AI有时候会犯一些很'蠢'的错误——它可能知道'医生'和'护士'很相关,但它不一定知道医生是什么、护士是什么。它只知道这两个词经常在一起出现。"

"这不就是所谓的'鹦鹉学舌'吗?"陆明若有所思,"看起来很懂,其实并不理解。"

"有人这么认为。"老周没有否认,"但也有人认为,当统计足够精细、维度足够高、数据足够多的时候,'统计'和'理解'的界限就变得模糊了。毕竟,谁能证明人类的'理解'不是另一种形式的'统计'呢?"

会议室里安静了几秒。这个问题太深了,一时半会儿说不清楚。

午饭后,老周继续他的"科普讲座"。

"刚才我们说的是最基础的词向量。"他打开电脑,展示一张更复杂的图,"早期的词向量模型,比如Word2Vec、GloVe,每个词只有一个固定的向量。但这有个问题——"

他在白板上写下一个词:

苹果

"'苹果'是什么意思?"

"水果。"陆明说。

"也可能是手机。"苏晴补充道,"苹果公司。"

"没错。同一个词在不同语境下,意思可能完全不同。"老周画了两个场景:

场景A:我吃了一个苹果。 → 水果场景B:我买了一部苹果。 → 手机

"传统的词向量没法处理这种情况,因为'苹果'只有一个向量。但现代的大语言模型不一样,它用的是上下文相关的词向量(Contextualized Embedding)。"

"什么意思?"林远问。

"意思是,同一个词在不同句子里会有不同的向量。'我吃了一个苹果'里的'苹果',和'我买了一部苹果'里的'苹果',它们的向量是不一样的。模型会根据上下文来调整每个词的表示。"

苏晴恍然大悟:"所以这就是为什么现在的AI比以前的聪明这么多?它不只是记住了词语的含义,还能根据语境动态调整理解?"

"正是如此。"老周赞许地点头,"这也是Transformer架构的一个核心能力——它能够让每个词'看到'句子里的其他词,然后根据上下文调整自己的向量表示。"

他看了一眼时间:"这个我们下次再详细讲。今天先把词向量的基础概念搞清楚。"

"光说不练假把式。"老周合上电脑,"我们来做个小实验。"

他让林远打开一个Python环境,输入了几行代码:

# 使用OpenAI的Embedding APIimport openai# 获取两个词的向量vec_king = get_embedding("国王")vec_queen = get_embedding("王后")vec_man = get_embedding("男人")vec_woman = get_embedding("女人")# 计算相似度print(f"国王-王后相似度: {cosine_similarity(vec_king, vec_queen):.3f}")print(f"国王-男人相似度: {cosine_similarity(vec_king, vec_man):.3f}")print(f"男人-女人相似度: {cosine_similarity(vec_man, vec_woman):.3f}")

屏幕上很快显示出结果:

国王-王后相似度: 0.892国王-男人相似度: 0.756男人-女人相似度: 0.901

"你们看,"老周指着屏幕解释道,"'国王'和'王后'的相似度很高,0.892。'男人'和'女人'的相似度也很高,0.901。但'国王'和'男人'的相似度相对低一些,0.756——因为它们虽然都是男性,但一个是皇室、一个是平民,语义差距更大。"

苏晴盯着屏幕看了一会儿:"这个'相似度'是怎么计算的?0.892是什么意思?"

"好问题。这里用的是余弦相似度(Cosine Similarity)。"老周在白板上画了两个箭头,"你可以把每个词向量想象成一个箭头。两个箭头的方向越接近,余弦相似度就越高。完全相同的方向是1,完全相反是-1,垂直是0。"

↗ 向量A / / θ ← 夹角越小,相似度越高 /────┼────→ 向量B

"0.892意味着'国王'和'王后'这两个向量的方向非常接近,但不完全相同。它们有很多共同的语义特征,但也有一些差异。"

林远又输入了几个测试:

print(f"咖啡-茶相似度: {cosine_similarity(get_embedding('咖啡'), get_embedding('茶')):.3f}")print(f"咖啡-汽车相似度: {cosine_similarity(get_embedding('咖啡'), get_embedding('汽车')):.3f}")

结果:

咖啡-茶相似度: 0.876咖啡-汽车相似度: 0.234

"果然,"苏晴笑了,"咖啡和茶很像,咖啡和汽车就八竿子打不着了。"

"还有一个问题,"陆明问道,"你说词向量有几百维,那具体是多少?"

老周调出了一个对比表:

模型 向量维度 说明─────────────────────────────────────────────Word2Vec (2013) 300 经典模型GloVe (2014) 300 斯坦福出品OpenAI text-embedding-3-small 1536 性价比高OpenAI text-embedding-3-large 3072 效果最好BGE (国产) 768/1024 开源可选

"你们看,现在主流的Embedding模型,维度都在几百到几千之间。维度越高,表达能力越强,但计算成本也越高。"

"那我们应该选哪个?"林远问。

"对于创业公司,我建议用OpenAI的text-embedding-3-small。"老周说,"1536维,效果够用,价格也不贵——每一百万个Token大概0.02美元。"

陆明飞快地心算:"如果每个用户问题平均100个Token,一百万次问答才20美元,这成本可以接受。"

"不过要注意,"老周提醒道,"Embedding API和Chat API是分开收费的。你每次调用ChatGPT生成答案,那是一笔钱;每次调用Embedding API把文字变成向量,又是一笔钱。做预算的时候别漏了。"

下午四点,老周准备离开。

"今天讲得有点多,你们慢慢消化。"他收拾着东西,"有什么问题随时找我,微信上聊就行。"

苏晴突然问道:"老周,你为什么愿意来帮我们?我们是个刚成立的小公司,也付不起很高的顾问费……"

老周停下动作,看着她:"你知道我为什么从阿里离职吗?"

苏晴摇摇头。

"在大厂做了十几年,技术水平是上去了,但越来越觉得迷失。"老周的语气带着一丝感慨,"每天做的事情就是优化指标、开会、写PPT。技术成了KPI的工具,不再是改变世界的手段。"

他背上双肩包,走到门口。

"后来我开始玩开源社区,给各种项目贡献代码。在那里,我重新找到了写代码的乐趣——不是为了完成任务,而是因为这个东西本身有意思。"

他回头看了一眼三人:"AI是一个全新的领域,充满了可能性。我不想只是在旁边看着,我想参与其中。而你们,"他笑了笑,"看起来像是真正想做事的人。"

林远站起来,和他握了握手:"谢谢老周。"

"别谢,做出东西来给我看。"老周摆摆手,"对了,下次我给你们讲讲注意力机制。有了词向量还不够,AI得知道哪些词更重要、词和词之间有什么关系。这才是Transformer真正厉害的地方。"

他推开门,走了出去。

夕阳透过窗户,把办公室染成橙红色。

苏晴站在白板前,看着上面密密麻麻的笔记——Token、词向量、语义空间、余弦相似度……

"好多新概念。"她叹了口气。

"是挺多的。"林远走过来,站在她旁边,"但这只是开始。AI这个领域,每天都有新东西出来。我们要做的,就是在学*中前进。"

苏晴转头看着他:"你不觉得累吗?"

"累啊。"林远笑了笑,"但也兴奋。你想想,我们现在学的这些东西,两年前还只是学术圈的小众研究。现在它们正在改变整个世界。能参与其中,是一件很幸运的事。"

苏晴沉默了一会儿,然后点点头:"你说得对。"

她拿起马克笔,在白板的角落写下一行字:

"AI不是理解词语,是给词语一个坐标。"

"这是我今天的收获。"她说,"词向量的本质,就是把人类的语言翻译成机器能处理的数学坐标。至于AI是否'理解'这些坐标的含义——也许并不重要。重要的是,它能用这些坐标做出有用的事情。"

林远看着那行字,若有所思。

苏晴的总结很精准。也许他们不需要纠结AI是否真的"理解"语言这个哲学问题。作为产品团队,他们只需要关注一件事:如何让AI更好地服务用户。

"对了,"苏晴突然想起什么,"老周说AI能根据上下文调整词向量的表示。那它是怎么知道哪些词之间的关系更重要的呢?"

这是一个好问题。林远想了想,给出了一个简短的回答:

"这就要靠注意力机制了。下次老周来,会详细讲这个。"

苏晴在笔记本上记下:"注意力机制——下次学*。"

窗外,北京的天空渐渐暗了下来。中关村创业大街上的灯光次第亮起,像无数颗星星落在地面上。

这座城市里,有无数人在追逐着AI这个风口。而在这间小小的办公室里,三个人正在一点一点地搭建着属于他们的梦想。


【本章小结】

词向量(Embedding)是AI理解语言的基石——它把每个词语变成一个高维空间中的坐标点。相似的词距离近,不相似的词距离远。通过这种方式,AI可以捕捉词语之间的语义关系,甚至能做出"国王 - 男人 + 女人 = 王后"这样神奇的数学运算。老周加入团队,带来了开源模型生态的视野和丰富的技术经验。

【知识脉络】

第1章:Token(文字切片) → 【第2章:词向量(语义坐标)】 → 第3章:注意力机制(关系计算)

【术语小结】

术语

含义

类比

词向量(Embedding)

把词语表示成一串数字

词语的GPS坐标

语义空间

词向量所在的高维空间

一张超级复杂的地图

余弦相似度

两个向量的方向相似程度

两个箭头的夹角

上下文相关词向量

同一个词在不同语境有不同向量

"苹果"可以是水果也可以是手机

【思考题】

如果"国王 - 男人 + 女人 = 王后"成立,那"中国 - 北京 + 东京 = ?"会得到什么?词向量能捕捉语义关系,但它有什么局限性?(提示:想想"今天银行利率上调"和"我坐在河边的斜坡上"这两句话里的"bank")

【下集预告】

词向量让AI有了"理解"词语的基础,但一句话里那么多词,AI怎么知道哪些词更重要、词和词之间有什么关系?下一章,陈博士将带来学术界的视角,揭开"注意力机制"的神秘面纱——那个让Transformer横扫一切的核心秘密。

版权声明:本文转载于今日头条,版权归作者所有,如果侵权,请联系本站编辑删除

为您推荐

阅读理解探究赏析题中 “重点字词” 类题型的核心逻辑与实操体系

赏析题的核心考查指向是文本语言的表达效果与内涵价值解读,“重点字词赏析”作为语言赏析类题型的核心分支,聚焦文本中关键词语的选用与表达功能,要求学生精准把握词语的语境义

2026-01-21 10:52

初高中有啥不一样?高中科学衔接之“地理篇”

初中和高中的地理学习是既有联系又相对独立的两个阶段,无论是学习内容的难易程度,还是学习方式的差异;无论是学习能力的目标要求,还是认知的广度和深度,初中到高中的跨度都很大

2026-01-21 10:51

贵阳12所民办学校宿舍大PK!原来你家娃的寝室长这样~

孩子成绩不好家长担心他去不了好学校,孩子成绩好去了好学校家长又担心他住得好不好……今天,让烦恼通通走开,来看看贵阳这些民办学校的住宿条件吧!(学校排名不分先后)贵阳乐湾国际

2026-01-21 10:51

30余家企业参展 打造一场全民参与的畜产品美食盛宴

视频加载中...泰山晚报讯 为宣传畜产品质量安全知识,推广优质畜产品品牌,促进畜牧业高质量发展,12日,由山东省畜牧兽医局指导,山东省畜产品质量安全中心主办,泰安市畜牧兽医事业发

2026-01-21 10:50

美院附中集训班,中考美术评分标准是什么?美术中考都考什么?

一 、中考美术评分标准1.构图优秀:符合静物的构图原理,画面均衡,具有较强的韵律和节奏感。良好:基本上符合构图的规律,画面比例均衡。及格:局部构图不合理,不影响画面的整体部局

2026-01-21 10:50

一心心智|新高考下的生涯抉择:用科技帮高中生找准方向

高中生涯的十字路口,不少学生和家长将目光紧盯高考分数,却忽略了生涯规划这一关键命题。现实中,超半数高中生对职业世界知之甚少,跟风盲从选择热门专业,鲜少思考“我适合什么”“

2026-01-21 10:49