当前位置：首页>Excel>术语表不该躺在 Excel 里:从＂业务词典＂到机器能推理的＂本体＂

术语表不该躺在 Excel 里:从＂业务词典＂到机器能推理的＂本体＂

2026-06-20 20:30:54

术语表不该躺在 Excel 里：从"业务词典"到机器能推理的"本体"

“
《寿险语义层》系列第 9 篇几乎每家公司都有一份几百行的《业务术语表》。这一篇讲，怎么让它从一份躺平的文档，变成机器能用、还能据此推理的东西。
”

去翻翻你公司的共享盘，大概率能找到一份叫《业务术语表》或《数据字典》的 Excel。几百行，两列：术语，释义。

它当年是某次数据治理项目的产出，做完之后，就静静躺在那个文件夹里。没人维护，新产品的术语没补进去，旧术语的口径变了也没更新。更要命的是，它只能给人看——没有任何一个系统、任何一个模型，能调用它。新人入职翻一翻，老人基本忘了它的存在。

这份躺平的术语表，本身就是"语义债"的一种典型形态。这一篇，我们讲怎么把它救活——从一份给人看的词典，升级成一套机器能读懂、还能据此做推理的本体（Ontology）。这中间，要爬三级台阶。

图01

第一级：术语表——只是"词 + 解释"

最原始的形态，就是那份 Excel：扁平的一串"词—释义"对。

"犹豫期：投保人收到合同后一定期间内可解除合同……"

它有价值——至少把意思写下来了。但它的天花板也很低：

它是扁平的，词与词之间没有任何关系。它看不出"重疾险"是"健康险"的一种，也不知道"犹豫期"和"冷静期"说的是同一件事。它更是死的——机器拿到这段文字，只能当字符串存着，没法基于它做任何判断。

术语表解决的是"有没有写下来"，但它离"机器能用"，还差得远。

第二级：分类体系——给概念排出"上下级"

往上爬一级，是给这些概念加上层级关系，主要是"是一种"（is-a）这种上下位关系。这一级，叫分类体系（Taxonomy）。

比如，把险种排成一棵树：

保险产品 → 人身保险 → 人寿保险 → 终身寿险 / 定期寿险 / 两全保险；人身保险 → 健康保险 → 重大疾病保险 / 医疗保险……

这一步看着简单，价值却很大。一旦机器知道"重疾险是一种健康险，健康险是一种人身险"，它就能做泛化推理：你问"我们卖了多少健康险"，它知道该把重疾险、医疗险都算进去，因为它们都"是一种"健康险。在扁平的术语表里，这个"都该算进去"的常识，机器是没有的。

分类体系，第一次让概念之间有了可计算的结构。

第三级：本体——加上属性、关系和约束

再往上爬一级，才到本体。本体在分类体系的基础上，给每个概念补上三样东西：属性、关系、约束。

还是拿重疾险举例。在本体里，"重疾险"不再只是树上的一个节点，它变成了一个有血有肉的概念：

它是一种健康险（继承自上一级）；它有属性：等待期、保险期间、保额；它保障一组"重大疾病"——而"重大疾病"又连到一套疾病本体（比如对应 ICD 疾病编码），"甲状腺癌"在那套本体里"是一种"恶性肿瘤，"是一种"重大疾病；它受一条约束：等待期内因疾病出险，不予给付。

图02

你看出门道了吗？当这些属性、关系、约束都被结构化地表达出来，机器就能做推理了。

用户问"确诊甲状腺癌，这份重疾险赔不赔？"——机器可以顺着本体推：甲状腺癌是一种恶性肿瘤 → 是一种重大疾病 → 这份重疾险保障重大疾病 → 但要先检查那条等待期约束。这一串推理，不是模型凭语感蒙的，是它顺着本体里明确的关系一步步走出来的。

这就是本体和术语表的本质区别：术语表告诉机器"这个词是什么意思"，本体告诉机器"这个概念和什么有关、受什么约束、能推出什么"。前者是死的解释，后者是活的、可计算的知识。

几个让本体真正能用的工程要点

把本体落地，有几个绕不开的细节，顺带也是这一行的专业讲究：

同义词必须收拢。 犹豫期、冷静期，是同一个概念的两个叫法；现金价值、现价，也是。本体里要把这些"同义词"明确绑到同一个概念上（专业上叫受控词表、同义词环）。否则用户用"冷静期"提问，模型却只认识"犹豫期"，就又撞墙了。这一步对大模型理解用户的各种"土话"至关重要。

区分"类型"和"实例"。 本体定义的是"类型层"——所有重疾险都有"等待期"这个属性（这一层专业上叫 T-Box）。而某个具体产品"健康无忧 A 款的等待期是 90 天"，是"实例层"的事实（叫 A-Box）。这两层要分开：本体管"应该有什么"，具体数据管"实际是多少"。这个区分，正是下一篇知识图谱的基础。

本体是活的，要跟着业务长。 新产品上市、新疾病定义出台、监管口径调整，本体都得跟着更新。它不能再像那份 Excel 一样做完就躺平——它得有人维护、有版本、能演化。怎么让它持续长大而不靠人硬填，是这个系列最后会讲的"语义飞轮"。

为什么大模型尤其吃这一套

最后落回大模型。本体对它的价值，是双重的。

一是接地的锚点。模型说出"重疾险"这个词时，本体给了它一个明确、唯一、带着属性和约束的定义，让它不至于自由发挥。模型的每一个关键概念，都能在本体里找到一个桩，钉住它。

二是推理的骨架。前面那个"甲状腺癌→恶性肿瘤→重大疾病→是否在等待期"的推理链，模型自己未必推得稳，但有了本体这副骨架，它就能沿着明确的关系走，结论可解释、可核验。在检索增强（RAG）里，本体还能帮模型把用户的"土话"扩展成标准术语、把具体问题泛化到上位概念，让检索命中得更准——这一点，后面专门有一篇讲。

说到底，本体是把"行业常识"显式地写给机器看。 那些老员工习以为常、却从没写下来的"重疾险当然保恶性肿瘤""冷静期就是犹豫期"，一旦进了本体，就从某个人的脑子里，变成了整个系统共享的、可推理的知识。

下一篇，本体定义了概念和它们的关系类型，我们就该把一个个具体的实例——这个客户、那张保单、这款产品——按这些关系连起来，织成一张能回答复杂问题的网。这张网，叫知识图谱。

《寿险语义层》系列 · 第 9 篇。本体（类型层 / T-Box）是下一篇知识图谱（实例层 / A-Box）的 schema，两篇是一体两面。

往期推荐：

一张保单的一生：为什么要用"状态机"给它建模
退保率到底怎么算：一场指标的"口径之战"
先把"人"理清楚：投保人、被保险人、受益人，为什么不能塞进一张表

技术没有捷径，但深度能让你少走弯路。关注「数智熔炉」，让每一行代码都有价值。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

术语表不该躺在 Excel 里:从＂业务词典＂到机器能推理的＂本体＂

术语表不该躺在 Excel 里：从"业务词典"到机器能推理的"本体"

第一级：术语表——只是"词 + 解释"

第二级：分类体系——给概念排出"上下级"

第三级：本体——加上属性、关系和约束

几个让本体真正能用的工程要点

为什么大模型尤其吃这一套

最新文章

热门文章

随机文章

术语表不该躺在 Excel 里:从＂业务词典＂到机器能推理的＂本体＂

术语表不该躺在 Excel 里：从"业务词典"到机器能推理的"本体"

第一级：术语表——只是"词 + 解释"

第二级：分类体系——给概念排出"上下级"

第三级：本体——加上属性、关系和约束

几个让本体真正能用的工程要点

为什么大模型尤其吃这一套

AI办公终极提效!Excel/PPT/文档全自动搞定,告别无效加班

马斯克SpaceX路演PPT曝光:60页估值1.77万亿美元!

最新文章

热门文章

随机文章