
术语表不该躺在 Excel 里:从"业务词典"到机器能推理的"本体"
“《寿险语义层》系列 第 9 篇 几乎每家公司都有一份几百行的《业务术语表》。这一篇讲,怎么让它从一份躺平的文档,变成机器能用、还能据此推理的东西。
”
去翻翻你公司的共享盘,大概率能找到一份叫《业务术语表》或《数据字典》的 Excel。几百行,两列:术语,释义。
它当年是某次数据治理项目的产出,做完之后,就静静躺在那个文件夹里。没人维护,新产品的术语没补进去,旧术语的口径变了也没更新。更要命的是,它只能给人看——没有任何一个系统、任何一个模型,能调用它。新人入职翻一翻,老人基本忘了它的存在。
这份躺平的术语表,本身就是"语义债"的一种典型形态。这一篇,我们讲怎么把它救活——从一份给人看的词典,升级成一套机器能读懂、还能据此做推理的本体(Ontology)。这中间,要爬三级台阶。
图01第一级:术语表——只是"词 + 解释"
最原始的形态,就是那份 Excel:扁平的一串"词—释义"对。
"犹豫期:投保人收到合同后一定期间内可解除合同……"
它有价值——至少把意思写下来了。但它的天花板也很低:
它是扁平的,词与词之间没有任何关系。它看不出"重疾险"是"健康险"的一种,也不知道"犹豫期"和"冷静期"说的是同一件事。它更是死的——机器拿到这段文字,只能当字符串存着,没法基于它做任何判断。
术语表解决的是"有没有写下来",但它离"机器能用",还差得远。
第二级:分类体系——给概念排出"上下级"
往上爬一级,是给这些概念加上层级关系,主要是"是一种"(is-a)这种上下位关系。这一级,叫分类体系(Taxonomy)。
比如,把险种排成一棵树:
保险产品 → 人身保险 → 人寿保险 → 终身寿险 / 定期寿险 / 两全保险;人身保险 → 健康保险 → 重大疾病保险 / 医疗保险……
这一步看着简单,价值却很大。一旦机器知道"重疾险 是一种 健康险,健康险 是一种 人身险",它就能做泛化推理:你问"我们卖了多少健康险",它知道该把重疾险、医疗险都算进去,因为它们都"是一种"健康险。在扁平的术语表里,这个"都该算进去"的常识,机器是没有的。
分类体系,第一次让概念之间有了可计算的结构。
第三级:本体——加上属性、关系和约束
再往上爬一级,才到本体。本体在分类体系的基础上,给每个概念补上三样东西:属性、关系、约束。
还是拿重疾险举例。在本体里,"重疾险"不再只是树上的一个节点,它变成了一个有血有肉的概念:
它是一种健康险(继承自上一级); 它有属性:等待期、保险期间、保额; 它保障一组"重大疾病"——而"重大疾病"又连到一套疾病本体(比如对应 ICD 疾病编码),"甲状腺癌"在那套本体里"是一种"恶性肿瘤,"是一种"重大疾病; 它受一条约束:等待期内因疾病出险,不予给付。
图02你看出门道了吗?当这些属性、关系、约束都被结构化地表达出来,机器就能做推理了。
用户问"确诊甲状腺癌,这份重疾险赔不赔?"——机器可以顺着本体推:甲状腺癌 是一种 恶性肿瘤 → 是一种 重大疾病 → 这份重疾险保障重大疾病 → 但要先检查那条等待期约束。这一串推理,不是模型凭语感蒙的,是它顺着本体里明确的关系一步步走出来的。
这就是本体和术语表的本质区别:术语表告诉机器"这个词是什么意思",本体告诉机器"这个概念和什么有关、受什么约束、能推出什么"。前者是死的解释,后者是活的、可计算的知识。
几个让本体真正能用的工程要点
把本体落地,有几个绕不开的细节,顺带也是这一行的专业讲究:
同义词必须收拢。 犹豫期、冷静期,是同一个概念的两个叫法;现金价值、现价,也是。本体里要把这些"同义词"明确绑到同一个概念上(专业上叫受控词表、同义词环)。否则用户用"冷静期"提问,模型却只认识"犹豫期",就又撞墙了。这一步对大模型理解用户的各种"土话"至关重要。
区分"类型"和"实例"。 本体定义的是"类型层"——所有重疾险都有"等待期"这个属性(这一层专业上叫 T-Box)。而某个具体产品"健康无忧 A 款的等待期是 90 天",是"实例层"的事实(叫 A-Box)。这两层要分开:本体管"应该有什么",具体数据管"实际是多少"。这个区分,正是下一篇知识图谱的基础。
本体是活的,要跟着业务长。 新产品上市、新疾病定义出台、监管口径调整,本体都得跟着更新。它不能再像那份 Excel 一样做完就躺平——它得有人维护、有版本、能演化。怎么让它持续长大而不靠人硬填,是这个系列最后会讲的"语义飞轮"。
为什么大模型尤其吃这一套
最后落回大模型。本体对它的价值,是双重的。
一是接地的锚点。模型说出"重疾险"这个词时,本体给了它一个明确、唯一、带着属性和约束的定义,让它不至于自由发挥。模型的每一个关键概念,都能在本体里找到一个桩,钉住它。
二是推理的骨架。前面那个"甲状腺癌→恶性肿瘤→重大疾病→是否在等待期"的推理链,模型自己未必推得稳,但有了本体这副骨架,它就能沿着明确的关系走,结论可解释、可核验。在检索增强(RAG)里,本体还能帮模型把用户的"土话"扩展成标准术语、把具体问题泛化到上位概念,让检索命中得更准——这一点,后面专门有一篇讲。
说到底,本体是把"行业常识"显式地写给机器看。 那些老员工习以为常、却从没写下来的"重疾险当然保恶性肿瘤""冷静期就是犹豫期",一旦进了本体,就从某个人的脑子里,变成了整个系统共享的、可推理的知识。
下一篇,本体定义了概念和它们的关系类型,我们就该把一个个具体的实例——这个客户、那张保单、这款产品——按这些关系连起来,织成一张能回答复杂问题的网。这张网,叫知识图谱。
《寿险语义层》系列 · 第 9 篇。本体(类型层 / T-Box)是下一篇知识图谱(实例层 / A-Box)的 schema,两篇是一体两面。
往期推荐:
技术没有捷径,但深度能让你少走弯路。关注「数智熔炉」,让每一行代码都有价值。