探元AI知识库

一探元平台产品架构

探元平台围绕"AI+文化"构建了一套四层递进的架构，从底层数据到上层应用形成完整的能力体系，聚焦可持续与AI向善：

众包与共创平台

建立开放平台，鼓励公众参与文化数据的标注、补充与创意转化，形成"全民共建"生态。

数字素养提升

开展面向公众的AI文化应用培训，降低技术使用门槛，让更多人成为文明传承的"数字志愿者"。

L4产品应用层	产品应用层矩阵式产品，活化利用线下聚焦在场深度体验（小程序），线上探索远程研学、文创内容、知识可视化等场景（探元平台），并引入大众共创和公益做好事机制，形成数据反哺闭环。
L3AI智能体层	AI智能体层行业智能体 + Skill平台按领域和场景搭建 Agent，将语料服务于场景，覆盖学术问答、智能检索、教育教学、文旅导览等领域，同时以Agent\Skill方式开放文化数据资产，赋能司内司外文化场景。
L2AI知识库层	AI知识库层人机协同系统 + 高质量数据集人(行业专家)+ 机(混元AI)共建文化知识图谱，对语料做结构化抽取，建立低门槛、高效率、高复用的数据系统工具。数据可反哺混元底模提升，并进一步应用于司内 AI 产品。
L1数据资产层	数据资产层数据语料+资产授权+专家资源与博物馆、研究院、非遗机构等行业伙伴深度共建原始语料，机构懂文化，我们懂技术，各出所长。原始语料涵盖文物信息、历史文献、非遗档案等全品类文化遗产数据资产。

这四层能力逐层叠加、相互支撑。L1 和 L2 构成 AI 知识库的底座能力，回答"我们能做什么、凭什么做"；L3 和 L4 构成 AI 向善的价值出口，回答"做了之后产生什么社会价值、怎么让全民参与进来"。以下分两个部分展开。

二底座：AI 知识库（L1 · 数据资产层 + L2 · 知识工程层）

2.1 定义问题（为什么需要 AI 知识库）

中国有 1.08亿件可移动文物（一级文物超过20万件）、76万处不可移动文物、非遗资源总量接近87万项。但绝大部分文化遗产的数字化程度很低——有藏品、没数据，有数据、没结构，有结构、没应用。

核心矛盾：文化行业有海量专业积累，但缺少把这些积累转化为 AI 可用、用户可感的技术路径。

行业天花板足够大：文化遗产数字化是国家战略级议题，市场空间和社会价值的天花板极高。

2.2 AI 知识库做了什么，以及它的价值

探元 AI 知识库不是一个简单的数据库，而是一套"从原始语料到结构化知识"的完整技术体系。它的核心价值体现在以下几个维度：

2.2.1 产品技术特色

源数据来源广泛

抓重点抓典型，再扩充品类

来自博物馆、文献、典籍、报告、非遗档案、学术论文等多种渠道，覆盖了文化遗产领域的主要信息类型，具有代表性、准确性、权威性。

多模态资产体系

高质量多模态数据 + 资产授权

涵盖结构化文本、高清图片、3D 模型等多模态数据形态，为后续的 AI 应用和用户体验提供了丰富的素材基础。

AI 驱动的数据清洗与结构化

AI赋能提效

通过AI进行数据清洗、实体识别、关系抽取和结构化处理，实现了革命性提效。解决传统数据提取依赖大量人工、效率低的问题，大幅缩短吞吐量和执行周期。

知识图谱与信息可视化

知识体系与行业背书

与北大信管&数字人文学院合作，构建文化领域的专业知识图谱，将文物、人物、事件、地点、工艺等实体之间的关系网络化，建立行业通用数据标准。

2.2.2 价值阐释

1、行业价值

为文化行业提供了一条从"数据沉淀"到"智能应用"的标准化路径——以前每个文博机构是信息孤岛，现在有统一的技术底座和网络，并能从底层数据实现联通。

2、用户价值

降低文化使用门槛、提升文化沉浸感受——不需要是专家也能听懂一件文物在说什么，不需要跑到现场也能获得高质量的文化体验。

3、司内协作价值

（1）混元：高质量结构化数据反哺混元大模型，提升其在文化垂域的理解和生成能力；基于混元底模提升，可以更好探元及其他司内 AI 产品和服务。形成了"数据反哺底座 → 底座增强产品 → 产品服务内外"的正向循环。
（2）游戏&内容：数据资产以 Agent 形式输出给游戏、新闻、AI产品等业务部门。
（3）公益：联动公益平台，建立"人人都是文化语料贡献者"的公益反哺模式，社会参与让大家关注文化，并实质性助力语料建设。

2.2.3 可持续性与护城河

数据独占性：原始语料来自与文化机构的深度合作关系，这种信任关系和数据授权需要长期沉淀与互信，非快速能完成构建。

场景独占性：文化遗产场景的公益属性有一定特殊性，天然属于 SSV 的职责范围，商业行为不会也不适合做这件事。

价值链完整性：从数据到知识到智能体到产品，全链路自主，不依赖外部。

飞轮效应：数据越多 → 知识库越强 → 产品体验越好 → 用户越多 → 共创数据越多。进入正循环后壁垒指数级增长。

知识库系统已发布，进入小范围内测

https://kb.tanyuan.qq.com/ 开通白名单后可使用。已实现：①数据清洗 ②解析分片 ③知识图谱构建 ④结构化提取 ⑤质量评估 ⑥数据可视化

知识库系统功能展示

1在文档上传界面，可以批量上传文档，支持多种文件格式；解析后的文档点击可直接查看markdown格式与原文档的对比，也可对markdown格式的文档进行编辑

2自动化任务界面中，可以创建解析+数据加工的自动化任务，自动对批量文件进行解析、清洗、抽取并形成数据集，也可实时查看任务进度

3数据集管理界面中，可以查看数据集详情，可以选择对数据集发起质量评估，也可以下载数据集

4质量评估界面中，支持多位专家同时对数据集进行评估。遇到有问题的描述可直接进行修订，提交结果后，会作为修订建议传给数据集创建者，经评估后更新至数据集

5知识图谱界面，支持知识抽取类的数据集生成可视化的知识图谱，点击具体的节点后可以展现出关键节点的内容介绍和相关联的节点关系

2.3 当前数据集建设与实践进展

AI 知识库提供的是一套完整的工具和方法论，而这套工具最终要服务于具体的文化数据集的加工与建设。

数据集全局看板

566+

合作机构

博物馆+科研院所
覆盖22省

3.7万

文物数字资产

授权文物7,086件
文创素材29,776件

20万+

结构化语料

语料2万+释文8万
百科8千+景德镇3万

150万+

多模态资产

甲骨拓片143万
图片10万+3D资产15T

1,700+

覆盖遗产品类

UNESCO 1,200+
敦煌492窟+共创12场景

目前，探元已经在多个数据集方向上展开了实践：

中轴线

针对北京中轴线等具有代表性的文化遗产线路，建立空间化、时间化的知识图谱，将建筑、历史事件、人物活动等多维信息串联。

核心地标3D模型 15个制作量 15T数字资源 1,000+件授权使用 11,000+次中英文官方申遗文本、遗产点介绍、官方活动语料库

甲骨文

针对甲骨文、金文、简牍等古文字领域，建立专业的字形识别、释读辅助和知识关联数据集，服务于学术研究和公众科普。

文献数据集 3,000篇图片部件库 10万张剑桥数据库 6,000字头字库+拓片 143万已标注多模态字头 1万+释文库 8万篇+

景德镇

申遗文本、申遗报告、古陶瓷基因库等关于景德镇瓷业研究的相关文档、图片等语料。

文献资料 3万+含申遗文本、历史介绍、工艺说明

敦煌

含敦煌研究院提供的莫高窟讲解语录。

覆盖洞窟 492个官方权威介绍

可移动文物数据集（繁星计划）

最典型、探元实践时间最长的数据集，目前绝大部分文物尚未完成高质量数据集建设。探元与博物馆合作，在将这些文物的源数据、影像、知识关联逐步纳入知识库体系，形成可被 AI 理解和应用的标准化资产。

博物馆入驻 566家覆盖 22省授权文物 7,086件文创素材 29,776件语料库覆盖 20,178件完整百科 7,927件（3000字/件+4K三视图20张/件）基础介绍+讲解词 12,251件

世界遗产数据集

围绕世界遗产的申报、保护和传播场景，构建专属数据集。例如景德镇中轴世界遗产项目，正在建立陶瓷文化的完整知识体系。社科院合作。

UNESCO收录 1,200+遗产申遗文本47届世界遗产大会资料论文/报告上千篇

故宫

围绕书法和古文字书画展开，目标5000件文字类（字画、法书、碑帖），覆盖汉字七体（甲骨文、金文、篆文、隶书、楷书、行书、草书），合作共建混元OCR模型专项。

已采集书法类 2,212件法书407件行书、草书

探元计划

AI考古和AI活化赛道入围12个共创场景，目标有6个场景围绕数据集建设展开，并沉淀到探元平台和AI知识库。

共创场景 12个数据集建设场景 6个

这些数据集都是基于探元 AI 知识库系统所产生的建设产物。知识库提供统一的工具和流程，不同品类的数据集则在这套基础设施上各自生长，最终汇聚成一个覆盖多品类、多模态的文化数据资产网络。

三重点应用

3.1 故宫（混元）

1. 背景介绍

和故宫签订第三次捐赠战略协议，聚焦AI共创议题。26年初双方建立项目组，经过多轮沟通，确定26年围绕古文字、书法品类构建书法子类多模态数据集。
核心挑战和应用价值：古文字因其形态多变、结构复杂、语义演化显著，始终是当前OCR与语言模型能力体系中的重要薄弱环节。在数字人文、古籍整理、文物保护等应用场景中，对古文字的高质量解析能力具有重要价值。因此，构建系统化、规模化的古文字识别能力，已成为大模型技术向更高层次演进的重要方向之一。
司内合作，混元视觉模型正在推进Data3.0，与正在构建的古文字专项非常契合（接口人：winstony 视觉大模型算法中心负责人）

2. 共建目标

（1）共建书法类多模态数据集

故宫提供5000件原始文物扫描件+故宫文字专家标注，推动书法类模型评测标准、对混元OCR模型升级。目前已提供书法类2212件法书，407件行书、草书覆盖字画、法书、碑帖类文字识别。

示例：皇朝礼器（2212件）

示例：赤壁赋（407件行书、草书）

（2）混元OCR模型升级

联合技术生态、混元多模态团队，协调行业顶级文字专家资源和复用过往沉淀数据集（甲骨文多模态数据集，1万条高质量数据），定向提升混元OCR模型在古文字领域识别能力。

在加入专项数据优化后，在HYOCR-2.0专项模型对外发布以及HY-Vision-3.0主路模型发版期间，故宫侧可提供行业背书，扩大行业影响力。

（3）古文字OCR评测标准

协助审核混元OCR古文字汉字七体（甲骨文、金文、篆文、隶书、楷书、行书、草书）的评测标准。共建行业公开Bench（参考babyvision），基于目前正在建设的古文字公开Bench，计划与故宫侧一起共建博物馆古文字类目，届时对外发布业界公开的古文字识别Benchmark。

3. 价值

对故宫

提升专家研究效率，尤其是正楷、行楷、行书（故宫核心刚需业务场景）智能识别。

对混元

帮助混元OCR在古文字识别领域建立差异化能力。

对探元平台

拓展了非文物类场景，后续应用到故宫官网、故宫小程序、探元平台，服务专家的古籍OCR需求，同时探索基于古文字的互动玩法。

3.2 可移动文物（公益·繁星计划）

可移动文物大众感知最明显，也是文化实验室沉淀多年的领域，通过繁星计划验证模式，并与公益平台产品打通、实现公益反哺常态化。并进一步向非遗、世界遗产、传统工艺等更多文化遗产领域延展

众包众创：全民参与的文化数据贡献重点

文化共创——不仅让公众消费文化，更让公众成为文化数据的贡献者。这是探元 AI 向善最核心的机制设计。

专业创作者的贡献

探元平台构建开源的文化数据集体系。允许研究人员、深度爱好者、行业从业者等专业群体共同参与数据集的共创——包括知识的补充、数据的标注、内容的校对和创意的转化。

社会大众的贡献

面向所有文化爱好者和普通人。可以通过小程序线下拍照上传文物影像、补充民间口述历史、参与语料标注、进行 AI 创意创作。每个人的贡献都在让文化遗产"多活一点"。

公益项目驱动的正向飞轮

公益参与

语料标注·影像上传
知识贡献→成就激励

→

公益捐赠

"参与即公益"
带动实际资金支持

→

机构数字化

公募→分募机构
定向数字化建设

→

更多数据

知识库·产品体验
持续提升

→

更多参与

吸引更多用户
↻ 循环加速

飞轮转动起来，AI 向善就不再是团队的能力上限，而是自生长的社会化文化数据生态

护城河和独特性：共建+共享的产品机制一旦形成网络效应，数据规模和参与者生态就是最大的壁垒。只有公益属性才能建立这种社会信任。

3.3 繁星计划：规模化验证

繁星计划

繁星计划是探元 AI 向善"共创+共享"模式最重要的规模化验证场。

核心打法：以 AI 技术为引擎、以"文博码"为统一入口、以"参与即公益"为运营机制。

2025 年久久实践，共有 556 家馆参与，110万人次参与。

2026 年目标 200+ 博物馆联动（已新增拓展133家）。

2026全面目标：1000+博物馆，语料1万件，300万（当前113万）数字守艺人。

SSV 数字文化实验室

探元AI知识库

草稿箱