SSV 数字文化实验室

请输入访问密码

探元AI知识库

SSV 数字文化实验室  |  V6  |  2026.04
探元平台产品架构

探元平台围绕"AI+文化"构建了一套四层递进的架构,从底层数据到上层应用形成完整的能力体系,聚焦可持续与AI向善:

众包与共创平台

建立开放平台,鼓励公众参与文化数据的标注、补充与创意转化,形成"全民共建"生态。

数字素养提升

开展面向公众的AI文化应用培训,降低技术使用门槛,让更多人成为文明传承的"数字志愿者"。

L4产品应用层
产品应用层
矩阵式产品,活化利用
线下聚焦在场深度体验(小程序),线上探索远程研学、文创内容、知识可视化等场景(探元平台),并引入大众共创公益做好事机制,形成数据反哺闭环
L3AI智能体层
AI智能体层
行业智能体 + Skill平台
按领域和场景搭建 Agent,将语料服务于场景,覆盖学术问答、智能检索、教育教学、文旅导览等领域,同时以Agent\Skill方式开放文化数据资产,赋能司内司外文化场景。
L2AI知识库层
AI知识库层
人机协同系统 + 高质量数据集
人(行业专家)+ 机(混元AI)共建文化知识图谱,对语料做结构化抽取,建立低门槛、高效率、高复用的数据系统工具。数据可反哺混元底模提升,并进一步应用于司内 AI 产品。
L1数据资产层
数据资产层
数据语料+资产授权+专家资源
与博物馆、研究院、非遗机构等行业伙伴深度共建原始语料,机构懂文化,我们懂技术,各出所长。原始语料涵盖文物信息、历史文献、非遗档案等全品类文化遗产数据资产
这四层能力逐层叠加、相互支撑。L1 和 L2 构成 AI 知识库的底座能力,回答"我们能做什么、凭什么做";L3 和 L4 构成 AI 向善的价值出口,回答"做了之后产生什么社会价值、怎么让全民参与进来"。以下分两个部分展开。
底座:AI 知识库(L1 · 数据资产层 + L2 · 知识工程层)
2.1 定义问题(为什么需要 AI 知识库)

中国有 1.08亿件可移动文物(一级文物超过20万件)、76万处不可移动文物、非遗资源总量接近87万项。但绝大部分文化遗产的数字化程度很低——有藏品、没数据,有数据、没结构,有结构、没应用

核心矛盾:文化行业有海量专业积累,但缺少把这些积累转化为 AI 可用用户可感的技术路径。

行业天花板足够大:文化遗产数字化是国家战略级议题,市场空间和社会价值的天花板极高。
2.2 AI 知识库做了什么,以及它的价值

探元 AI 知识库不是一个简单的数据库,而是一套"从原始语料到结构化知识"的完整技术体系。它的核心价值体现在以下几个维度:

AI知识库架构图

2.2.1 产品技术特色

源数据来源广泛
抓重点抓典型,再扩充品类

来自博物馆、文献、典籍、报告、非遗档案、学术论文等多种渠道,覆盖了文化遗产领域的主要信息类型,具有代表性、准确性、权威性。

多模态资产体系
高质量多模态数据 + 资产授权

涵盖结构化文本、高清图片、3D 模型等多模态数据形态,为后续的 AI 应用和用户体验提供了丰富的素材基础。

AI 驱动的数据清洗与结构化
AI赋能提效

通过AI进行数据清洗、实体识别、关系抽取和结构化处理,实现了革命性提效。解决传统数据提取依赖大量人工、效率低的问题,大幅缩短吞吐量和执行周期。

知识图谱与信息可视化
知识体系与行业背书

北大信管&数字人文学院合作,构建文化领域的专业知识图谱,将文物、人物、事件、地点、工艺等实体之间的关系网络化,建立行业通用数据标准

2.2.2 价值阐释

1、行业价值

为文化行业提供了一条从"数据沉淀""智能应用"的标准化路径——以前每个文博机构是信息孤岛,现在有统一的技术底座和网络,并能从底层数据实现联通。

2、用户价值

降低文化使用门槛提升文化沉浸感受——不需要是专家也能听懂一件文物在说什么,不需要跑到现场也能获得高质量的文化体验。

3、司内协作价值

(1)混元:高质量结构化数据反哺混元大模型,提升其在文化垂域的理解和生成能力;基于混元底模提升,可以更好探元及其他司内 AI 产品和服务。形成了"数据反哺底座 → 底座增强产品 → 产品服务内外"的正向循环。
(2)游戏&内容:数据资产以 Agent 形式输出给游戏、新闻、AI产品等业务部门。
(3)公益:联动公益平台,建立"人人都是文化语料贡献者"的公益反哺模式,社会参与让大家关注文化,并实质性助力语料建设。

2.2.3 可持续性与护城河

数据独占性:原始语料来自与文化机构的深度合作关系,这种信任关系和数据授权需要长期沉淀与互信,非快速能完成构建。
场景独占性:文化遗产场景的公益属性有一定特殊性,天然属于 SSV 的职责范围,商业行为不会也不适合做这件事。
价值链完整性:从数据到知识到智能体到产品,全链路自主,不依赖外部。
飞轮效应:数据越多 → 知识库越强 → 产品体验越好 → 用户越多 → 共创数据越多。进入正循环后壁垒指数级增长。

知识库系统已发布,进入小范围内测

https://kb.tanyuan.qq.com/  开通白名单后可使用。已实现:①数据清洗 ②解析分片 ③知识图谱构建 ④结构化提取 ⑤质量评估 ⑥数据可视化

知识库系统功能展示
2.3 当前数据集建设与实践进展

AI 知识库提供的是一套完整的工具和方法论,而这套工具最终要服务于具体的文化数据集的加工与建设。

数据集全局看板
566+
合作机构
博物馆+科研院所
覆盖22省
3.7万
文物数字资产
授权文物7,086件
文创素材29,776件
20万+
结构化语料
语料2万+释文8万
百科8千+景德镇3万
150万+
多模态资产
甲骨拓片143万
图片10万+3D资产15T
1,700+
覆盖遗产品类
UNESCO 1,200+
敦煌492窟+共创12场景

目前,探元已经在多个数据集方向上展开了实践:

中轴线
针对北京中轴线等具有代表性的文化遗产线路,建立空间化、时间化的知识图谱,将建筑、历史事件、人物活动等多维信息串联。
核心地标3D模型 15个制作量 15T数字资源 1,000+件授权使用 11,000+次中英文官方申遗文本、遗产点介绍、官方活动语料库
甲骨文
针对甲骨文、金文、简牍等古文字领域,建立专业的字形识别、释读辅助和知识关联数据集,服务于学术研究和公众科普。
文献数据集 3,000篇图片部件库 10万张剑桥数据库 6,000字头字库+拓片 143万已标注多模态字头 1万+释文库 8万篇+
景德镇
申遗文本、申遗报告、古陶瓷基因库等关于景德镇瓷业研究的相关文档、图片等语料。
文献资料 3万+含申遗文本、历史介绍、工艺说明
敦煌
含敦煌研究院提供的莫高窟讲解语录。
覆盖洞窟 492个官方权威介绍
可移动文物数据集(繁星计划)
最典型、探元实践时间最长的数据集,目前绝大部分文物尚未完成高质量数据集建设。探元与博物馆合作,在将这些文物的源数据、影像、知识关联逐步纳入知识库体系,形成可被 AI 理解和应用的标准化资产。
博物馆入驻 566家覆盖 22省授权文物 7,086件文创素材 29,776件语料库覆盖 20,178件完整百科 7,927件(3000字/件+4K三视图20张/件)基础介绍+讲解词 12,251件
世界遗产数据集
围绕世界遗产的申报、保护和传播场景,构建专属数据集。例如景德镇中轴世界遗产项目,正在建立陶瓷文化的完整知识体系。社科院合作。
UNESCO收录 1,200+遗产申遗文本47届世界遗产大会资料论文/报告 上千篇
故宫
围绕书法和古文字书画展开,目标5000件文字类(字画、法书、碑帖),覆盖汉字七体(甲骨文、金文、篆文、隶书、楷书、行书、草书),合作共建混元OCR模型专项。
已采集书法类 2,212件法书407件行书、草书
探元计划
AI考古和AI活化赛道入围12个共创场景,目标有6个场景围绕数据集建设展开,并沉淀到探元平台和AI知识库。
共创场景 12个数据集建设场景 6个

这些数据集都是基于探元 AI 知识库系统所产生的建设产物。知识库提供统一的工具和流程,不同品类的数据集则在这套基础设施上各自生长,最终汇聚成一个覆盖多品类、多模态的文化数据资产网络。


重点应用
3.1 故宫(混元)

1. 背景介绍

  • 和故宫签订第三次捐赠战略协议,聚焦AI共创议题。26年初双方建立项目组,经过多轮沟通,确定26年围绕古文字、书法品类构建书法子类多模态数据集
  • 核心挑战和应用价值:古文字因其形态多变、结构复杂、语义演化显著,始终是当前OCR与语言模型能力体系中的重要薄弱环节。在数字人文、古籍整理、文物保护等应用场景中,对古文字的高质量解析能力具有重要价值。因此,构建系统化、规模化的古文字识别能力,已成为大模型技术向更高层次演进的重要方向之一。
  • 司内合作混元视觉模型正在推进Data3.0,与正在构建的古文字专项非常契合(接口人:winstony 视觉大模型算法中心负责人)

2. 共建目标

(1)共建书法类多模态数据集

故宫提供5000件原始文物扫描件+故宫文字专家标注,推动书法类模型评测标准、对混元OCR模型升级。目前已提供书法类2212件法书,407件行书、草书覆盖字画、法书、碑帖类文字识别。

皇朝礼器

示例:皇朝礼器(2212件

赤壁赋

示例:赤壁赋(407件行书、草书)

(2)混元OCR模型升级

联合技术生态混元多模态团队,协调行业顶级文字专家资源和复用过往沉淀数据集(甲骨文多模态数据集,1万条高质量数据),定向提升混元OCR模型在古文字领域识别能力。

在加入专项数据优化后,在HYOCR-2.0专项模型对外发布以及HY-Vision-3.0主路模型发版期间,故宫侧可提供行业背书,扩大行业影响力。

(3)古文字OCR评测标准

协助审核混元OCR古文字汉字七体(甲骨文、金文、篆文、隶书、楷书、行书、草书)的评测标准。共建行业公开Bench(参考babyvision),基于目前正在建设的古文字公开Bench,计划与故宫侧一起共建博物馆古文字类目,届时对外发布业界公开的古文字识别Benchmark

3. 价值

对故宫

提升专家研究效率,尤其是正楷、行楷、行书(故宫核心刚需业务场景)智能识别。

对混元

帮助混元OCR在古文字识别领域建立差异化能力。

对探元平台

拓展了非文物类场景,后续应用到故宫官网、故宫小程序、探元平台,服务专家的古籍OCR需求,同时探索基于古文字的互动玩法。

3.2 可移动文物(公益·繁星计划)

可移动文物大众感知最明显,也是文化实验室沉淀多年的领域,通过繁星计划验证模式,并与公益平台产品打通、实现公益反哺常态化。并进一步向非遗、世界遗产、传统工艺等更多文化遗产领域延展

众包众创:全民参与的文化数据贡献 重点

文化共创——不仅让公众消费文化,更让公众成为文化数据的贡献者。这是探元 AI 向善最核心的机制设计。

专业创作者的贡献

探元平台构建开源的文化数据集体系。允许研究人员、深度爱好者、行业从业者等专业群体共同参与数据集的共创——包括知识的补充、数据的标注、内容的校对和创意的转化。

社会大众的贡献

面向所有文化爱好者和普通人。可以通过小程序线下拍照上传文物影像、补充民间口述历史、参与语料标注、进行 AI 创意创作。每个人的贡献都在让文化遗产"多活一点"。

公益项目驱动的正向飞轮
公益参与
语料标注·影像上传
知识贡献→成就激励
公益捐赠
"参与即公益"
带动实际资金支持
机构数字化
公募→分募机构
定向数字化建设
更多数据
知识库·产品体验
持续提升
更多参与
吸引更多用户
↻ 循环加速

飞轮转动起来,AI 向善就不再是团队的能力上限,而是自生长的社会化文化数据生态

护城河和独特性:共建+共享的产品机制一旦形成网络效应,数据规模和参与者生态就是最大的壁垒。只有公益属性才能建立这种社会信任。
3.3 繁星计划:规模化验证
繁星计划

繁星计划是探元 AI 向善"共创+共享"模式最重要的规模化验证场。

核心打法:以 AI 技术为引擎、以"文博码"为统一入口、以"参与即公益"为运营机制

2025 年久久实践,共有 556 家馆参与,110万人次参与。

2026 年目标 200+ 博物馆联动(已新增拓展133家)。

2026全面目标:1000+博物馆,语料1万件300万(当前113万)数字守艺人。

100%
编辑模式 — 点击文本直接编辑,修改自动存入草稿箱,完成后点"导出"下载最终文件

草稿箱

暂无修改记录