行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。当前,高质量行业数据供给不足成为制约产业落地的瓶颈之一。
赛智产业研究院人工智能研究所所长安赟表示,人工智能正在从通用对话和内容生成向智能体、科学智能、具身智能和世界模型等方向演进,对行业数据的专业性、结构性、场景性和可验证性提出了更高要求。
在众多数据资源中,专利数据的价值长期被低估。据北京八月瓜科技有限公司董事长李长青介绍,专利兼具技术属性与法律属性,其核心在于“公开换保护”,要求发明人充分披露技术细节,以换取法定期限内的独占权。
“AI可信语料核心在于来源、质量、应用三重可信,知识产权数据正是天然优质语料,是训练专业领域大模型最好的燃料。”北京八月瓜科技有限公司联席CEO、合伙人孙鹏说。
如何把海量专利数据变成真正可用的AI燃料?八月瓜科技依托国家知识产权局全量专利数据,构建起汇集专利、诉讼、商标、文献、工商等多类数据、总规模逾26亿的数据体系。
将原始专利转化为高质量数据集,是一个高门槛的系统工程。据孙鹏介绍,公司采取垂直领域聚焦策略,重点布局新材料、生物医药、化学化工三大行业,每个细分领域均配备专业团队深度处理。数据来源覆盖全球178个国家和地区的超2亿专利数据,标注过程采用“机器+专家”两级模式,确保上下文理解准确,避免因误标导致模型训练失效。
目前,八月瓜已形成“多语言专利文本平行语料库”和“外观专利图文库”两项数据集成果,入选北京市行业高质量数据集典型案例。据企业介绍,其已累计服务超10000家科技企业。
李长青表示,高质量专业数据的重要性正日益凸显,成为AI竞争中与算力同等关键的要素。八月瓜将打造“专利数据+期刊论文数据”融合图谱,实现两种核心科技数据的智能融合,为AI for Science(人工智能驱动的科学研究)提供更深层次的燃料支撑,深度参与国家高质量数据集建设,推动科技数据从可用走向好用。(经济日报记者 黄鑫)
(责任编辑:冯虎)