3月17日,字节跳动宣布向北大教育基金会提供捐赠,全面支持“北京大学-字节跳动数字人文开放实验室”的工作,研发古籍数字化平台,利用智能技术加速中华古籍资源的数字化建设,向全社会提供公益化服务。
据了解,该实验室将调动国内外的相关力量,在三年内完成一万种精选古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录,提供开放、体验良好的阅读服务和基本文本库,并借助知识图谱等技术帮助学者高效检索和利用古籍中的信息。
同时,项目也将推出结合OCR、句读、实体识别和知识图谱等技术构建的一站式自动古籍智能化整理平台,并对社会大众免费开放,便于收藏机构、研究者、相关专业的师生和广大古籍爱好者自行完成古籍数字化工作,加快整个行业数字化古籍资料的效率。
中国古籍一直面临数字化程度低、以文本形式进行数字化的古籍数量少、难以检索等问题。数据显示,我国现存古籍有20万种,据不完全统计,其中有数字化扫描影像的有8万种,而实现文本数字化的仅有3-4万种左右。这对于古籍内容检索和开展研究造成了不便。
“北京大学-字节跳动数字人文开放实验室”重视传承中华传统文化,希望将平台建设成为开放、共享、可对古籍进行充分检索利用的信息平台,以应对这些古籍保护与利用中的挑战。
“我们希望通过公益捐赠,支持北大的古籍数字化成果全面转化为社会服务。我们也希望与北大的跨学科团队在OCR、自然语言处理、知识图谱等技术领域展开全面合作,充分利用人工智能技术加快古籍数字化整理、研究、与利用,让更多的研究者、爱好者以更高效、便利的方式获取古籍里蕴藏的丰富知识。”字节跳动 AI Lab总监李航表示。
字节跳动对古籍保护与利用的关注是长期的。2021年6月17日,字节跳动联合中国文物保护基金会,在国家图书馆成立古籍保护专项基金,初期启动资金人民币1000万元,用于修复《永乐大典》“湖”字册等105册(件)珍贵古籍、培养100名修复人才等项目。据了解,这些修复的古籍也将逐步引入古籍数字化平台。
“我们将发挥字节跳动在互联网产品研发和设计上的优势,优化并创新古籍数字化平台的产品功能,为大家提供更好的古籍检索和阅读体验。”北京字节跳动企业社会责任部产品总经理唐垲鑫说,“后续我们还会尝试将古籍数字化平台的内容与今日头条、头条百科、抖音等产品相连接,让优质的古籍内容和传统文化知识可以触及到更多用户。”
字节跳动公益还发起“寻找古籍守护人计划”,邀请专家学者、文化名人、抖音创作者通过知识讲解、说书、绘画等形式传播古籍内容,普及古籍知识,传播古典文化。