近日,教育部、国家语委、中央网信办共同印发《关于加强数字中文建设推进语言文字信息化发展的意见》(简称《意见》),对加快推进以信息化促进语言文字事业高质量发展,以数字化赋能语言文字更好服务现代化建设等作出了全面部署。
当敦煌藏经洞的千年文书在数字世界中苏醒,甲骨文的刻痕以数据跃动永驻云端……数字中文,正以代码为笔、算法为墨,在虚实交织中联结过去与未来。
数智赋能语言文字高质量发展
语言文字“日学而不察、日用而不觉”,广泛存在于社会生产各个方面。
如今,中国已建成世界最大的规模语言资源库和中国语言资源知识图谱,集成120多种语言和方言资源。今年,全国语言文字使用情况调查将首次实施,打造集数据采集、传输、存储、加工一体的集成化调查平台,为深化教育综合改革和综合国力分析提供大数据支撑。
为加快推进语言文字信息化,《意见》提出,将数字中文建设作为服务数字中国建设的重要任务和全面推进语言文字信息化发展的突出重点,着力推进中文数字化与数据中文化,完善新型中文服务体系构建与语言文字治理体系。
教育部语言文字信息管理司司长刘培俊介绍,中国已发布100多项国家通用语言文字和民族语言文字信息化规范标准,为自然语言处理技术在人工智能、数字产品和信息产业领域的应用创新奠定规范基础。
语言文字智慧化学习的广泛开展,有力服务了教育改革创新。比如,高水平开展普通话水平测试,全面实现从人工到智能的普通话测试方式转变,制发电子证书9000多万份。在广东,已建成全国首个普通话水平测试智慧考场,考场首创“随到随考”测试模式,大幅提升了普通话测试效率。
语言文明智能化传播联通世界,也有力服务了国际交流互鉴。通过数字赋能,书写在古籍里的文字实现“活化”,建成中华思想文化术语数据库,面向国际传播1200多条反映中华民族话语体系中最核心最本质的思想文化术语,并与40多个国家和地区开展多语种数字版权合作。
“中国已建成集成化、智能化、国际化的全球中文学习平台,用户超1600万人,覆盖190多个国家和地区,深度合作建立联盟,中文学习联盟云服务平台提供3万门在线课程,与中外1600多家机构合作,推动实现中文人人、时时、处处可学可用、易学易用。”刘培俊说。
建设新型国家语料库
今年,教育部启动布局了新型国家语料库的建设工作。《意见》明确,到2027年,初步建成国家关键语料库和国家战略语言资源信息库。
新型国家语料库为什么如此重要?又将在语言文字信息化工作中发挥何种作用?
“当前以深度求索(DeepSeek)等为代表的人工智能技术创新不断取得突破性进展,在这个大背景下,国家提出这样一个战略部署,建设新型国家语料库,凸显了其重要性、必要性和紧要性。”教育部语言文字应用管理司副司长王晖如是说。
现阶段,语言教育教学和研究领域存在多个语料库,但很多语料库还处于单一文本模式和领域应用阶段。这些语料库在建设的理念、技术和方法、规模,以及数据多样性、时效性尤其是与人工智能相结合的大规模应用方面尚存在不足,难以满足多元化、动态化尤其是智能化的语言数据需求。
找准这一难点,王晖介绍,建设新型国家语料库立足人工智能时代大背景,突破传统语料库单一文本模式和领域应用壁垒,以大模型训练及性能评测、智能计算为核心,以新质态、多模态、多语言、大规模、全域性为突出特性,为通用领域和细分领域多场景应用及创新发展提供规范、可信、高质量的语言文化语料资源。
“主要包括两方面:一是规范引领,主要是加强制度的供给,研制语料库建设规范,突出价值导向、应用导向、创新导向,统筹质量和安全,为语料库建设提供基础原则和方法指引。二是示范引导,成熟先上,开发建设‘中华文脉新型语料库’‘中华大阅读体系语料库’,以这两个示范库建设整体打造出标杆,‘中华文脉新型语料库’也可以简单理解瞄准的是智慧教师,‘中华大阅读体系语料库’瞄准的是智慧学伴。”王晖说。
数字中文推动产业升级
20世纪80年代,北京大学王选团队发明激光照排技术,并结合汉字编码标准,突破了中文数字化的空间限制,让承载中华文化的中文在全球互联网空间获得新生。那是一场从“铅与火”到“光与电”的变革,而如今,大语言模型技术对大规模高质量语料提出前所未有的需求,赋予了数据中文化新的历史内涵和使命任务。
历史阶段不同,但机遇和挑战相似。
北京大学王选计算机研究所所长汤帜认为,当前,中文信息处理技术的发展从以往解决汉字输入输出的基础性问题,进阶到当先释放语言文字数据要素价值的全方位突破。
《意见》提出,实施数字中文推动产业升级行动。支持语言文字信息技术新产品、新职业和新业态发展,鼓励传统语言产业数字化转型升级,培育基于数字中文的新型语言产业。推动语言资源、语言翻译、智能机器人、中文内容服务等软硬件产品研发应用,支持围绕语音、语料、语言应用生态形成产业聚集,鼓励创建语言产业应用示范品牌。
“新形势下,语言文字将从实现‘静态符号’向‘动态数字资产’,从‘信息载体’向‘生产要素’的转型,要重点推动语料库、数据标注与评价等标准的研制,支持文本生成与理解、语言翻译、情感分析等各种任务。”汤帜表示,人工智能发展迅速,语言文字信息处理技术创新应用正经历从“GB2312字符集”到“万亿参数大语言模型”的范式变革,语言文字未来将实现与信息技术的深度融合,形成“技术突破—场景落地—生态繁荣”的良性循环。(记者孙亚慧)
甲骨文
智能云
数智之笔
中文发展
发现网登载此文出于传递更多信息之目的,并不意味赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。违法、不良信息举报和纠错,及文章配图版权问题均请联系本网,我们将核实后即时删除。