中文大语言模型

国家超算中心发布中文大语言模型

近日,在第七届世界智能大会上,国家超级计算天津中心正式发布打造「天河 E 级智能计算开放创新平台」,研发训练「天河天元大模型」。天津超算中心搜集整理了网页数据、各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据以及专业领域的中医、医药、问诊、法律等多种数据集,训练数据集总 token 数达到 350B,训练打造了自己的中文语言大模型——天河天元大模型。