新闻资讯

国家超算互联网平台上线超长文本多模态大模型,助力AI智能体开发

随着越来越多的智能体(Agent)进入应用场景,无论是单个智能体工作时产生的记忆,还是多个智能体协作产生的上下文,都会对大模型的上下文窗口长度提出更高要求。澎湃科技4月15日获悉,国家超算互联网平台近日已上线超长文本多模态大模型,该模型由上海稀宇科技有限公司(以下简称“稀宇科技”)研发,分别为MiniMax-Text-01和MiniMax-VL-01。

SCNet超算互联网平台chat页面截图  来源:MiniMax供图

国家超算互联网作为国家级算力服务平台,于2024年4月正式上线,今年2月启动了“AI生态伙伴加速计划”,提供3个月DeepSeek API接口 *** 、千万卡时算力资源池等激励,并通过技术赋能、市场协同、资源扶持三位一体,加速生态伙伴全面发展。

统计数据显示,自上线一年以来,国家超算互联网平台总用户量已突破35万,连接了全国14个省区市20多家超算和智算中心,并上线算力商品超6500款。澎湃科技注意到,其中AI模型服务有近240款,既有阿里通义千问Qwen、DeepSeek等国内开源模型,也有Llama、Stable Diffusion、Gemma等国外AI开源模型。

稀宇科技认为,该公司此次与国家超算互联网平台的合作能激发更多关于长上下文技术的创新研究与实际应用。长上下文能力与多模态处理能力的提升,有助于智能体为各行业带来更丰富、高效的解决方案。

“放眼国内外的大模型,‘大脑’虽大,但‘记忆力’往往不够。”稀宇科技研发负责人表示,“如果让大模型理解一份长达1000页的法律合同、一部长篇小说或一个几十万行的源代码项目,并给出准确的摘要、发现潜在风险、提出结构化建议,大多数大模型都无法完成任务,因为它们连读完材料也做不到,更不用说音视频等多模态信息处理了。而MiniMax-01可以做到,因为它的上下文窗口约为700万字,相当于一下子读完中国四大文学名著和哈利波特全集。”

据了解,今年初发布并开源的新一代系列模型MiniMax-01首次将线性注意力机制扩展到商用模型级别,综合能力跻身全球之一梯队。特别是在“上下文长度”这个指标上,它达到了国内外一些顶尖模型的20—32 倍水平,推理时的上下文窗口能达到400万token(词元)。在架构上,MiniMax-Text-01几乎重构了训练和推理系统,模型的参数量高达4560亿,每次激活459亿。在注意力机制层面,它的80个注意力层有架构创新,使大模型在处理长输入时在确保处理效果的同时做到了低延迟。这意味着该模型不仅能一次性完成大量文字的分析,还能做到真正理解并高效处理超长内容。

此次MiniMax加入国家超算互联网,将充分利用平台强大的算力资源、开放协作的生态体系以及广泛的开发者 *** ,稀宇科技认为,“此次合作不仅能够激发更多关于长上下文技术的创新研究与实际应用,推动Agent时代更快到来,也能通过开源形式进一步激励我们开展更深入、高质量的模型研发和创新工作。”未来,该公司还将继续以开源形式发布新版旗舰模型,并与国家超算互联网展开深入合作,共同推动国产人工智能技术加速发展。

  • WICAsia-PacificSummitspotlightsdigitalintelligencefuture
  • 上海国投公司成功发行50亿元超长期科创债,由国泰海通独家主承
  • 鲜花妆上海,花香荟申城!2025上海国际花展开幕,龚正出席并启动花展
  • 人民网三连评应对美关税冲击
  • 特朗普的首席经济智囊说他正研究是否可以炒鲍威尔鱿鱼
  • 兴业银行:成功发行300亿元绿色金融债券
  • 皇氏集团(002329)被预处罚,股民索赔可期
  • 佳兆业还能复制2014年的“奇迹”吗?
  • 十四届全国人大常委会第十五次会议将于4月27日至30日举行
  • 分析师:马来西亚经济增长料受美国关税风险拖累
  • 年内47家公募基金宣布自购:中欧领衔6次自购 嘉实去年自购达442次今年仍“0自购”
  • 携11只宠物和近50名警卫,尹锡悦搬离韩国总统官邸
  • 上海一自助餐厅卷钱跑路:三问预付款消费监管
  • 国务院、中央军委公布修订后的《中国人民解放军实施〈中华人民共和国药品管理法〉办法》
  • 胡锡进谈三河换招牌事件:有些基层政府太喜欢什么都管,对商家缺少尊重
  • 关键词: