科技领域高质量数据集发布 夯实主流价值语料底座
人民网北京5月10日电 (记者夏晓伦)国产大模型跑得快,科技更要跑得“正”。领域量数当前,高质人工智能训练中最“卡脖子”的据集价值环节之一,不是发布算力,而是夯实高质量、专业化、主流合规化的语料语料数据。
这一短板正在被补齐。底座在2026人民网数据智能伙伴会活动上,科技主流价值语料生态联盟正式启动,领域量数参与方钛媒体发布了科技领域高质量数据集,高质以垂直领域权威、据集价值专业的发布语料资源,为AI大模型训练注入“精神底座”的夯实力量。
作为聚焦科技商业领域的媒体,钛媒体此次面向联盟开放科技领域高质量数据集及全链路技术支撑能力,为语料生态建设注入垂直领域的核心动能。
钛媒体执行总编辑、首席运营官马金男介绍,这一数据集精准聚焦TMT(科技、媒体、通信)垂直赛道,直击当前AI训练中科技语料专业性不足、时效性不强、版权边界模糊等痛点,成为主流价值语料生态联盟推动垂直领域语料标准化、规模化供给的标志性探索。
这批数据集究竟具备怎样的特质?据介绍,它构建了图文与视频双核心的多模态语料体系,兼具权威性、专业性、时效性与合规性。图文语料库汇聚海量科技报道、行业研报与专业评论,内容语言精准规范、标签体系完整,富含TMT领域专业术语与结构化元数据,可完美适配中文科技商业垂直领域的语义训练需求。视频语料资源则囊括T-EDGE全球创新大会、数字价值峰会等独家行业活动实录,以及多位企业家的深度访谈内容,配套高精度转录文本与多模态标注,能够直接服务于语音识别、跨模态模型训练等核心场景。全部内容均经过专业编辑审核,版权清晰可授权,更新频次高且紧跟数字经济前沿动态,免费用于科技领域高质量数据集建设,并面向联盟成员开放素材共享。
同时,这些语料可广泛应用于大模型训练与价值对齐、产业政策研究、舆情监测预警、知识图谱构建、科技成果转化分析等多元领域。
对于这一成果,中国人民大学新闻学院广告与传媒经济系主任、教授、博士生导师王树良给出了点评。他认为,在主流价值语料库与科技语料库的共建工作中,钛媒体所提供的科技语料,能够覆盖人工智能大模型训练、产业趋势研判等核心应用场景。基于其在科技领域的长期积累,这些语料可为数字经济发展、AI产业创新及科技治理现代化提供基础数据支持,其建立的质量把控机制与实践优化思路,也能为同类语料的标准化建设提供借鉴。
据了解,在人民日报社指导下,人民网发起建立了主流价值语料生态联盟,旨在搭建一个“共建共享、互利共赢”的开放协作平台,成为连接政、产、学、研各界的纽带,通过机制创新提升主流价值语料从供给、处理到应用,从标准、规则研讨到达成共识的效率提升。
(责任编辑:综合)
- 追梦人|在“三江两极”当警察的年轻人
- 河南许昌两名工人高空作业时吊篮倾覆,被绳索吊在大楼半空,消防称人已救下,银行:正翻新外墙,目前正常营业
- (图表·漫画)外贸延续良好增长态势
- 荣耀旗下星耀终端公司在宁波成立新公司
- 知名女演员热依扎回应暂缓演艺工作,强调未生病:难以兼顾演员、子女、母亲三重身份
- 天津华厦眼科医院荣获“学科成长奖”
- 男子猛推峨眉山猴子险致其坠崖,被景区拉黑3年,这板子打得恰到好处
- 践行“五健”行动,守护儿童成长
- 土耳其瓦基弗银行与阿波罗完成13亿美元DPR证券化交易
- 原创论文变“AI创作”,AIGC检测真的智能吗
- 欧诺科技IPO已被受理,实控人夫妇两年累计分红超3000万
- 商务部:中国已成为国际经贸规则的重要参与者和积极贡献者
- 张家界西收费站助力迷路老人回家
- 从“看景”到“入景” “延吉公主”火出圈
