在遂宁市河东新区的一栋写字楼里,几十名年轻人正盯着电脑屏幕,手中的鼠标不停移动,对一张张图片、一段段语音进行精细的“打磨”。他们不是普通的数据录入员,而是一群特殊的“老师”——为人工智能(AI)大模型提供“养料”的数据标注师。
“人工智能有三要素:算力、算法和数据。如果把AI比作一个孩子,算力是体力,算法是思维方式,数据就是他吃的‘饭’。”四川中鸿数智信息技术有限公司执行董事陈臻打了个形象的比方,“没有高质量的数据,再强的算力、再牛的算法也白搭。”这家去年8月才建成投运的企业,短短半年时间就创造了400万元的产值。它的业务,正是当下数字经济中最基础的环节之一——数据标注。
给AI当“老师”
这个行业不简单
什么是数据标注?简单来说,就是让机器学会理解世界。
陈臻向记者展示了一个例子:手机语音翻译软件早期经常把方言口音识别错误,就是因为“吃”的数据不够多、不够“干净”。现在说四川话也能进行翻译,背后是大量语音数据经过“脱敏—标注—治理”后,变成了机器能“消化”的标准化信息。
从文字、图片到音频、视频,中鸿数智的业务覆盖了四大数据类型。客户主要来自三类:正在研发的通用大模型的腾讯、阿里等互联网大厂、需要海量交通数据支撑其智能驾驶系统的汽车企业以及具身智能机器人公司。
“不同客户的需求差异很大,需要不同的软件和团队来协同处理。”陈臻说。比如,游戏平台上的标注采集项目、AI短剧生成项目、智能车驾标注业务……每个项目都是一次定制化的“教学方案”设计。
目前,中鸿数智拥有160多名标注人员。“虽然市面上有一些AI预标注工具,但错误率较高,机器先做一遍,最后还是得靠人工复检、修整、完成。”陈臻坦言,“这个行业目前还没有通用的自动化标注平台,人工精细化打磨依然是保证质量的关键。”
政府“搭把手”
企业吃下“定心丸”
中鸿数智选择遂宁,并非偶然。
陈臻坦言:“遂宁去年成功纳入省级数据标注基地建设,市数据局和市河东新区管委会给了我们最大的帮助——增资配股、选址协调、优质营商环境。连企业的用餐难题,市河东新区国有平台公司都专门拓展了配餐业务来解决。”
“我们不是‘解决一个问题’就结束,而是要‘构建一套机制’。”市数据局相关负责人告诉记者。今年以来,市数据局围绕数据标注企业用工缺口、招聘难点、产业发展等问题,通过实地走访、举办供需对接活动,详细掌握企业诉求,打破企业与高校、国企、协会之间的沟通壁垒。
在更宏观的层面,市数据局正从多个维度发力构建数字经济产业生态:一方面加速招商引资,通过龙头带动与多点布局,形成遂宁市数字经济产业链图谱。另一方面优化产业生态,制定遂宁市加快数字经济高质量发展实施方案,积极修订数字经济产业发展若干政策。
“数据标注行业是我市数字经济发展的重点领域。”市数据局相关负责人表示,去年遂宁成功纳入省级数据标注基地建设,进一步推动数据标注产业规模化发展,为全市数字经济发展带来新动能。
全市数字经济“家底”
增速全省领先
中鸿数智的故事,是遂宁数字经济浪潮中的一朵浪花。而整片“海域”的规模,已相当可观。最新数据显示,遂宁市数字经济核心产业增加值达129.87亿元、占GDP比重6.5%,数字产业化水平跃居全省第5位。
“我们企业的目标是300人,在成本可控前提下做到质量最优,争取做成有口碑的基地。”陈臻算了笔账,“满产满员、订单不间断,预计年产值将达2300万元”。除了规模扩张,企业还在着手研发自己的标注工具,并联动生态合作伙伴,最终形成产业集群。
从去年3月成立,6月建立合作,8月正式投产——这家年轻企业用不到一年的时间跑出了“加速度”。在遂宁,像中鸿数智这样的数字经济企业正在悄然生长,为人工智能时代夯下最基础的砖石,在成渝数字经济走廊上,找到属于自己的赛道。
下一步,我市将重点发展数据应用、物联网相关产业,推动数据产业与低空经济、具身智能等产业深度融合,打造特色数字产业集群,力争实现数字经济核心产业增加值增速显著提升、占GDP比重持续全省领先。
编辑:刘雪欢
责编:孙 各