新闻详情

海天瑞声:大模型高质量数据需要高质量人工支持

海天瑞声董事长贺琳近来承受媒体采访时表明,大模型高质量数据的供给,需求高质量人工的支撑。一起,数据的清洗和标示流程关于模型的质量至关重要,它们可以进步数据的质量和准确性,协助模型更好地去学习,也为模型的评价奠定了一个很好的根底。

据每经报导,海天瑞声是国内最早投入AI练习数据的专业服务商之一,2023年,不断翻涌的大模型浪潮将这家公司推至资本商场的聚光灯下。而身处潮水之中,贺琳对未来的考虑仍旧慎重。

对预期审慎达观

ChatGPT的呈现,让这家数据公司忽然站到了资本商场舞台中心。2023年头,贺琳在海天瑞声公司年会上的发言稿,80%由ChatGPT完结。开年以来,海天瑞声股价一路走高,3月一度涨至191.96元/股,较其2021年8月上市时翻了一番。

而海天瑞声方面,则已屡次在投资者互动渠道发布提示,称公司与OpenAI没有协作,也尚不能预期大模型事务将带来多少收入。贺琳以为,适宜的入局机遇应该是当这项技能可以真实在职业中落地的时分,这意味着其有真实的使用场景,而非伪场景。

一起,当职业落地时间到来,数据的需求量也会迎来大规划提高。4月18日,海天瑞声正式推出其专为自动驾驶场景规划的全栈式数据标示渠道“DOTS-AD自动驾驶标示渠道”。

距离仍旧存在

贺琳曾上任于中国科学院声学研究所,从事语音辨认、语音组成、汉语言语了解、语音心思测验等方面的研究工作,成立于2005年的海天瑞声,开始诞生于贺琳在这份工作中捕捉到的职业痛点。

跟着技能的开展,智能语音从实验室走向大规划使用阶段,更多场景的掩盖需求,意味着数据需求随之大规划添加。与此一起,在与一些上任于大型企业或研究机构的前搭档沟通时,贺琳发现,我们都在重视数据的问题。

时至今日,贺琳觉得,彼时促进她创业的瓶颈仍旧存在。在她看来,数据的需求是跟着技能的开展而改变的,跟着技能在各个职业中落地,就会有更多的数据需求迸发。

贺琳称,现在很多人都以为,数据距离是一个形成系统性距离的非常重要的原因,所以我们以为数据仍是很重要的要素,这个瓶颈仍然存在。不同的是,自己创业之初,国内竞争对手少,海天瑞声得以在商场快速包围。而现在,国内现已呈现一批新的数据公司,先发优势成为当下数据公司中心竞争力的根底。

巨大参数支撑

海量数据怎么终究成功支撑起巨大参数的大模型运转?答案便是数据集。贺琳介绍,数据集的发生是一个非常复杂的进程,其间包含规划阶段、收集阶段、处理阶段以及终究的质检阶段。

在规划环节,需求先去了解数据集是为了处理哪个问题,这个问题需求什么样的数据,需求多大的量,需求什么样的场景,以及收集的样本、规划、内容,包含收集的设备、标示的规范等等;收集环节则是依照规划的计划,到大千世界收集,有可能是声响,有可能是图画、图片,又或是手写的字、路途的场景。

收集完结后则需求进入清洗、标示环节。终究生产出的数据集需求经过双层的质检流程,终究才干生产出一个合格的数据集。这其间,清洗规矩的好坏、标示的准确性都会极大地影响数据集的质量,从而影响模型的作用。

贺琳举例说,海天瑞声的大模型数据清洗率是5%,即清洗出来正确的数据仅仅占原数据的5%,这也印证了数据清洗环节的重要性。而标示的流程则主要是处理准确性和共同性问题。

贺琳以为,高质量的数据包含了数据的丰厚度,场景的丰厚度,数据的准确性、共同性等,这都是衡量高质量数据的规范。她也认同,高质量数据的供给,需求高质量人工的支撑。

来历:

Donews

← 返回新闻列表