拉斯维加斯(3133·CHN认证)集团官网 - 海天瑞声：大模型高质量数据需要高质量人工支持

海天瑞声董事长贺琳近来承受媒体采访时表明，大模型高质量数据的供给，需求高质量人工的支撑。一起，数据的清洗和标示流程关于模型的质量至关重要，它们可以进步数据的质量和准确性，协助模型更好地去学习，也为模型的评价奠定了一个很好的根底。

据每经报导，海天瑞声是国内最早投入AI练习数据的专业服务商之一，2023年，不断翻涌的大模型浪潮将这家公司推至资本商场的聚光灯下。而身处潮水之中，贺琳对未来的考虑仍旧慎重。

ChatGPT的呈现，让这家数据公司忽然站到了资本商场舞台中心。2023年头，贺琳在海天瑞声公司年会上的发言稿，80%由ChatGPT完结。开年以来，海天瑞声股价一路走高，3月一度涨至191.96元/股，较其2021年8月上市时翻了一番。

而海天瑞声方面，则已屡次在投资者互动渠道发布提示，称公司与OpenAI没有协作，也尚不能预期大模型事务将带来多少收入。贺琳以为，适宜的入局机遇应该是当这项技能可以真实在职业中落地的时分，这意味着其有真实的使用场景，而非伪场景。

一起，当职业落地时间到来，数据的需求量也会迎来大规划提高。4月18日，海天瑞声正式推出其专为自动驾驶场景规划的全栈式数据标示渠道“DOTS-AD自动驾驶标示渠道”。

贺琳曾上任于中国科学院声学研究所，从事语音辨认、语音组成、汉语言语了解、语音心思测验等方面的研究工作，成立于2005年的海天瑞声，开始诞生于贺琳在这份工作中捕捉到的职业痛点。

跟着技能的开展，智能语音从实验室走向大规划使用阶段，更多场景的掩盖需求，意味着数据需求随之大规划添加。与此一起，在与一些上任于大型企业或研究机构的前搭档沟通时，贺琳发现，我们都在重视数据的问题。

时至今日，贺琳觉得，彼时促进她创业的瓶颈仍旧存在。在她看来，数据的需求是跟着技能的开展而改变的，跟着技能在各个职业中落地，就会有更多的数据需求迸发。

贺琳称，现在很多人都以为，数据距离是一个形成系统性距离的非常重要的原因，所以我们以为数据仍是很重要的要素，这个瓶颈仍然存在。不同的是，自己创业之初，国内竞争对手少，海天瑞声得以在商场快速包围。而现在，国内现已呈现一批新的数据公司，先发优势成为当下数据公司中心竞争力的根底。

海量数据怎么终究成功支撑起巨大参数的大模型运转？答案便是数据集。贺琳介绍，数据集的发生是一个非常复杂的进程，其间包含规划阶段、收集阶段、处理阶段以及终究的质检阶段。

在规划环节，需求先去了解数据集是为了处理哪个问题，这个问题需求什么样的数据，需求多大的量，需求什么样的场景，以及收集的样本、规划、内容，包含收集的设备、标示的规范等等；收集环节则是依照规划的计划，到大千世界收集，有可能是声响，有可能是图画、图片，又或是手写的字、路途的场景。

收集完结后则需求进入清洗、标示环节。终究生产出的数据集需求经过双层的质检流程，终究才干生产出一个合格的数据集。这其间，清洗规矩的好坏、标示的准确性都会极大地影响数据集的质量，从而影响模型的作用。

贺琳举例说，海天瑞声的大模型数据清洗率是5%，即清洗出来正确的数据仅仅占原数据的5%，这也印证了数据清洗环节的重要性。而标示的流程则主要是处理准确性和共同性问题。

贺琳以为，高质量的数据包含了数据的丰厚度，场景的丰厚度，数据的准确性、共同性等，这都是衡量高质量数据的规范。她也认同，高质量数据的供给，需求高质量人工的支撑。

来历：

Donews

新闻详情