AI训练,数据纯净至关重要

□ 陈 杰

  • 来源:科普时报
  • 作者:
  • 2024-09-06 08:43

热点观察

最近,多款知名品牌儿童智能手表因AI助手一本正经地“胡说八道”引发热议,也让不少家长深感担忧。

儿童智能手表为何会变成蹩脚小丑?从相关品牌方的回应来看,接连出现问题的儿童智能手表多为没有装入自研大模型的旧版本,其回答均抓取自互联网上的公开信息。

似乎也并非品牌方有意为之,但自研模型也好,网上公开信息也罢,既然用于AI抓取及训练,数据的确定性和可信度也该有所把控。数据之于AI,就如同“灵魂源泉”,其纯净与否决定着相关产品的性能和表现。

对于儿童智能手表来说,若AI助手训练所用的数据被污染,就可能导致错误的信息输出。家长们担心的是,孩子正处于心智尚未成熟的阶段,对外界信息的辨别能力较弱,往往会轻易相信手表所提供的内容。一旦这些内容不准确或不恰当,可能会对孩子的认知发展产生极其不良影响,甚至可能引发孩子的恐惧或困惑。

儿童智能手表接连翻车,无疑也给AI助手及大模型产品敲响了警钟。

普通搜索软件尚能提供多页答案供筛选过滤,“一对一”的AI对话模式就带有明显的社交和知识传播属性了,不论是用作抓取还是训练的数据,准确性肯定都马虎不得。

ChatGPT诞生之初,有不少行业人士就担心其会成为成本和门槛极低的造谣工具。如今来看,现实似乎正逐步印证着这种隐忧。

好在,我国相关部门去年发布了《生成式人工智能服务管理暂行办法》,在全球范围内率先开展立法,对数据使用、算法设计、价值导向提出要求,为行业的健康发展提供了支撑。

纯净的AI训练用数据,意味着数据集中不会有噪声、错误、偏见或不一致性,不会误导AI模型的学习过程,导致模型做出不准确或荒谬的预测;纯净的数据还有助于AI模型更准确地捕捉数据中的模式和规律,从而提高其决策能力和泛化能力,能够更准确地理解现实世界,在面对新情况时做出合理、有效的判断。

当然,再纯净的数据也无法保证AI不“胡说八道”。因为数据之外,AI的决策能力还受到算法设计、模型复杂度、训练策略等多种不确定因素的影响。在这些技术还没有得到创新性的升级和迭代前,AI训练用数据的纯净性,就显得尤为重要了。

相关新闻

  • TEL:010-58884104
  • E-Mail:kepu@kepu.gov.cn
  • 如果您有任何意见或建议,请联系我们!
  • 版权所有:中国科普网
Baidu
map