姐妹花 马斯克:AI纯熟数据客岁就已耗尽,合成数据是唯独补充要领

发布日期:2025-01-11 11:10    点击次数:186

姐妹花 马斯克:AI纯熟数据客岁就已耗尽,合成数据是唯独补充要领

东谈主工智能纯熟数据耗尽了怎样办?姐妹花

近日,马斯克在外交平台 X 上的一场直播对话中暗意,东谈主工智能纯熟数据仍是耗尽:

"咱们基本上仍是用尽了东谈主类常识的荟萃总额来进行 AI 纯熟,这种情况爽气在客岁就仍是发生了。"

银色网

马斯克的不雅点与前 OpenAI 首席科学家 Ilya Sutskever 异曲同工。客岁 12 月,Sutskever 在机器学习会议 NeurIPS 上暗意,AI 行业仍是达到了他所谓的"数据峰值",纯熟数据的穷乏将迫使 AI 模子的树立方式发生涟漪。

不外,濒临数据耗尽的窘境,马斯克残酷了一个可能的处置决议:

"唯独的补充要领是使用合成数据,夫妻性生活姿势道具即由 AI 模子我方生成的数据。通过合成数据,AI 将对自身进行评分,并资格一个自学习的经由。"

事实上,包括微软、Meta、OpenAI、Anthropic 等在内的科技巨头仍是运应用用合成数据来纯熟 AI 模子了。据信息本领盘问和参谋人公司 Gartner 推断,2024 年用于 AI 纯熟和分析方法标数据中,有 60% 是合成的。

微软最近开源的 Phi-4 模子即是使用合成数据和真确寰宇数据共同纯熟的。谷歌的 Gemma 模子、Anthropic 的 Claude 3.5 Sonnet 系统以及 Meta 最新的 Llama 系列模子也齐承袭了访佛的要领。

分析师暗意,使用合成数据进行纯熟还大意从简老本。AI 初创公司 Writer 宣称,其险些竣工使用合成数据源树立的 Palmyra X 004 模子仅耗尽了 70 万好意思元,而比较之下,OpenAI 同等畛域模子的树立老本推断为 460 万好意思元。

不外需要正式的是,使用合成数据也存在一些潜在风险。一些盘问标明姐妹花,合成数据可能导致模子崩溃,即模子的输出变得不够"转换",反而愈加偏颇,最终严重影响模子的功能。由于合成数据是由模子生成的,若是用于纯熟这些模子的数据自己存在偏见和局限性,那么它们的输出也会受到一样的影响。



相关资讯



Powered by 巨乳探花 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024