当前位置:首页 > 股市行情 > 瞭望 | 人工智能的“数据瓶颈”

瞭望 | 人工智能的“数据瓶颈”

2024年04月10日58462

  基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强

瞭望 | 人工智能的“数据瓶颈”
图片来源于网络,如有侵权,请联系删除

  在全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽

瞭望 | 人工智能的“数据瓶颈”
图片来源于网络,如有侵权,请联系删除

  中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高

  文 |《瞭望》新闻周刊记者 郭方达

  在阿西莫夫经典科幻小说《最后的问题》当中,两个喝得醉醺醺的“程序猿”向人工智能询问了这样一个问题:“怎样使宇宙的总熵大幅降低?”

  “数据不足,无法作答。”人工智能未能在第一时间解答这个问题。尽管在小说的最后,这个仿若翻版ChatGPT的人工智能在时间的尽头交出了答卷,但贯穿整个宇宙生命的过程中,它始终都在做一件事:收集数据。

  数据,是人工智能赖以发展的核心资源。小说的情节固然戏剧化,但其内容却与发展生成式人工智能的现实矛盾不谋而合。

  当前,“百模大战”如火如荼,头部企业竞相投身人工智能赛道,但有效数据不足,特别是高质量中文语料的短缺以及部分领域封闭式的数据生态给人工智能发展带来了掣肘。如何解决“数据瓶颈”是未来一段时期我们即将面临——或已经面临的挑战。

中国科学院自动化研究所人形机器人攻关团队研制的谱系化人形机器人(2024年1月31日摄)   金立旺摄/本刊

  数据海洋的“圈地运动”

  海滨港口、城市霓虹、幼犬互动……近日,由美国人工智能文生视频大模型Sora生成的数个视频迅速吸引了世界目光。与“文生图”不同,Sora发布的视频长达60秒,具有丰富的运动变化,其中物品相互之间的作用关系、物理规律的刻画都达到了近乎以假乱真的地步。从物体互动到光影斑驳,屏幕上像素点的变换令人击节叹赏。

  像Sora这样的生成式人工智能并不是“无中生有”。不同于以往为人们所熟悉的判别式人工智能,生成式人工智能本质上是一种建立在大模型和预训练基础上的运用海量数据所生成的“模拟器”。

  海国图智研究院院长、暨南大学教授陈定定认为,快速涌现人工智能成果高度依赖于大量、多样化的数据。华大集团首席执行官尹烨说,发展人工智能,拼的不仅是“象牙塔尖”的算法更新,更是来源于开放性市场庞大的数据积累。

  基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展关键。简单来说,在同等条件下,喂的数据越多,人工智能就越强。

  有数据显示,从GPT到GPT2再到GPT3,OpenAI将模型参数从1.17亿提升到15亿,然后爆炸式地提升到1750亿,以至于GPT3比以前同类型的语言模型参数量增加了十倍以上。

  作为数字之海的基本构成要素,海量、优质的数据争夺已经成为国家和企业间的无声战场。OpenAI旗下产品的使用条款就明确提及,企业将保留交互数据的使用权。基于数字技术形成的通用数据、优质数据垄断,可能将成为这场数字拓荒当中,后发者无法逾越的天堑。在一定程度上可以说,掌握数据,就掌握了包括人工智能等众多未来产业的主导权。

  AI“肥料”不足

  如果说数据是人工智能成长的“肥料”,那么人类或许将很快面临“无肥可施”的境地。

  清华大学公共管理学院教授梁正在接受采访时提到,全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。

  优质中文语料的大面积缺失,让AI学会说好中文成为一件难事。业内人士介绍,全球目前最有科学性和经过验证的语料来自学术资料库,包括期刊和文化、出版物,遗憾的是,在这些载体上发表文章的语言绝大部分都是英语。

  一项研究显示,1900~2015年,收录于SCI的有3000多万篇文章,其中,92.5%的文章是以英语发表的;SSCI出版的400多万篇文章中,93%的文章是用英语发表。在ChatGPT的训练数据中,中文语料比重不足千分之一,英文语料占比超过92.6%。

  业内人士表示,目前我国仍有大量专业领域的信息数据处于相对封闭的状态,只能在机构内部的数据库和图书馆查看,数据缺失使大模型存在一定的领域盲区,开发潜力不足。

  例如,在医疗数据方面,由于历史和习惯等复杂原因,医疗机构之间存在严重的“数据孤岛”问题。《全民健康信息化调查报告》的数据显示,2021年,我国的三级医院平均只有不到20%的医疗机构采用了医疗大数据应用,二级医院更低,不足5%。

  清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜在近期的公开演讲中谈到,中国数据质量比较低也是一个问题。中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高。因此,数据市场如何构建也是需要解决的问题。

  数实融合解“数据瓶颈”

  对于生成式人工智能来说,其核心技术特性是概率计算+标注训练。依赖大量的高质量标注数据,它才能够有效地学习并做出正确的预测和决策。

  在2024年全国两会上,有代表委员建议建立数据合规的监管机制和评估办法,加强数据安全和知识产权的保护措施,加快高质量中文数据集的开发与利用。

  面对可能出现的“数据荒”,梁正认为,除了此前数字化建设中已有的结构化数据资源,还有大量以语音、视频、工艺参数、操作记录等形式构成的非结构化产业数据尚可开发。此外,由计算机模拟或算法生成的带有注释的合成数据也可用于大模型训练之中,进一步提高数据质量和数量、降低数据采集和处理的成本。

  不少业内人士推测,Sora可能已经通过使用了基于数据驱动的Unreal Engine5(虚幻引擎5)大量生成了合成数据作为训练集。

  3月23日,国内首个千亿参数多模态金融大模型“财跃F1金融大模型”在2024全球开发者先锋大会(GDC)上首发。随着国内大模型在垂直领域加速落地,各类精细化的产业数据,又将成为新一轮的“金矿”。

  “挑战在于产业数据生态的构建”,深圳开鸿数字产业发展有限公司首席执行官王成录等专家认为,“必须克服各人自扫门前雪的单兵作战思维。”

  “海量工业数据由于缺乏采集而逸散。”一位从事制造行业多年的企业家表示,我国产业数据采集存在现实软肋,加强产业数据自有化,推动行业间形成数据平台,是走向垂类人工智能的必经之路。

【责任编辑:陈听雨】

扫描二维码推送至手机访问。

版权声明:本文由财界探秘发布,如需转载请注明出处。

“瞭望 | 人工智能的“数据瓶颈”” 的相关文章

天盛股份2023上半年营收7.7亿超上年全年,晶科能源贡献六成收入

天盛股份2023上半年营收7.7亿超上年全年,晶科能源贡献六成收入

(原标题:天盛股份2023上半年营收7.7亿超上年全年,晶科能源贡献六成收入)图片来源于网络,如有侵权,请联系删除 瑞财经 刘治颖 1月23日,南通天盛新能源股份有限公司(以下简称:天盛股份)北交所IPO审核状态更新为“已问询”,保荐机构为东方证券承销保荐有限公司。图片来源于网络,如有侵权,请...

新式徽菜“小菜园”IPO:疯狂开店背后负债存货规模大增

新式徽菜“小菜园”IPO:疯狂开店背后负债存货规模大增

(原标题:新式徽菜“小菜园”IPO:疯狂开店背后负债存货规模大增)图片来源于网络,如有侵权,请联系删除 小菜园的收入主要来源于“小菜园”品牌门店,该品牌各期收入占公司总收入的比重均在99%左右 标点财经研究员 辛夷 “性价比”已逐渐成为现代年轻人就餐选择的重要标准,“好吃不贵”的需求使得大...

趣致集团弃A转H:自动贩卖机变身“广告牌”,获客成本逐年升高

趣致集团弃A转H:自动贩卖机变身“广告牌”,获客成本逐年升高

(原标题:趣致集团弃A转H:自动贩卖机变身“广告牌”,获客成本逐年升高)图片来源于网络,如有侵权,请联系删除 近期,快消品户外营销服务提供商Qunabox Group Limited(简称:趣致集团)向港交所递交招股书,海通证券为其独家保荐人。 图片来源于网络,如有侵权,请联系删除...

短债基金规模突破万亿,易方达等多家公司开启限购

短债基金规模突破万亿,易方达等多家公司开启限购

(原标题:短债基金规模突破万亿,易方达等多家公司开启限购)图片来源于网络,如有侵权,请联系删除 A股债基的“超级牛市”还在继续。 3月7日早盘,10年期国债收益率一度跌至2.255%,30年期国债收益率跌至2.398%。截至午间收盘,10年期国债收益率结束3连跌,回升至2.3%上方。 10...

百诺医药IPO:逆天业绩与实际运营表现不符,是否不当采用总额法增加营收?人均产值增速远超可比公司,超常毛利率是否源于不当财技?

百诺医药IPO:逆天业绩与实际运营表现不符,是否不当采用总额法增加营收?人均产值增速远超可比公司,超常毛利率是否源于不当财技?

(原标题:百诺医药IPO:逆天业绩与实际运营表现不符,是否不当采用总额法增加营收?人均产值增速远超可比公司,超常毛利率是否源于不当财技?)图片来源于网络,如有侵权,请联系删除 司马懿在城中,令次子司马昭去探前路:若街亭有兵守御,即当按兵不行。司马昭奉命探了一遍,回见父曰:街亭有兵把守。懿叹曰:诸...

市场空间等遭上交所追问,派格生物携“减肥神药”弃A转H

市场空间等遭上交所追问,派格生物携“减肥神药”弃A转H

(原标题:市场空间等遭上交所追问,派格生物携“减肥神药”弃A转H)图片来源于网络,如有侵权,请联系删除 “减肥神药”越发势不可挡。图片来源于网络,如有侵权,请联系删除 3月8日,诺和诺德宣布预计旗下用于减肥适应症的司美格鲁肽产品Wegovy将于2024年在中国获批上市。...