数据要素关键:AI大模型的挑战与机遇

需积分: 2 2 下载量 147 浏览量 更新于2024-06-25 收藏 5.19MB PDF 举报
"该报告探讨了AI大模型对高质量数据的需求,强调了数据在大模型竞争中的关键作用,特别是对于中文数据集的稀缺性和未来发展。报告指出,随着法规的出台,数据产业链将迎来新的投资机遇,并关注拥有数据资产、行业数据能力和降低人力成本技术的数据服务公司。同时,报告提到了海外开源数据集的丰富积累,以及合成数据可能解决高质量数据短缺的问题。" 正文: 在当前的AI领域,大模型如ChatGPT已成为技术发展的新里程碑。这些模型的性能和能力很大程度上取决于它们所训练的数据。AI大模型需要大量的、高质量的、多样化的数据集来学习和改进,这使得数据成为AI竞赛的关键要素。中文数据集的稀缺性是当前的一大挑战,但随着数字中国战略的推进,预期数据要素市场将得到进一步完善,有助于培育和发展中文数据集。 报告中提到的欧洲议会《人工智能法案》提案和中国网信办的《生成式人工智能服务管理办法(征求意见稿)》,旨在规范大模型训练数据的使用,强调版权和合法性,这将对数据产业产生深远影响。一方面,它促使数据资产储备公司加速商业化进程,寻找合法合规的数据使用方式;另一方面,那些拥有优质数据并具备一定大模型能力的公司将有机会通过行业大模型提升自身业务的智能化水平。 在国际舞台上,开源数据集的积累为AI研究提供了丰富的资源,这些数据集主要来源于高校、互联网巨头的研究部门、非盈利研究组织和政府机构。开放的互联网生态、长期的在线资源积累以及学术界与企业间的合作共同推动了这一现象。然而,报告警示,高质量语言数据可能会在2026年达到瓶颈,为此,Gartner预测到2030年,大部分用于大模型训练的数据可能将由AI合成,这是一个解决数据耗尽问题的重要发展方向。 中文开源数据集的数量相对较少,这对中国AI大模型的发展构成了一定挑战。为了缩小差距,中国需要在保护数据隐私和推动数据流通之间找到平衡,鼓励更多的数据共享和创新,同时也要发展和利用合成数据技术,以满足大模型对海量高质量数据的需求。 总结来说,AI大模型的发展依赖于数据的丰富性和质量,政策法规的制定将引导数据产业的健康发展,而合成数据技术可能是解决未来数据短缺的关键。在中国,推动数据市场的成熟和数据资产的有效利用将成为AI大模型进步的关键推动力。