谷歌更新隐私政策,大模型“诸神之战”背后的训练数据隐忧|当前速读
21世纪经济报道记者王俊 南方财经全媒体记者冯恋阁 实习生罗洛 北京、广州报道“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型,相关条款已于7月1日生效。
谷歌的这一动作引发争议,单方面通知用户的行为是否合法合规?此举又是否有“囤数据”之嫌?
(相关资料图)
此前,Twitter和社交网站Reddit已经采取措施,限制第三方对其API的访问。国外科技公司的一系列举措背后,可能是大模型发展路上一个不可忽视的真相:训练数据的重要性愈发显现。随着大模型产业的快速发展,出于市场竞争的需要,模型规模将快速膨胀,但同时可用于训练的数据供给相对不足,且未来日趋稀缺。
未来,数据或将成为AI发展的“兵家必争之地”。
“囤数据”训练AI模型近日,谷歌更新隐私政策,表示将利用网络公开数据训练旗下的AI模型。在隐私协议的“可公开获取的资源”一栏,谷歌提到:“我们可能会收集公开的在线信息或来自其他公共来源的信息,帮助训练Google的人工智能模型。”该大模型将会为谷歌翻译、谷歌旗下聊天机器人产品“Bard”及Cloud AI等产品和功能提供助力。
对比去年年底发布的上一版隐私政策,谷歌将“收集信息以帮助训练语言模型”的相关措辞更改为“训练人工智能模型”,并新增明确了自家AI产品对于数据的使用权利。这似乎意味着,谷歌在训练旗下聊天机器人及其他AI模型,或未来开发AI产品的过程中,有权使用人们在网上公开发布的任意内容。
南方财经全媒体记者在检索后发现,7月5日,谷歌中文版隐私政策也已经进行同步更新。
在竞天公诚律师事务所合伙人袁立志看来,此次谷歌隐私政策的更新从实践角度看不算重大变化。“无论在我国还是域外,对公开数据的正常收集和使用,在一般情况下不算违法。”不过他补充道,如果个人通过发送邮件等方式向信息处理者就相关使用表露明确拒绝,对其个人信息的收集和使用就应当停止。
北京大成律师事务所高级合伙人邓志松也表示,就目前可获得的信息而言,谷歌对收集与处理用户个人信息的范围和目的作出了详细说明,即使以欧盟GDPR项下更为严格的“告知-同意”规则为标准,谷歌的这一收集与处理行为至少在形式上具有合法性。至于其实施过程中可能涉及的实质合法性判断,及由此可能对AI等行业产生的影响,则尚待进一步观察。
虽然此次更新并未对个人信息保护带来影响,但暗藏背后的数据隐忧却逐渐被公众注意到。
“得数据者得天下”数据是数字经济时代的“新石油”,处在时代中的人工智能技术亦受其影响。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB。
“大模型时代,得数据者得天下。”对外经济贸易大学数字经济与法律创新研究中心执行主任张欣指出,一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续;另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
需求渐长,供给端却并未马上配合。目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如Twitter限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克表示,这是对“数据抓取”和“系统操纵”的必要反应。
今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。
同样在4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。
6月,中文在线、同方知网与中国工人出版社等国内25家文化出版机构发出共同倡议,强调“为人工智能学习模型提供可靠、稳定、安全的内容来源”等AIGC版权保护问题的重要性。
科技公司的系列动作,一定程度反映了数据的重要性。
在7月2日全球数字经济大会人工智能高峰论坛上,昆仑万维科技股份有限公司CEO方汉表示,高质量数据对大模型发展至关重要。
“坦白地讲,最近三年的大模型训练积累的是对丰富的预训练数据深度加工的能力。OpenAI所有公开的论文和讲演,对训练过程和训练算法都是公开的,但其从不公开模型结构及数据处理。”方汉指出,目前全世界大模型预训练团队都试图重现OpenAI在模型架构的动作以及预训练数据的动作,任何一家企业的预训练数据加工能力都至关重要。
数据稀缺、分散难题何解?数据的重要性不言而喻,高质量数据更是稀缺品。
早在去年,一项来自Epoch Al Research团队的研究就揭示了一个残酷的事实:模型还要继续做大,但数据却不够用了。研究结果表明,高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量则分别在2030年至2050年、2030年至2060年枯竭。
这意味着如果数据效率没有显著提高或没有新的数据源可用,那么到2040年,模型的规模增长将放缓。
百舸争流是市场竞争的常态,但过分竞争也有可能为行业带来灾难。限制数据抓取,很可能导致新一轮的数据大战,进而引发平台之间屏蔽、数据垄断等问题。
国际标准化组织TC/154技术专家王翔指出,大模型的蓬勃发展对训练数据提出了很高的数量和质量要求。在供给侧,人口增速、用网时间下降、制度性地理约束提高、高质量数据匮乏等都在制约大模型未来发展,SOP化和转发习惯也降低了供给能力;在需求侧,无论是主观治理思路还是客观基础设施条件,以及大型语言模型所有者应对市场的考量,都会持续强化数据垄断。
此外,大模型训练中,面对的高质量数据的稀缺、行业数据分散等问题应如何解决?
受访专家指出,未来健康的生态需要市场侧和监管侧等多方的共同建设维护。
“首先还是需要相信市场的力量”,袁立志指出,随着优质数据的需求逐渐显现,各个市场主体都会被“无形的手”推动向前。“数据资源的寻找、汇聚、清洗、标注等各个环节预计都会因竞争的活跃而不断改善,以满足市场需求。”他表示。
张欣则具体指出,目前行业内的开源数据集正在不断增多,未来应呼吁更多人工智能企业、从业者加入,建立更加良好的行业生态。“人工智能训练时的众包思路也非常重要。”她认为,企业之外,还可以善用技术社群的力量提升并开拓更多的高质量数据集。
而监管侧,在张欣看来,从法律法规层面明确训练数据集的合法性获取路径是监管下一步应当关注的重点。“只有明确了合法获取的路径,大模型训练者才有更稳定的合规预期以开展工作。”
袁立志认为,监管侧数据要素市场的建设深入会为大模型领域的发展带来良性影响。“数据要素市场建设走深意味着数据流通利用全流程提速提效,自然也惠及大模型的训练数据收集。”
标签:
精彩推送
新闻快讯
X 关闭
X 关闭
新闻快讯
- 谷歌更新隐私政策,大模型“诸神之战”背后的训练数据隐忧|当前速读
 - 鲁大师6月新机性能/流畅榜出炉:vivo X90s一枝独秀|环球快播
 - 最后的深渊游戏下载(最后的深爱)
 - “三提三争”见行动 | 热力十足 全市交通建设亮出半年成绩单
 - mp5下载视频网址(mp5电影下载网站免费)
 - 水利部启动洪水防御Ⅳ级应急响应 当前速读
 - 日本渔民悲呼:核污水一旦排海渔业将遭灭顶之灾 谁还敢吃海鲜?
 - 最新:2022-09-17 22:25
 - 全球实时:多面空心球商品报价动态(2023-07-05)
 - 观点:手持式硝酸盐氮测定仪助力农业环保
 - 环球观点:2023年1-5月中国摩托车生产企业燃油摩托车销量排行榜单TOP20
 - 世界热文:因销售误导等,新华保险驻马店中心支公司被罚18万
 - 国际原子能机构:评估报告并非是对日本排海方案的“背书” 全球新资讯
 - 山西移动营业厅官网详单查询_山西移动网上营业厅详单查询|全球微动态
 - 盛洋科技业绩跳水首季扣非亏137万 终止收购中交科技卫星通信布局折戟_世界百事通
 - “2023河南省两岸青年交流月”活动启动
 - 高温中暑气象预报!这些地区的人们注意防暑降温
 - 首旅酒店:公司旗下个别加盟项目因开发商延期交付物业导致加盟业主无法履行加盟合同 当前热讯
 - 【全球报资讯】霍汶希最厉害经纪人旗下艺人50人(47岁超级经纪人霍汶希
 - 网友讨论:印度正在大力投资基础设施建设-世界动态
 - 恢复出厂设置是什么意思手机_恢复出厂设置是什么意思
 - 世界百事通!上海有人组织对驾驶外地牌号摩托车人员实施不法侵害?警方通报:系造谣
 - TD+CMMB强势出击(中兴悦汇系列u260等五款亮相)
 - 什么是pk云氧棉(什么是pk)
 - 比亚迪方程豹首款车型定名豹5,搭载全新混动平台DM-o 全球速讯
 - 迪拜塔有多高多少层_迪拜塔究竟有多少层 环球微动态
 - logo设计软件哪个好_logo设计用什么软件好|微头条
 - 今日讯!助念新星躲柜子里那段(助念新星)
 - 中国虚拟货币2021政策_中国虚拟货币有哪些
 - 武魂疾风系玄冰装备加点及技能全攻略_武魂2玄冰疾风技能连招|头条焦点
 - 久日新材:大晶信息的光刻胶专用光敏剂PAC已向部分企业小批量供货
 - 北水继续加仓内银股!买入中国银行超3亿港元,卖出腾讯超3亿港元;南水逆势买入歌尔股份超4亿元 世界微速讯
 - 中南大学一校友向母校捐赠6亿 热点在线
 - 造梦西游3土行孙死后_造梦西游3土行孙易爆点|环球热文
 - 7月4日国内钴市行情汇总
 - 邵东:做好耕地保护“加减法”
 - 世界消息!8助攻7失误,投篮一次都没中!球商低,技术糙,马刺也会看走眼?
 - 功亏一篑的意思用字典来解释_功亏一篑的意思 全球快报
 - 当前通讯!南非南部发生一起严重车祸 15人死亡
 - 美特斯邦威在杭州滨江区成立电商总部 将于7月底直播
 - 我国多种矿产勘查开发实现新突破
 - 搞笑的表白短信有哪些_分享一些搞笑的表白短信|天天观天下
 - 接力奋战10小时!舟港公司属海通轮驳成功处置一起重载油轮搁浅险情|世界观天下
 - 师徒“心”交流,华中附小“青蓝”同辉共育桃李! 环球观速讯
 - 人力资源灵活用工产业基地项目落户我市-热点
 - 妖孽王爷小刁妃txt下载_妖孽王爷小刁妃-天天视讯
 - 24岁生日助国安客场终结蓉城不败纪录,韩佳奇:最好的生日礼物_天天观察
 - 6月份物流业景气指数为51.7% ?投资保持规模增长-环球快播
 - 中国新能源汽车生产量达到2000万辆 全球视讯
 - 欧拉黑猫用户口碑怎么样?看完再考虑是否购买|环球微资讯