编辑:杜伟、小舟
AI 尤其是大模型时代的开源与闭源,有利有弊,重要的是如何在使用的过程中做好文章。
一直以来,人们在 AI 领域的开源与闭源选择上存在着分歧,而在大模型时代,开源这股强大的力量已经悄然崛起。根据此前谷歌泄露的一份内部文件,围绕 Meta 的 LLaMA 等开源模型,整个社区正在迅速构建与 OpenAI、谷歌大模型能力类似的模型。
毋庸置疑,Meta 是开源世界的绝对核心,持续做出开源努力,如最近发布 Llama 2。然而木秀于林风必摧之,最近 Meta 因为开源陷入了「麻烦」。
在 Meta 的旧金山办公室外,一群手举标语的抗议者聚集在一起,抗议 Meta 公开发布 AI 模型的策略,并声称这些发布的模型造成了潜在不安全技术的「不可逆转的扩散」。甚至有抗议者将 Meta 发布的大模型比作「大规模杀伤性武器」。
这些抗议者自称为「concerned citizens」(关心某事的公民),由 Holly Elmore 领导。根据领英信息,她是 AI Pause(中止 AI)运动的独立倡导者。
图源:MISHA GUREVICH
她指出,如果一个模型被证明不安全,则可以关闭 API,比如谷歌和 OpenAI 等只允许用户通过 API 访问的大模型。
与之相反,Meta 的 LLaMA 系列开源模型向公众提供了模型权重,使得任何拥有合适硬件和专业知识的人都可以自行复制和调整模型。一旦发布了模型权重,发布公司就不再有任何手段来控制 AI 的使用方式了。
在 Holly Elmore 看来,释放模型权重是一项危险的策略,任何人都可以修改模型,并且这些模型无法被召回。「模型越强大,这项策略就越危险。」
相较于开源,通过 API 访问的大模型通常具备各种安全特性,比如响应过滤或通过特定训练阻止输出危险或令人厌恶的响应。
如果模型权重被释放出来,那么重新训练模型来跳过这些「护栏」就变得容易多了。这使得利用这些开源模型来制作网络钓鱼软件、实施网络攻击更加成为了可能。
图源:MISHA GUREVICH
因为,她认为部分问题在于「针对模型释放的安全措施不够」,需要有更好的方式来保证模型安全。
目前,Meta 尚未对此发表任何评论。不过,Meta 首席 AI 科学家 Yann LeCun 似乎对「开源 AI 必须被取缔」这一说法进行了回应,晒出了巴黎开源 AI 创业社区的盛况。
与 Holly Elmore 持不同意见的人也有很多,认为 AI 发展的开放策略是确保实现技术信任的唯一途径。
有网友表示,开源有利有弊,既可以让人们获得更高透明度并增强创新,但也将面临恶意行为者滥用(如代码)的风险。
不出所料,OpenAI 再次遭到了揶揄,「它应该回归开源。」
对开源持有担忧的不在少数
MIT AI 安全博士后研究员 Peter S. Park 表示:「未来广泛发布先进的 AI 模型将特别成问题,因为防止滥用 AI 模型基本是不可能的。」
不过,非营利性人工智能研究组织 EleutherAI 的执行董事 Stella Biderman 表示:「到目前为止,几乎没有证据表明开源模型造成了任何具体的损害。目前还不清楚是否仅在 API 背后放置一个模型就可以解决安全问题。」
Biderman 认为:「构建 LLM 的基本要素已在免费的研究论文中公开,世界上任何人都可以阅读论文文献来开发自己的模型。」
她还补充道:「鼓励公司对模型细节保密可能会对领域研究的透明度、公众意识和科学发展产生严重的不良后果,特别是会影响独立研究人员。」
尽管大家已经在讨论开源带来的影响,但 Meta 的方法是否真的足够开放,是否能够发挥开源的优势,还未可知。
开放源代码促进会(OSI)执行董事 Stefano Maffulli 表示:「开源 AI 的概念尚未得到正确定义。不同的组织使用该术语来指代不同的事物 —— 表示不同程度的『公开可用的东西』,这会让人们感到困惑。」
Maffulli 指出,对于开源软件来说,关键问题是源代码是否公开可用并可复现用于任何目的。但是想复现 AI 模型可能必须要共享训练数据、收集数据的方式、训练软件、模型权重、推理代码等等。其中,最重要的是训练数据可能存在隐私和版权问题。
OSI 自去年以来一直致力于为「开源 AI」给出一个确切的定义,很有可能会在未来几周内发布早期草案。但无论如何,他都认为开源对 AI 发展至关重要。「如果 AI 不是开源的,我们就不可能拥有值得信赖、负责任的 AI」,他说道。
未来,关于开源与闭源的分歧会一直延续下去,但开源已经无法阻挡。