腾讯清华等推出图生视频模型；华为系大模型创企获千万级融资；小米手机上线AIGC修图丨AIGC大事日报

时事新闻2024-03-16 03:56:37无忧百科

1、苹果多模态大模型研究进展公布

2、苹果收购加拿大AI创企

3、Anthropic正吸引金融、医疗领域企业

4、甲骨文云应用套件增加新生成式AI功能

5、腾讯清华港科大联合推出图生视频模型

6、小米14 Ultra上线相册AIGC编辑

7、华为发布政务、城市大模型首批应用场景

8、华为系大模型创企获千万级天使轮融资

9、AI驱动美图2023年净利润大涨233.2%

10、生数科技多模态大模型通过国家备案

11、海信发布自研星海大模型

12、杭州发布首个成果转化领域大模型

13、汉王科技天地大模型通过国家备案

14、首个区域实时文生图架构发布

15、3D视觉语言动作生成世界模型发布

16、预计今年中国AI训推一体机市场空间168亿元

17、欧盟调查大型科技公司对生成式AI的使用

18、OpenAI模型驱动人形机器人自主对话

19、OpenAI官宣新的国际新闻机构合作伙伴

20、Sora将于年内推出拟增加语音功能

21、阿尔特曼称被起诉后与马斯克互发短信

22、微软Copilot安全版4月1日全球发布

23、微软Copilot Pro介绍中出现GPT-5

24、谷歌发布通用游戏AI智能体

25、谷歌发布让人物照片说话的方法VLOGGER

26、百度推出首个消费者组织数字人

27、阿里巴巴全球数学竞赛首次向AI开放

28、零一万物API上线支持输入30万汉字

29、智谱AI获北京市AI产业投资基金参投融资

30、王小川称百川不走Sora路径

31、旷视透露“大模型+机器人”计划

32、传拼多多不做大模型布局

33、网络芯片创企篆芯获2亿元融资

34、英伟达将推出生成式AI专业认证

35、传软银考虑投资法国创企Mistral AI

36、Claude 3 Haiku正式上线

37、欧盟议会批准全球首个AI法案

38、创企Cerebras发布最快AI芯片WSE-3

39、AI创企Kolena推出大模型测试验证平台

40、AI基础设施平台Together AI晋升独角兽

1、苹果多模态大模型研究进展公布

今天，根据预印本平台arXiv，苹果研究人员公布了最新多模态大模型研究成果MM1，这一系列模型参数最高为30B。得益于大规模的预训练，MM1具有增强的上下文学习和多图像推理等能力，可以实现少量的思维链提示。

论文地址：https://arxiv.org/pdf/2403.09611.pdf

2、苹果收购加拿大AI创企

据彭博社报道，苹果今年早些时候已收购加拿大AI创企DarwinAI，并将这家创企的数十名员工纳入了其AI部门中。DarwinAI的主要业务包括为制造商制造可以进行视觉检查的AI系统，以及“使神经网络模型更小、更快”。

3、Anthropic正吸引金融、医疗领域企业

今天，大模型创企Anthropic联合创始人Daniela Amodei在接受彭博社采访时提到，归功于其新发布的大模型Claude 3系列，Anthropic正在吸引金融服务和医疗保健领域的企业。

4、甲骨文云应用套件增加新生成式AI功能

昨天，甲骨文宣布将在甲骨文融合云应用套件中推出新的生成式AI功能，包括嵌入财务、供应链、人力资源、销售、营销和服务等现有业务工作流程中的新功能，以及Oracle Guided Journeys的可扩展性框架的支持。

5、腾讯清华港科大联合推出图生视频模型

3月13日，腾讯、清华大学、香港科技大学联合推出图生视频模型“Follow-Your-Click”，已上架GitHub，代码将于4月公开。基于输入模型的图片，用户只需要简单点击用于指定要移动的内容，再加上简短的运动提示用于指定如何移动，就能让图片中原本静态的区域动起来，一键转换成视频。

项目地址：https://github.com/mayuelala/FollowYourClick

论文地址：https://arxiv.org/abs/2403.08268

6、小米14 Ultra上线相册AIGC编辑

昨天，小米官方宣布，小米相册AIGC编辑功能正式上线小米14 Ultra手机，并将在本月内全量上线小米14、小米14 Pro和Redmi K70系列手机。

7、华为发布政务、城市大模型首批应用场景

在3月14-15日举行的华为中国合作伙伴大会2024上，华为联合伙伴发布政务大模型和城市大模型首批应用场景。华为基于城市智能中枢的架构，提供昇腾适配使能、自然语言大模型使能、多模态大模型使能、工具平台开发使能等四大核心能力。华为联合致远互联、华海智汇、国泰新点、南威软件、泛微网络等发布了政务大模型首批应用场景。联合奥看科技、四方伟业、国泰新点、丰图科技、数字冰雹、睿呈时代等发布了城市大模型首批应用场景。

8、华为系大模型创企获千万级天使轮融资

据36氪报道，近日深圳夸夸菁领科技有限公司获千万级天使轮融资，投资方为个人。夸夸菁领成立于2023年，主要为企业和政府客户提供基于AI大模型的新型用工模式，夸夸菁领以华为盘古大模型为基底，为“数智员工”提供通识教育；而后通过与人力资源行业、法律等行业合作为其喂养行业数据，完成专业训练；进入企业或政府单位后，接受数月的流程培训和场景化训练便可正式投入应用。

9、AI驱动美图2023年净利润大涨233.2%、

今天，美图披露2023年业绩报告：总收入27亿元，同比增长29.3%。经调整后归属于母公司权益持有人净利润3.7亿元，同比增长233.2%。总收入与净利润增长主要得益于AI推动主营业务收入增长。美图用户每天处理数亿份图片和视频，约83%都用到了泛AI功能。

10、生数科技多模态大模型通过国家备案

今天，大模型创企生数科技宣布，生数科技多模态大模型正式通过国家《生成式人工智能服务管理暂行办法》备案，这也是国内首个原生多模态大模型通过国家备案。

11、海信发布自研星海大模型

今天，海信发布自研星海大模型。海信视像科技总裁李炜透露，星海大模型基于海信自有的千万级别高质量语言、图像等数据进行训练，在权威测评榜单C-Eval上位列第二，电视行业第一。

12、杭州发布首个成果转化领域大模型

昨天，杭州市科技局、杭州技术转移转化中心共同发布了国内首个成果转化领域大模型“智者大模型1.0”。杭转中心相关负责人介绍，“智者大模型1.0”的主要功能是企业的智能画像、成果的智能化评价、供需的智能化匹配等。

13、汉王科技天地大模型通过国家备案

今天，汉王科技天地大模型正式通过国家《生成式人工智能服务管理暂行办法》备案。天地大模型于去年10月正式发布，具备多模态、语义理解、逻辑推理、数学计算、知识搜索、工具调用、内容生成、多语言和多轮对话九大基础能力。

14、首个区域实时文生图架构发布

昨天，开源平台Hugging Face上的论文，提出了一种实时、交互式的文本到图像生成系统StreamMultiDiffusion。论文的摘要部分显示，这是第一个基于区域的实时文本到图像生成框架。研究人员通过稳定快速推理技术将模型重组为新提出的多提示流批处理架构，其全景图生成速度比现有解决方案快10倍，并且在基于区域的文本到图像合成中的生成速度为1.57 FPS单个RTX 2080 Ti GPU。

项目地址：https://github.com/ironjr/StreamMultiDiffusion

论文地址：https://arxiv.org/abs/2403.09055

15、3D视觉语言动作生成世界模型发布

今天，在预印本平台arXiv上，一篇论文介绍了3D视觉-语言-动作生成世界模型3D-VLA。研究人员通过引入一系列新的具体化基础模型来提出3D-VLA，这些模型通过生成世界模型无缝链接3D感知、推理和行动。具体来说，3D-VLA 构建在基于3D的大语言模型之上，并引入了一组交互令牌来与具体环境进行交互。研究保留数据集的实验表明，3D-VLA提高了具体环境中的推理、多模态生成和规划能力。

项目地址：https://huggingface.co/papers/2403.09631

论文地址：https://arxiv.org/abs/2403.09631

16、预计今年中国AI训推一体机市场空间168亿元

在3月14-15日举办的华为中国合作伙伴大会上，华为公司董事ICT产品与解决方案总裁杨超斌透露，预计2024年中国区AI训推一体机的市场空间为168亿元。杨超斌称，2023年昇腾的模型和算子覆盖率、鲲鹏的应用覆盖率均快速提升，今年将发展超过50家鲲鹏和昇腾的伙伴。

17、欧盟调查大型科技公司对生成式AI的使用

昨天，欧盟宣布委员会已根据《数字服务法（DSA）》正式向Bing和谷歌搜索两大超大型在线搜索引擎以及Facebook、Instagram、Snapchat、TikTok、YouTube和X六大在线平台，发送有关生成式人工智能风险信息的请求。委员会要求这些服务平台提供更多信息，说明各自针对与生成式AI相关风险的缓解措施，例如AI提供虚假信息的所谓“幻觉”、深度伪造品的病毒式传播等。有关公司必须在2024年4月5日之前向委员会提供有关选举保护相关问题的信息，并在2024年4月26日之前向委员会提供其余问题的信息。

18、OpenAI模型驱动人形机器人自主对话

前日晚间，人形机器人独角兽Figure发布了机器人Figure 01的最新进展视频。在OpenAI大模型的驱动下，它能自主与人对话、理解意图并执行决策。据Figure的AI技术负责人称，视频中的行为都是机器人自己学习并完成的，没有任何人为操控，而且视频是标准的“1倍速”。Figure创始人称，OpenAI提供了视觉推理和语言理解能力，而Figure的神经网络则负责实现快速、灵敏的机器人动作。

19、OpenAI官宣新的国际新闻机构合作伙伴

昨天，OpenAI宣布与国际新闻机构Le Monde和Prisa Media合作，将法语和西班牙语新闻内容引入ChatGPT。在接下来的几个月中，ChatGPT用户将能够通过精选的摘要，与这些发布商的相关新闻内容进行交互，从其新闻网站访问其他信息或相关文章。

20、Sora将于年内推出拟增加语音功能

据《华尔街日报》前天报道，OpenAI CTO米拉·穆拉蒂（Mira Murati）在采访中透露，文生视频工具Sora将在今年内发布，未来计划增加语音功能。她称，时长20秒、分辨率720P的视频仅需几分钟就能生成。

21、阿尔特曼称被起诉后与马斯克互发短信

据《商业内幕》报道，昨天，OpenAI CEO阿尔特曼在接受采访时称，当马斯克对OpenAI及几位联合创始人提起诉讼，他给马斯克发送了一条“无关紧要的”短信。记者询问他是不是发了类似“WTF”的内容，他说比那个要友善一些。在那之后，他们又“互相发送了一些表情符号”。

22、微软Copilot安全版4月1日全球发布

昨天，微软宣布Copilot for Security（国际版）将于4月1日在全球范围内正式发布。这是全球信息安全领域首个独立的生成式AI解决方案，面向安全和IT专业人员，能全面洞察安全态势，更快地采取行动，并增强团队专业技能。据介绍，微软Copilot for Security每天处理超过78万亿超大规模的安全信号，资深安全专业人员在使用Copilot后工作效率提高了22%，任务准确率提高了7%。

23、微软Copilot Pro介绍中出现GPT-5

据MSPowerUser昨天报道，微软Copilot Pro介绍中出现GPT-5字眼，显示开通可以优先访问GPT-5 Turbo。微软广告和网络服务首席执行官Mikhail Parakhin回应称，这是一个拼写错误，应该是GPT-V。也有网友发现，在其他购买页面的详情中所写的是GPT-4 Turbo。截至目前，微软仍未修复该错误。

24、谷歌发布通用游戏AI智能体

前天晚间，谷歌DeepMind团队发布了可扩展、可指导的多世界智能体SIMA（Scalable Instructable Multiworld Agent），该智能体可以遵循自然语言指令在各种视频游戏环境中执行任务，从个别游戏转向通用的、可指导的游戏AI智能体。据介绍，SIMA适用于3D虚拟环境，可通过语言接口将先进的AI模型能力转化为有用的现实世界行动。

25、谷歌发布让人物照片说话的方法VLOGGER

昨天，谷歌发布了一种从单个人物输入图像，生成基于文本和音频驱动的人类说话视频的方法VLOGGER。它基于生成扩散模型，包括一种随机的人物到3D动作扩散模型，以及一种新的基于扩散的架构，将文本到图像模型与时间和空间控制相结合。据介绍，VLOGGER可以生成高质量、长度可变的视频，并通过人脸和身体的高级表达进行控制。

项目主页：

https://enriccorona.github.io/vlogger/

论文地址：

https://enriccorona.github.io/vlogger/paper.pdf

26、百度推出首个消费者组织数字人

据百度营销中心微信公众号前天发文，百度联合深圳市消费者委员会推出全国首个消费者组织数字人“鹏维维”。数字人“鹏维维”由百度AIGC创意生成平台擎舵提供数字人建模、语音克隆、动作捕捉、AI和算法驱动等技术支持。擎舵基于文心一言底层大数据模型，利用数字人建模技术和语音克隆技术，实现了对真人和语音1:1还原，让数字人带给用户更接近真人的交流体验。

27、阿里巴巴全球数学竞赛首次向AI开放

据达摩院DAMO微信公众号发文，昨日，2024阿里巴巴全球数学竞赛开启报名。今年赛事首次向AI开放，邀请全球AI大模型挑战竞赛难度试题。本届大赛初赛时间为4月13日-14日，参赛的AI模型将与人类选手一同在线上应对初赛试题的挑战，组委会将重点评估AI模型对题目的理解、逻辑推理准确性和问题解决能力。为了确保公平竞赛，避免人类替考的情况出现，参赛者需要在开赛前提交模型代码，供校验复现。最终得分排名前三的AI团队将依次获得奖金10000美元、5000美元、2000美元。

28、零一万物API上线支持输入30万汉字

昨日，大模型创企零一万物发布了Yi大模型API（应用程序接口）开放平台。据悉，此次 API 开放平台提供以下模型：Yi-34B-Chat-0205，支持通用聊天、问答、对话、写作、翻译等功能；Yi-34B-Chat-200K，支持200K 上下文，多文档阅读理解、超长知识库构建；Yi-VL-Plus多模态模型，支持文本、视觉多模态输入，中文图表体验超过GPT-4V。

API开放平台链接：

https://platform.lingyiwanwu.com

29、智谱AI获北京市AI产业投资基金参投融资

据腾讯科技昨日报道，大模型创企智谱AI已于今年初完成新一轮融资，北京市AI产业投资基金参与投资，这也是该基金成立以来投资的第一家大模型公司。智谱AI未透露投资金额。

30、王小川称百川不走Sora路径

据腾讯科技昨日报道，AI创企百川智能CEO王小川在接受其采访时谈道，公司的工程师在技术会上试着说服他尝试文生视频，但他认为像Sora之类的文生视频模型既不靠近AGI理想，也不靠近现实场景，并明确拍板：百川不走Sora路径。王小川认为，现在的Sora不懂物理规律，没有深入到后面的分子、细胞相变，只是模拟引擎，因此Sora要把物理学全都学会才会变成世界引擎。他还称，Sora的高度、突破性、应用价值低于GPT。

31、旷视透露“大模型+机器人”计划

据旷视MEGVII微信公众号发文，前天，中共中央政治局常委、国务院总理李强在北京调研，旷视联合创始人、CEO印奇作为北京市AI企业代表参加座谈会，汇报了公司在大模型领域的技术创新思路。印奇称，旷视将推动多模态大模型的技术创新和行业应用，发挥在软硬结合方面的优势，围绕“大模型+机器人”的发展方向，推动AI为实体产业创造价值。

32、传拼多多不做大模型布局

据深网腾讯新闻昨日报道，拼多多内部人士透露，公司在AI大模型上暂时没有布局，内部确实在做AI智能客服，但算不上大模型量级。拼多多何时布局生成式AI及大模型，可能取决于创始人黄峥对AI的判断。业内一个未经证实的消息是，卸任拼多多所有职务后，黄峥在哥伦比亚大学攻读AI博士学位。

33、网络芯片创企篆芯获2亿元融资

据硬氪昨日报道，篆芯半导体南京有限公司日前完成2亿元A2轮融资，此次融资由隆湫资本领投，睿悦投资、柠盟投资、君盛资本、卓源亚洲、华方资本等多家新老股东跟投。本轮融资资金将用于技术研发和产品升级。据悉，篆芯于2021年成立，主要业务是为AI、云计算、万物互联时代打造网络芯片，服务国内主流的网络设备提供商。篆芯即将推出第一款芯片“兰亭”，其具备高性能、可编程交换的特性，在云计算数据中心、园区网、核心骨干网等关键基础设施中均可适配。

34、英伟达将推出生成式AI专业认证

据英伟达微信公众号前天发文，英伟达即将推出一项新的生成式AI专业认证，助力开发者在这一重要领域证明自身技术实力。这项认证将在3月18日至21日举行的GTC大会上正式推出，同时提供现场和线上的相关培训课程。目前新推出的专业认证计划包含两项入门级（Associate-level）生成式AI认证，这两项认证专注于考察对大语言模型和多模态工作流技能的掌握程度。

35、传软银考虑投资法国创企Mistral AI

据彭博社昨日援引知情人士消息报道，软银集团正在探索对法国大模型创企Mistral AI的潜在投资。据称，软银已表示有兴趣在Mistral下一次融资时为其提供支持，任何交易都有可能使Mistral的估值超过20亿美元。双方的商议仍在进行中，目前还不能确定是否会达成协议。软银和Mistral的代表拒绝置评。

36、Claude 3 Haiku正式上线

昨日，AI大模型创企Anthropic发布了Claude 3 Haiku，这是同系列中速度最快且最实惠的型号，该模型现已与Sonnet和Opus一起在Claude API和claude.ai上为Claude Pro订阅者提供。

37、欧盟议会批准全球首个AI法案

据VentureBeat报道，昨日，欧盟议会批准了《人工智能法案》（EU AI Act），这是全球首部全面监管AI的法规。这部法案诞生于2021年，将AI技术分为不同的风险类别，从“不可接受”到高、中和低四个级别。法案根据不同的风险等级对AI的不同用途进行监管，违规者最高将面临其全球营收7%的罚款。该法案仍需要获得欧盟理事会的批准，如果通过将于今年5月底正式立法生效。

法案地址：

https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai

38、创企Cerebras发布最快AI芯片WSE-3

前天晚间，AI芯片创企Cerebras发布了Wafer Scale Engine 3（WSE-3），其将现有最快AI芯片的世界纪录加倍。在相同的功耗和价格下，WSE-3的性能是之前的纪录保持者Cerebr的两倍。WSE-3使用台积电的5nm工艺打造，包含4万亿个晶体管、90万个AI核心、44GB片上SRAM，外部存储器为1.5TB、12TB或1.2PB，峰值性能为125 FP16 PetaFLOPS。该芯片能训练高达24万亿个参数的AI模型，其打造的集群规模达2048个CS-3系统。

39、AI创企Kolena推出大模型测试验证平台

据VentureBeat报道，AI创企Kolena昨日推出AI测试平台，用于测试和验证大模型的速度和准确性。该系统包括对数据质量、模型的测试，以及数据漂移和模型退化的监控，并提供调试功能。据悉，Kolena成立于2021年，由前亚马逊高级工程经理创立。

40、AI基础设施平台Together AI晋升独角兽

据路透社报道，英伟达支持的AI基础设施创企Together AI近日完成1.06亿美元融资，由Salesforce领投，Coatue Management等老股东跟投。自去年秋天以来，随着投资者纷纷支持生成式AI初创公司，其估值翻了一番，此次融资对Together AI的估值为12.5亿美元。

本文标签：华为大模型王小川云应用智能体神经网络腾讯清华视频模型小米手机