机器之心原创
作者:张倩
今年年初,英伟达 CEO 黄仁勋因为劝人「别再学习计算机」被送上热搜。但其实,他的原话是「过去,几乎每个人都会告诉你,学习计算机至关重要,每个人都应该学会编程。但事实恰恰相反,我们的工作是创造计算技术,让大家都不需要编程,编程语言就是人类语言。」
编程,是为了不再编程,这一愿景由来已久,而且在大模型出现之后逐渐成为可能。但在现阶段,直接把一个大模型丢给某个人或某个企业去用效果仍然不好。比如,你不能指望一个不会写 Prompt 的人利用大模型去构建一整个网站,也不能指望一个没有配置 AI 人才的公司把某个大模型变成公司「智囊」。
也就是说,现在的大模型离「开箱即用」还有一段距离。
不过,在 5 月 17 日的腾讯云生成式 AI 产业应用峰会上,我们看到了可以缩小这一距离的产品,比如能调用腾讯官方插件和知识库的一站式 AI 智能体创作与分发开放平台 ——腾讯元器,能帮助一线业务人员用好大模型解决实际业务难题的腾讯云大模型知识引擎、腾讯云大模型图像创作引擎、腾讯云大模型视频创作引擎等。
为这些产品提供支撑的腾讯混元大模型能力也在持续升级,部分中文能力已追平 GPT-4,支持 16 秒视频生成。目前,腾讯混元 hunyuan-pro、hunyuan-standard、hunyuan-lite 等多种尺寸模型,已通过腾讯云,面向企业、开发者全量开放。其中 hunyuan-standard 支持 256K 上下文,长文档理解和处理能力更强了。
在这次全新发布中,知识引擎是一款比较有代表性的 PaaS 类产品,可以让企业 5 分钟就开发出一款客服营销、企业知识社区类知识服务应用。这类大模型平台的出现打破了人人都需要掌握大模型复杂用法的局面,让大模型离产业更近了。
视频链接:https://mp.weixin.qq.com/s/R2svncnqiSZqRmyxKLC9hQ
利用知识引擎,企业用户只需要输入模型选择、角色设定、知识库管理等基本信息,5 分钟就可以搭建出一款知识应用。
量产「销冠」、5 分钟创建智能助手
知识引擎是怎么做到的?
如果你在视频号上关注过一个叫「李蠕蠕」的博主,那你一定看过她的「销冠」系列。在视频中,她扮演的销冠角色会展示不同的销售策略,比如如何通过判断顾客的心理和需求来推销产品、如何应对还价、如何判断顾客的购买力等。批量复制这类「销冠」是每一个公司的梦想。
腾讯云知识引擎有助于实现这个梦想。它利用「LLM+RAG」的技术路线,可以帮企业轻松搭建融合了自己私有领域知识库的问答助手。如此一来,每个员工都能够以问答的形式迅速获取公司知识,学习「老员工」经验,快速提升业务能力。
某公司利用腾讯云知识引擎构建了一个「保险经纪人销售助理」,通过生成保险产品知识和安抚话术来辅助保险经纪人。其问答准确率由传统机器人的 57% 提升至 85%,保险经纪人人均提效 50%。
而这个过程之所以这么轻松,是因为腾讯云知识引擎封装了一些好用的模型和工具。
腾讯云大模型知识引擎聚焦全技术链路提升,当用户提问时,知识引擎会先通过 RAG(检索增强生成),从一个庞大的文档集合(企业知识库)中检索出相关的文档片段,然后把这些信息按照一定的规则重新排列,转换成 prompt 输给大模型(LLM)。大模型会基于这些内容生成回答。这种方式相当于带着「课本」去考试,可以大幅度降低幻觉,回答内容更安全可靠。
整合 OCR 大模型,文档识别准确率提升 30%
在利用知识引擎构建应用后,企业首先需要导入自己的知识库,以供检索。在这一环节,文档排版的复杂性决定了,解析这些知识不是一件容易的事,要克服图文混排处理、结构化表格识别、公式识别、流程图识别、阅读顺序保持等诸多问题。
针对这些问题,腾讯云知识引擎集成了 OCR 解析大模型,通过三个步骤来解析文档:
其中,表格、公式的情况较为复杂,比如有些表格可能没有框线。针对这类问题,OCR 大模型通过融合行列关系特征和元素特征来预测表格的行列间隔线。这样一来,即使表格没有明显的框线,也能通过算法推理出结构。此外,这个 OCR 大模型还能识别跨页合并表格、多行表等,对科研论文场景的复杂公式解析效果也比较好,是国内少数能够与海外顶尖模型(如 Google 的 MP 模型)相媲美的模型之一。
整体来看,OCR 解析大模型将文档识别的准确率提升了 30%。这种对文档结构的深入理解对于处理更复杂的任务至关重要,比如信息的归纳、总结、对比分析和数值计算等。
提出业内首个语义切分大模型,回答完整性提升 20%
让 OCR 解析大模型把知识解析出来,就能进行检索了吗?不,中间还有一个重要的步骤 —— 知识切分。
知识切分的难点在于如何准确地识别出某些信息属于一个信息块,并将其完整地切出来,比如跨页的流程图、表格。传统的切分方法是按照规则去切分,但不同的内容往往需要不同的切分方式,这使得切分规则变得异常复杂,不易维护。
为了解决这一问题,腾讯云推出了业内首个基于语义判断的知识切分大模型。和传统切分方法不同,它不需要你告诉它如何切分,而是自己去理解整篇文章的一级、二级、三级段落是怎样的分布,实现端到端的切分。这得益于模型在预训练过程中获得的语义理解、长上下文关联能力。此外,巧妙设置 prompt、构造微调数据也起到了很大作用,使大模型能够适应长文本切分需求并有较快的推理速度。
通过准确的知识切分,大模型可以更有效地支持检索,让检索系统可以基于更合理、语义更完整的文本块进行搜索,从而提高检索的准确性和效率。在这个模型的帮助下,知识引擎的回答完整性提升了 20%。
自研长文本 Embedding 模型,上万行超大表格也能检索
在文档被充分解析、恰当切分后,检索过程就能更加顺利地进行了。不过,如何从海量的多模态数据中检索到最相关的信息依然是一大挑战。
腾讯云知识引擎从两个方向入手来优化检索效果。首先,通过自研的长文档 Embedding 模型,它把检索最大长度从 512 提升到 4K,以支持更复杂的长文本检索任务。在国际知名的 C-MTEB 榜单上,该模型在 8 个中文任务上可以达到效果最优。
其次,它支持向量关键词检索、表格文字混合检索等多种检索策略,这使其检索能力不仅限于传统的文本检索,还支持大型复杂表格等复杂检索需求。甚至,对于上万行、上百列的超大表格,知识引擎也能从容应对。
这些检索到的信息是大模型回答用户问题的重要依据,有助于提高生成文本的质量和可靠性。
整合多模态、多行业大模型,应对多样提问
在检索过程完成后,大模型会得到一个包含答案线索的 Prompt,用于回答用户提问。
这些问题有时会很专业,涉及到行业术语和规范。比如一个「教案助手」必须知道教案需要包含哪些内容,以何种形式编写。为此,腾讯云在通用大模型的基础上,深入了上百个用户场景,融入了大量的垂直领域知识,训练、调优了多个行业大模型,以降低特定行业的落地成本。
河南省数字教育发展有限公司基于腾讯知识引擎打造的智慧教育平台,面向河南省上万所中小学打造教师助理及学生助手,百科 + 教学辅助场景评测端到端知识准确率高于 90%。
此外,用户的提问可能会非常多元,不仅有文字,还会附上图片、文档、表格甚至非常复杂的流程图。为了解决这些问题,腾讯云知识引擎集成了多模态大模型的能力,支持数据表、数据图、操作图等图文交错的多轮问答,能够满足各种真实场景的需求。
当然,在问答过程中,知识引擎也会遇到一些解决不了的问题(bad case)。但好在,它的背后还有一个强大的底座 —— 腾讯云 TI 平台。TI 平台上有一整套数据处理、模型精调工具,可以将 bad case 转化为有价值的训练数据,还有 100 多种任务类型的精调配比数据可供选择,帮助进一步提升模型性能。这是很多知识引擎类应用所不具备的优势。
多个开箱即用平台齐发
瞄准「产业实用」
除了知识引擎,腾讯云这次还发布了其他几个开箱即用的平台,包括腾讯元器、图像创作引擎、视频创作引擎等。
其中,腾讯元器是一个智能体创作和分发平台,主打「低门槛」。通过提示词、插件、工作流、AI 辅助创建等能力,每个人都可以在几分钟内通过打字、点选等简单操作构建自己的专属智能体。
而且,元器平台上预集成了腾讯生态特色插件、知识库资源,还将开放第三方能力,丰富智能体的功能。
创建完成后,你可以将这些智能体发布到 QQ、微信或 APP 上,优质智能体有机会获得流量扶持。
图像创作引擎支持图像风格化、AI 写真、线稿生图等能力,可以大幅缩短素材创作和生产周期。
视频创作引擎支持视频风格化、运动笔刷、画布拓展等视频 AI 创作能力,还能一键转译视频语言,帮助企业投放海外市场。
这些引擎和知识引擎共同组成了大模型时代原生工具链,体现了腾讯云「产业实用」的大模型核心战略。
这一战略可以被解读为:如何让用户以最低的成本或门槛、最小的必要输入来获得最佳的大模型应用实践。
这一价值主张在知识引擎等产品中有多种体现。从整体来看,它有工具层、模型层和应用层的全方位支持,而不仅仅是模型本身,而且解决方案涵盖了从数据处理、模型训练、应用开发到最终的部署和运维等多个环节。
从细节来看,它没有限制底层的大模型,而是以实用为判断标准,提供了混元大模型、精调的行业大模型、客户定制大模型以及基于第三方大模型精调而成的知识引擎专用模型等多种选择,帮助企业控制成本。此外,它的接入方式也非常简单,提供开箱可用的应用模板和可被集成的原子能力 API 两种便捷使用方式,把门槛降到无限接近于 0。
就像腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生所说,「大模型的打造只是起点,把技术落地到产业场景,创造价值才是目标」。我们也期待看到更多这类「产业实用」的大模型应用产品出现。