百度沈抖:深度拥抱"人工智能+",加快发展新质生产力
2024.05.30 09:56浏览量:701简介:5月28日,由人民日报文化传媒有限公司和百度联合主办的2024智能经济论坛在北京举行。
5月28日,由人民日报文化传媒有限公司和百度联合主办的2024智能经济论坛在北京举行。会上,百度集团执行副总裁、百度智能云事业群总裁沈抖介绍了文心系列主力大模型免费背后的原因。此外,为了加速行业大模型的落地,百度智能云推出“千帆·行业增强版”,目前已经在政务、交通、工业等行业落地。
沈抖表示,为什么能把价格打下来?主要是依托于技术能力,尤其是百度智能云有业界最高效的AI异构算力管理平台和“一云多芯”两项硬实力。目前,文心大模型已经拥有中国最大的产业落地规模,超半数央企正在联合百度进行AI创新。
以下为演讲实录:
尊敬的各位领导,亲爱的朋友们,大家好!我是百度沈抖。
上个月,我在成都讲了一个毛竹的故事。这种竹子在生长初期,好几年间都深埋地下,拓展根系。而一旦破土而出,短短几周就可以长到十几米高!
所谓“三年不长,一夜千尺”。在新中国历史上,我们的产业发展也有过很多这样的“破土时刻”。
比如1956年,经过三年的技术攻关,中国一汽造出了中国第一辆解放牌汽车,奠定了中国汽车产业发展的基础。2023年,C919首航成功,中国商飞用16年的时间打破了海外公司的垄断……
伏久者,飞必高。多年来,央企国企带动千行百业,啃“硬骨头”、下“硬功夫”,挺起中国“硬脊梁”。
再比如,三一重工历时900多天,打造了全球重工行业第一座“灯塔工厂”;蓝箭航天历经8年试验,成功发射了全球首枚入轨的液氧甲烷火箭……
根深者,叶必茂。新时代,民营企业作为科技创新的重要主体,带来新机遇、激活新动能。
今天,我们又再次迎来了一个关键时刻:新质生产力正在破土而出。如果说国家政策是阳光,中国丰富的工业体系是土壤,那么科技创新就是新质生产力迸发的内生力量。人工智能和大模型,代表着当下最前沿的科技进展。
它给中国带来的机会,不仅是“点”上的突破,更是“面”上的跃迁。
在这里,我也很荣幸地与大家分享,中国有一半以上的央企正在使用百度的技术和服务进行人工智能创新!今天我也想向大家汇报一些我们和客户合作取得的进展。
上个月,我们发布了国内第一个智能计算操作系统——万源,它集合了我们在算力、模型和平台服务上的能力,是一个完整的、体系化的、企业级的“人工智能”服务,为大家提供世界一流的大模型,世界一流的异构计算平台,和世界一流的大模型服务平台。
过去,是IBM、Oracle、SAP这些知名公司,用几十年的努力,打磨技术能力、提升服务水平,推动企业IT走向成熟,加速全球信息化的发展。
今天,百度也在努力。我们要做的,就是给大家提供领先的技术、专业的服务,把大家创新、试错的成本降到最低。
万源的底层,是我们的百舸异构计算平台。这里有最硬核的技术,一云多芯。任何企业,要想供应链安全、有弹性,一定不会只绑定一家厂商的芯片,一云多芯是必然选择。
而不同厂商的芯片,存储空间不同、网络带宽不同,很难在同一个集群里像一块芯片那样高效工作。而我们今年年初成功解决了这个问题,不但可以把来自不同厂商、不同代际的芯片放在一个集群用,而且在多芯混合训练中把性能损失控制在3%,这是我们在市场上见到的最好的效果。
在多芯混合训练中,我们做到了三个最高: 单个芯片的利用率最高!芯片间通信效率最高!整体集群效能最高!有了百舸以后,我们在芯片的选择上就有了很大的灵活度和自由度。
百舸可以把不同地点、不同规模、不同集群的算力统一管理起来,通过芯片性能优化、自动芯片选型、潮汐混部这些经验和技术,把每一张卡的价值都发挥到极致!在百舸上,有效训练时间占比达到了98.8%,这在行业里面是很不容易的。
我们跟很多企业算过一笔账,跑同样的任务,如果能用到这套技术,它的成本基本上可以降一半。假如我们推而广之,把所有用智算企业的算力都高效管理起来的话,我们每年能节省超过50亿的成本。
正是由于百舸这套算力管理平台的硬实力,我们才可以给大家提供最具性价比的模型服务。
上周二,我们的两款主力模型,ERNIE Speed和ERNIE Lite宣布免费。大家都知道,过去一段时间有不同的大模型的降价策略,而免费是最容易理解的降价策略。
其实我们决定免费的原因特别朴素,就是希望大家别再天天拉表格比价格了,而是应该把这些精力真正用在怎么做应用、卷应用上面。不如去卷场景、卷应用。这次免费的两个模型,也是客户在场景应用中经常用到的主力模型,每天在文案创作、聊天对话、知识问答、内容续写这些场景上调用量还是很大的。现在成本更低了,这时候大模型的价格一下子降这么低,大家胆子就可以更大,步子更快,步子可以更快一些,在相关的场景上都可以试一试,一旦跑通了就可以规模化的去扩展。
当然,要满足企业在业务场景中的多元化需求,只有这两款模型是不够的。我们的文心大模型家族,提供不同参数规模、不同上下文长度、不同细分领域的模型。
无论你是想在公有云上使用,还是做私有化部署,都可以在千帆上找到最合适的大模型。目前在千帆上,每天的调用量超过了2亿次,每天处理的文本相当于74万本《新华字典》,已经成为广大用户的第一选择。
当然,大模型真正的价值还是在应用。要想真正把大模型用起来,还必须要有好用的工具链和平台。
去年3月27日的时候,我们就发布了千帆平台,这是一个企业级的大模型平台,经过一年的持续进化千帆已经成为集开发平台、应用开发于一体的产品服务体系。
下面我和大家分享几个真实案例,看看现在用千帆去开发应用、精调模型到底有多简单。
厦门市规划数字中心前段时间想做一个问答型应用,为有用地需求的办事群众和企业,解答和土地规划有关的问题。
过去要从0到1开发一个这样的应用还是挺难的。通常都是要先投入大量时间准备数据,做前后端的设计。为了追求更自然、准确的回答效果,还需要做一系列的调试和优化。
现在,在千帆AppBuilder的帮助下,只需要3分钟,就能充分利用原有的知识库,搭建出一个对答如流的智能小助手。下面,我们一起看一下这个搭建的过程。
演示要点:
- 打开AppBuilder,创建页面
- 添加 “百度搜索”组件
- 准备数据,上传知识库
- AI生成“开场白”和“推荐问”
- 开始调试,超出范畴也能答出
- 发布应用,微信公众号、网站
这个小助手很快就会上线。同时我们还在和客户一起探索更多场景,进一步提升城市服务的效率、提升市民的使用体验。
刚才是一个典型的文本对话场景。除此之外,我们也看到很多客户有多模态的场景。
我们的客户蔚来汽车打造的NOMI GPT就是一个端云多模态大模型。他们在文心大模型基础上,通过提示词工程,让NOMI GPT能够更自然地与用户互动,成为一个懂你、聪明、万能的座舱AI小助手。我们来看一个视频。
现在,NOMI已经陪伴了将近20万个车友家庭。我们也在和蔚来汽车探索更多的场景,创造更美好的出行体验。
20万已经不是个小数目,那如果是百万、千万呢?现在,全国已经有4600万家庭在使用小度,场景非常丰富。
小度背后,除了旗舰版的文心大模型之外,我们还在千帆上针对教育、家庭娱乐这些场景做了模型精调,让小度在这些场景里,对话更自然。
另外,有这么大的调用量,如何在实际应用中平衡模型的效果和成本,是小度面临的另一个重要问题。
千帆ModelBuilder提供了模型路由的能力,根据不同模型的特点,把合适的任务交给合适的模型,让小参数模型在某些场景上发挥大参数模型的效果,成本还更低。
不仅是小度,很多企业都有这样一个诉求。即使是在复杂场景下,我们也能通过这样的方式帮大家节省30%以上的成本。
千帆的通用能力,非常强大,已经可以解决大部分企业的问题。
但是有句话叫“隔行如隔山”,这些大模型,当大家用得越深,就越希望这个模型跟自己的行业有更好的结合,能够让它更加专业一点。
这段时间就有很多客户问我,能不能搞一个行业大模型?
当然可以。但我们需要明确一下,所谓的行业大模型,它通常情况下是一个通用大模型和几个行业模型组成的一个综合的解决方案。这些行业模型通常都是从一个小模型里面加入这个行业的数据精调出来的。这时候你把行业数据灌进去,这个模型确实在特定领域能力就会变强。我知道大家的场景都是很复杂的。如果我们把一个场景加一堆数据作为一个专用模型去解决一个特定场景的问题,这时候你的场景这么复杂,你就得做所谓的行业模型。这时候就又回到了传统AI,所谓烟囱式的开发,效率就会很低。
只有把这些行业模型和通用大模型结合起来,让通用大模型的理解、生成、逻辑、记忆的能力,和这些行业模型在行业里面的特长结合起来 ,才能真正发挥大模型的作用。
说了这么多感觉很复杂。这时候就要有一套好用的、体系化的工具,才能把应用开发做到事半功倍。所以,现在我们就把这些刚才讲到的所有工具链、技术栈沉淀下来,帮助客户去做行业的能力增强,这样就可以让他们更方便地去开发行业应用。
在通用能力的基础上,你可以不断地去做行业能力的扩展和适配。
在资源层,接入多源数据,做云边端的协同;
在大模型服务层,你可以加入行业大模型、行业知识和一些行业智能体;
在上面的应用层,你可以加入行业的各种业务逻辑,在企业环境中开发应用、提供服务。
总之,我们在通用模型的基础之上,不断地为它进行行业的增强,增加行业的特色,这个模型就会变得越来越贴心,效率越来越高。
而且大家可以在同一个底座上往里面添加不同行业属性,我相信大家也听到有人说“我做了一个政务大模型”,“我做了一个交通大模型”,“我做了一个工业大模型”,很多时候一个企业,一个实体,可能同时需要多个行业场景的解决方案, 我们总不至于一套一套的去买不同的模型,反到是用这样一个方式有一个通用底座,我们提供方便的工具链,不断做行业增强,就可以把整个能力给建设起来。所以有了行业增强的通用大模型以后,我们整个开发范式就会避免烟囱式的一遍一遍的重复建设,把整个复杂的过程用千帆屏蔽掉,实现真正的场景驱动,把应用给卷起来。
一直以来,像微软、谷歌这样的全球主流技术厂商都在追求这样的全栈能力,今天,我们也是把行业增强和通用能力放在一起,作为一个一揽子方案交给企业。
接下来,我们通过几个案例来看一看,行业增强后的千帆平台是怎样帮助我们开发应用的。
先来看工业领域。我举一个化工行业的典型场景——新材料研发。研发一款新材料,可能需要经过几十万次的尝试才能真正走向量产。光是找一个新材料分子,就需要调查几十到几百种分子材料特性。同时,还需要人工在海量文献里挨个手动查询分子信息,成本很高。
我们的客户中化信息,在自己的“化小易”平台中,通过大模型极大提高了研发效率。让我们看一个视频。
缩短从材料发现到应用的时间,一直是研发人员的理想。现在,在大模型的帮助下,这个理想正在成为现实。
再看看政务服务。劳动者面对的问题千头万绪。以前遇到劳动纠纷,要去咨询律师,成本高、时间长,对于急需法律援助的劳动者来说,负担很大。
现在,我们和中华全国总工会合作打造了AI法律咨询助手,为劳动者提供便捷的咨询服务。我们看一下现在的服务流程。
演示要点:
- 打开职工之家app
- 点击智能法律服务
- 进入劳动法律咨询,给出法律法规依据、案例参考
- 利用“劳动法律计算器”快速计算劳动权益,比如年假
- 进入劳动争议案情评估,简要陈述案情信息,智能分析锁定核心争议点,给出评估报告,一键生成文书
以前的客户如果要真想做一套这样的系统,少则三个月,多则半年、一年,现在只需要一个月。而且在这个基础上开发新的应用,都可以像刚才看到的案例一样在分钟级就可以升级应用。
具体到这一次跟总工会的合作,我们首先共同整理了一些专业数据,在数据之上精调了一个工会行业的大模型,总工会希望部署在自己的专有云上,确保数据的合规,我们就实现了混合部署,意味着遇到一些复杂的问题,首先会在公有云上理解问题,进行任务规划和拆解,拆解完以后的具体任务就会回到私有云上,在工会的行业大模型上执行,执行完以后如果需要总结提炼,还会用文心大模型总结呈现给用户。
这样的话既可以满足数据合规的需求,同时又达到了非常好的模型效果。
而且,为了丰富这个平台的场景化能力,我们还封装了法律问答、案例推荐、领导问数这些行业智能体。
我们再看看交管领域。
拿贵阳的观山湖区来说。这个区域比较特殊,它夹在环城高速和老城区中间;多数人住在老城区,上班去别的城区。
观山湖区作为交通枢纽,早晚高峰车流压力非常大,老百姓出行,一半时间得耗在堵车上。
贵阳2023年与百度合作,利用百度的AI能力做智能信控缓堵治理,现在拥堵情况已经有了明显改善。我们正在基于百度交通大模型去解决更复杂的问题。接下来我们通过一个短片了解一下。
视频中那位女士说的“能多睡几分钟”,我估计是很多人的心声。
我在和很多地方政府负责人交流的时候,常常听到大家提起一个朴素的愿望,就是想为老百姓多做点实事,让大家的幸福感更多一点。
这也是我们做科技创新、做人工智能真正的价值,是推动我们前进的根本力量。
当然,这份力量不止改变我们身边的世界,也正在改变人类的未来。
让我们把视线放到学校。高校一直是科研创新的重要力量。传统的科研实验,需要人工建立科学模型和处理海量数据,经历成百上千次的交叉验证。
现在,上海交通大学在百舸、千帆的核心能力之上,构建了Al for Science科研创新平台,显著提升了团队的科研效率,为大模型助力科研新范式提供了借鉴。现在,在这个平台上,已经孵化了多项首创性的科研成果。让我们看一段视频。
刚才杨小康院长在视频结尾的那句话,我非常认同。我相信,未来,AI“科学家”和人类科学家共同努力,一定会给我们带来更多的惊喜。
刚刚和大家分享的只是一部分典型的场景。其实大模型已经广泛地融入到“研产供销服”的各个环节中。
为了支持企业用好人工智能和大模型,各地政府也在加紧算力建设。
我们的客户沈阳首府经开区,就基于万源的能力,规划了全国首个集场景、平台、模型到算力全栈部署的1000P智算中心,建设不到1年,投资已经收回了10%。我相信,在未来,它将为沈阳的特色产业、重点产业提供更有力的公共算力支持。
“犯其至难而图其至远”。刚才分享的这些项目,其实背后多少都会遇到一些难点、卡点。但是我们相信,路虽远,行则将至,事虽难,做则必成。
屏幕上展示的,就是过去一年我们客户普遍关心的四大关键问题。只有咱们把那些关键问题都解决了,大家才能放心去用大模型、才能用好大模型!
这些问题里,大家最关注的就是自主可控。
在芯片层,我们有自研的芯片昆仑芯,当然,我们也支持其他的芯片,可以通过百舸很好地管理起来。
在框架层,我们有飞桨,这是中国深度学习领域规模最大的一个开源框架。
在内容层,大家非常关注内容的安全可控,我们也提供了这样的能力。
另外,我们非常希望大家多用公有云,这样成本更低、效率更高,考虑到数据安全,我们也提供混合部署的方案,做到同时享有合规、高效的特点。刚才提到的中华全国总工会,就是一个非常典型的案例。
当然,算力效能、数据服务、模型能力等等这些问题,我就不一一赘述了。我相信通过万源的能力可以帮助大家把大模型快速的用起来!
面对客户很多个性化的需求, 万源这个系统既有内部的异构算力,也有领先的模型,还有高效的平台。在这个过程中, 我们也同大家重点分享了我们怎么去做行业的加强。即使在这种情况下我相信很多时候也不一定能直接用起来,所以我们还在跟行业里面非常领先的行业合作伙伴在一起努力推进这个过程。
新一轮的“破土时刻”即将到来,那么这就是中国的新质生产力,也是世界发展的新动力。
百度希望和客户、伙伴一起,深度拥抱人工智能。让智能,生成无限可能!
谢谢大家!
发表评论
登录后可评论,请前往 登录 或 注册