当前速递!生成式AI,ChatGPT和自动驾驶的技术趋势漫谈
作者简介:Dr. Luo,东南大学工学博士,英国布里斯托大学博士后,是复睿微电子英国研发中心GRUK首席AI科学家,常驻英国剑桥。Dr. Luo长期从事科学研究和机器视觉先进产品开发,曾在某500强ICT企业担任机器视觉首席科学家。
元宇宙是人类社会网络化和虚拟化,通过对实体对象对应生成数字”智能体”来构建一个人机共存的新社会形态。元宇宙零距离社会里的社会计算,是一种数据行为的社会计算和人机交互的社交计算。
【资料图】
对于生成式AI行业,我们也许可以将其核心演进趋势定义为人机智能的社交计算,简单表述为通过完成类似通用的问题答问Q&A系统任务,以及特定内容的高清图像生成,来促进各行业转型升级,尤其是数字内容生产,人机交互与问答(聊天,教育和金融服务,医疗诊疗,自动驾驶等)行业,从而进一步打通元宇宙中真实世界与虚拟世界的社交沟通能力。
对于自动驾驶ADS行业,我们也许可以将其核心演进趋势定义为群体智能的社会计算,简单表述为,用GPU/NPU大算力和去中心化计算来虚拟化驾驶环境,通过数字化智能体(自动驾驶车辆AV)的多模感知交互(社交)决策,以及车车协同,车路协同,车云协同,通过跨模数据融合、高清地图重建、云端远程智驾等可信计算来构建元宇宙中ADS的社会计算能力。
生成式AI
生成式AI大模型,包括近两年推出的ChatGPT和Stable Diffusion,能够比较满意地完成类似通用的问题答问Q&A系统任务,以及特定内容的高清图像生成。对各个行业来说,呈现着一定程度的颠覆性意义和充满未来想象的商业空间,可以促进各行业转型升级,尤其是数字内容生产,人机交互与问答(聊天,教育和金融服务,医疗诊疗,自动驾驶等)行业。
图1:生成式大模型发布时间轴(G-Brizuela, 2023)
如图1所示,2021-2022年,我们很幸运地迎来了DNN大模型的一轮大爆炸,即所谓的生成式AI(AIGC)浪潮。在演进中的生成式AI大模型包括:
Text-to-Texts:ChatGPT3, PEER, LaMDA, Speech From Brain
Text-to-Image: Starry A.I.(GAN-based), DALLE-2 (Diffusion-based), Stable Diffusion, Muse, Imagen
Text-to-3D-Image: Dreamfusion, Majic3D
Image-to-Text: Flamingo, VisualGPT
Text-to-Video: Phenaki, Soundify
Text-to-Audio: AudioLM, Jukebox, Whisper
Text-to-Code: Codex, Alphacode
Text-to-Scientific: Galactica, AlphaTensor, Mineva, GATO
上述的主流生成式AI大模型,如果从开发到最终拥有关系角度,可以简单分类如下:
OpenAI: DALLE-2, ChatGPT3, Jukebox, Whisper
Google: Imagen, DreamFusion, Minerva, LaMDA, Muse, Phenaki, AudioLM
DeepMind: Flamingo, AlphaTensor, AlphaCode, GATO
meta AI: PEER, Galctica, Speech From Brian
Runway: Stable Diffusion, Soundify
nVidia: Magic3D
从上述几个生成式AI大模型的能力对比分析(G-Brizuela, 2023),以及图2中ChatGPT在不同场景的逻辑错误对比,我们也许可以简单总结以下:
创造性任务:Text-to-Text, Text-to-Image, Text-to-Video
➤准确率仍然远低于预期,有待成熟完善。
个性化任务:Text-to-Audio
➤有限数据集问题,大规模参数训练困难,有待成熟完善。
科学类任务:Text-to-Science, Text-to-code
➤有限数据集问题,大规模参数训练困难,准确率低于预期。
图2: ChatGPT在不同场景下的逻辑错误对比
ChatGPT
ChatGPT(Generative Pre-trained Transformer)是OpenAI开发的一款生成式AI模型,它结合了监督学习和强化学习方法,通过对话的方式来进行交互:依据用户的文本输入来做多种语言的智能回复,简文或者长文模式,其中可以包括不同类型的问题答复,翻译,评论,行业分析,代码生成与修改,以及撰写各类计划书与命题书籍等等。各类生成式AI模型也可以联合调用来提供丰富的人机对话的能力。生成式AI模型多需要海量的参数,来完成复杂的特征学习和记忆推理,例如ChatGPT模型参数为1750亿。
图3:ChatGPT模型的训练流程(G-Brizuela, 2023)
如图3所示,ChatGPT模型结合了监督学习和强化学习方法,采用了基于人类反馈的强化学习RLHF训练方法,与此同时采用了迁移学习(或者叫自监督学习)的训练方法,即通过预训练方式加上人工监督进行调优(近端策略优化PPO算法)。RLHF训练方法确实可以通过输出的调节,对结果进行更有理解性的排序,这种激励反馈的机制,可以有效提升训练速度和性能。在实际对话过程中,如果给出答案不对(这是目前最让人质疑的地方,可能会错误地引导使用者),可以通过反馈和连续谈话中对上下文的理解,主动承认错误,通过优化来调整输出结果。给出错误问答的其中一个主要原因是缺乏对应的训练数据,有意思的是,虽然缺乏该领域的常识知识和推广能力,但模型仍然能够胡编乱造出错误或者是是而非的解答。ChatGPT的另外一个主要缺陷是只能基于已有知识进行训练学习,通过海量的参数(近100层的Transformer层)和已有的主题数据来进行多任务学习,目前来看仍缺乏持续学习或者叫做终身学习的机制,也许下一代算法能够解决这个难题,这也需要同步解决采用终身学习新知识引发的灾难性遗忘难题等等。
自动驾驶:多智能体间的社交决策
在真实的交通场景里,一个理性的人类司机在复杂的和拥挤的行驶场景里,通过与周围环境的有效协商,包括挥手给其它行驶车辆让路,设置转向灯或闪灯来表达自己的意图,来做出一个个有社交共识的合理决策。而这种基于交通规则+常识的动态交互,可以在多样化的社交/交互驾驶行为分析中,通过对第三方驾驶者行为和反应的合理期望,来有效预测场景中动态目标的未来状态。这也是设计智能车辆AV安全行驶算法的理论基础,即通过构建多维感知+行为预测+运动规划的算法能力来实现决策安全的目的。而会影响到车辆在交互中的决策控制的驾驶行为包括驾驶者(人或AV)的社会层面交互和场景的物理层面交互两个方面:
社会层面交互:案例包括行驶车辆在并道、换道、或让道时的合理决策控制,主车道车辆在了解其它车辆的意图后自我调速,给需要并换道的车辆合理让路来避免可能的冲突和危险。
物理层面交互:案例包括静态物理障碍(静态停车车辆,道路可行驶的边界,路面障碍物体)和动态物理线索(交通标识,交通灯和实时状态显示,行人和运动目标)。
ADS群体智能的社会计算,对这种交互/社交行为,可以在通常的定义上扩展,也就是道路使用者或者行驶车辆之间的社交/交往,即通过彼此间的信息交换、协同或者博弈,实现各自利益最大化和获取最低成本,这一般包括三个属性(Wang 2022):
动态Dynamics:个体之间间和个体与环境之间的闭环反馈(State, Action, Reward),驾驶人/智能体AV对总体环境动态做出贡献,也会被总体环境动态所影响。
度量Measurement:信息交换,包括跨模数据发布与共享,驾驶人/智能体AV对道路使用者传递各自的社交线索和收集识别外部线索。
决策Decision:利益/利用最大化,理性来说道路使用者追求的多是个体的最大利益。
显然,交通规则是不会完全规定和覆盖所有驾驶行为的,其它方面可以通过个体之间的社交/交互来补充。人类司机总体来说也不会严格遵守交通规则,类似案例包括黄灯初期加速通过路口,让路时占用部分其它道路空间来减少等待时间等等。ADS通过对这类社会行为的收集、学习与理解,可以部分模仿和社会兼容,通过Social-Aware和Safety-Assured决策,避免过度保守决策,同时提供算法模型的可解释性、安全性能和控制效率。具体实现来说,可以采用类似人类司机的做法,依据驾驶任务的不同,使用环境中不同的关注区域ROI和关注时间点,以及直接或间接的社交/交互,采用类似概率图模型和消息传递等机制来建模。
如何用生成式AI来提升自动驾驶ADS的产品竞争力
目前来看,生成式AI有可预期的未来,但依旧任重而道远,尤其是数据的多样性收集,如何从多模态海量知识里学习和融合各种知识,理解人类的使用需求,从上下文学习中,通过生成的方式来解决各类实际任务。对于跨行业技术推动而言,生成式AI采用的自监督学习训练方法以及可以有效生成多类图像视频的能力,已经开始在机器视觉任务中和自动驾驶的感知决策任务中得到应用,可以有效填充自动驾驶场景覆盖不足的Corner Case问题。下面将简单列举几个典型应用案例来讨论一下生成式AI采用的核心技术在机器视觉和自动驾驶行业的应用前景。
1、基于生成式AI的图像数据拓展
机器视觉任务,包括自动驾驶领域,一个核心的挑战是数据多样性分布不平衡(Dataset Bias)问题。采用生成式AI模型,可以生成或者基于已有数据集进行有效拓展(Image Augmentation)。一个典型的应用案例,例如采用Stable Diffusion模型的语义指导的图像拓展SIP模型,其架构如图4所示。
图4:采用Stable Diffusion模型的语义指导的图像拓展案例(Li, 2023)
常用的图像数据拓展多采用平移,变换,拷贝黏贴等策略,有像素级或者特征级等几种类别,这些多数只是对图像或者目标进行局部处理,很难在保持语义信息和多样性之间找到平衡,而SIP模型的优势可以通用的生成式AI大模型,通过图像的标签和标题来指导Image-To-Image高清图片生成,对比常用处理算法而言,性能也会有几个百分点提升。
2、行动(action)可解释的自动驾驶
对于自动驾驶技术而言,DL-based方法由于模块化的设计和海量数据贡献,性能占优,但如何能够提供安全能力和大规模部署,需要解决几个挑战:在保证性能基础上改善可解释性;在不同的驾驶个体,场景和态势下继续增强模型的推广能力。
显然生成式AI是可以用来对自动驾驶的每个决策过程进行多任务的文本解释。图5是一个行为可感知可解释的模型ADAPT设计架构案例。ADAPT算法模型为每个场景可以提供用户友好的自然语言的描述和对于每个决策控制指令/行为的比较合理的一系列解释和推断。这种实时的行为的文字表述和推断,某种意义上会让乘客了解车辆的状态,理解ADS决策如何以安全行驶为第一生产要素,以及决策的透明度和易于被使用者理解接受。
图5:ADAPT:Action-aware Driving Caption Transformer (Jin 2023)
ADAPT算法模型的量化分析如图6所示。ADAPT所提供的基于语言的可解释性,虽然只是一种简单的尝试,但未来对ADS能否被社会完全接受,有非常重要的意义。
图6:ADAPT算法模型的量化分析(Jin 2023)
参考文献:
[1] R. G-Brizuela an etc., “ChatGPT is not all you need: a State of the Art Review of large Generative AI models”,https://arxiv.org/abs/2301.04655v1
[2] S. Frieder and etc., “Mathematical Capabilities of ChatGPT”,https://arxiv.org/pdf/2301.13867.pdf
[3] B. Li and etc., “Semantic-Guided Image Augmentation with Pre-trained Models”,https://arxiv.org/pdf/2302.02070.pdf
[4] B. Jin and etc., “”,https://arxiv.org/pdf/2302.00673.pdf
[5] W. Wang, and etc., “Social Interactions for Autonomous Driving: A Review and Perspective”,https://arxiv.org/pdf/2208.07541.pdf
责任编辑:hnmd003
相关阅读
-
当前快报:联合国世界车辆法规协调论坛噪声及轮胎工作组(GRBP)第77次会议召开
2023年2月7日-10日,联合国世界车辆法规协调论坛(UNWP 29)汽车噪声及轮胎工作组(GRBP)第77次会议在...
2023-02-16 -
环球视讯!骑马与砍杀存档修改器怎么用?使用方法是什么?
使用方法:1、选择“mod”并点击“modselect”按钮,选定“mod”;2、选择存档并点“load”按钮,载入存...
2023-02-17 -
世界热议:几日几号是愚人节?愚人节的由来是什么?
1、4月1日是愚人节。2、愚人节(AprilFoolsDay或AllFoolsDay)也称万愚节、幽默节,愚人节。节期为公历4...
2023-02-17 -
每日速递:《火力少年王3》最好的悠悠球是什么?《火力少年王3》相关内容介绍
《火力少年王3》中最好的悠悠球是超级光之精灵。《火力少年王3》是继少年火力王第一、二部之后,奥飞动...
2023-02-17 -
环球精选!地狱边境limbo全攻略分享 感兴趣的小伙伴一起快来看看吧!
1、主角一开始从野外森林中醒来。2、一直往前走把箱子拉出来上到平台,然后沿着绳子滑下去。3、继续向前...
2023-02-17 -
95后指的是什么?95后与1990-1994出生的人有区别吗?
95后,是指1995年01月01日00时00分-1999年12月31日23时59分出生的一代中国公民。相对80后和1990-1994年...
2023-02-17 -
正步入最佳观赏期 2023上海梅花节吸引了不少爱好者前来写生
2023第十届上海梅花节将于2月21日上海海湾国家森林开幕,本届梅花节将从2月21日持续至3月19日。2023年第...
2023-02-17 -
天天微资讯!A股房地产板块早盘普遍走高 我爱我家涨4%、世荣兆业涨超3%
观点网讯。2月17日,A股房地产板块早盘普遍走高。截至发稿,我爱我家涨4 08%,报3 32元,总市值78 20...
2023-02-17
阅读排行
资讯播报
- 世界微头条丨力高集团:干字为先...
- 环球看热讯:万达商管新增投资常...
- “23金茂01”利率确定为3.8% 拟...
- 首日突破1120万销售额,斯巴达战...
- 环球速讯:官方认定新疆男篮构成...
- 2023膜法世家4大创新举措打响线下战役
- 环球滚动:2022年度国内电子竞技...
- 动态焦点:沈亚卸任唯品会执行董...
- 当前动态:据报道苹果正在开发带...
- 坚守使命开启新篇章,富士智能完...
- 世界资讯:1月上市房企“火拼”...
- 2023河南普通话考试对测试站的考...
- 天天动态:遭遇三连败,大巴黎延...
- 青岛新房市场年后呈现稳步提升态势
- 环球速读:董希淼:建议部分存量...
- 【世界报资讯】香港向全球游客发...
- 复读生以社会考生的身份参与到中...
- 中国奥园:拟出售奥园健康29.9%...
- 2023河南中考采集步骤主要分为三...
- 拜登宣称不会为“击落气球而道歉...
- 嘉柏俪春季护肤小技巧,维稳肌肤...
- 科治好:高血压的十大误区,你踩...
- 传送频繁则会非常占用无线频宽资...
- 是外部应用程序与WEB服务器之间...
- 挂了airtag的设备会呼叫发出声音...
- 环球看点!WeWork2022年营收32.4...
- 最新消息:嘉必优:融资净偿还46...
- 天天快看点丨评选机制引发争议 ...
- 中南建设:中南城投质押股份被动...
- 微速讯:明清时期的全国漕运中枢...
- 全球观点:海印股份董事邵建明减...
- 【当前独家】等级头衔名字大全唯...
- 快讯:好家伙!“百岁贷”横空出...
- 曲德君辞任新城控股联席总裁 辞...
- 热议:日本经济产业省:多家大型...
- 每日速递:终于,银行和房地产也...
- 环球滚动:“第九届全国大众冰雪...
- 热门:中国体博会加大力度邀请大...
- 世界报道:奥园拟召开“19奥园02...
- 吉林冰球青少年连续三年“集结”...
- 世界热资讯!2022浙江横店马拉松...
- 全球热讯:香港2022年底人口约733...
- 天天最新:财面儿丨首开股份拟发...
- 张凌赫正式成为MLB潮流品牌大使...
- 新地NOVO LAND 2B期预期下周初...
- 世界新动态:银行板块跌0.28% ...
- 滨江集团10亿中票将于2月24日付...
- 世界今热点:埃塞俄比亚选手吉尔...
- 天天即时看!电动汽车驱动电机系...
- 快看:天津体育学院科研团队赴国...
- 环球热头条丨WCBA季后赛将于2月2...
- 当前最新:苏州工业园区一宅地出...
- 天天快报!汽车碰撞试验所需要的...
- 聚焦:电动汽车用驱动电机系统环...
- 万达商管60亿元公司债券已提交注册
- 最新:首开股份于北京成立置业公...
- 发言稿范文800字高中励志(汇总21篇)
- 热点!沪深两市成交额突破1万亿...
- 【世界速看料】消息称金地商置撤...
- 携手江南大学,膜法世家科研再进...
- 斯诺克威尔士公开赛:袁思俊、庞...
- 环球关注:微信拟推“门店快送”...
- 上海车展单日票需在所选日期当天...
- 环球资讯:国乒“直通德班”赛程...
- 今日聚焦!重磅!惠州商品房限售...
- G1503蕰川公路立交安亭方向匝道...
- 即时看!恒基地产大角咀项目利奥...
- 上海地铁12号线首末车时间表已公...
- 探索国际化办学之路:句容碧桂园...
- 全球快资讯丨沪指涨0.77%突破330...
- 环球今日报丨杭州联合银行重启上...
- 怎么有效的备考初级会计职称
- 西安人才公寓分为四个标准 A类...
- 只采取租赁的方式 入住西安公租...
- 西安公租房申请能够申请撤销 通...
- 嘉宝生活服务新增投资南昌物业公...
- 焦点日报:正式量产!戴世P-BOX...
- 当前快报:联合国世界车辆法规协...
- 光速中国押注行业革新者,戴世智能
- 全球滚动:多地房贷年龄期限上限...
- 讯息:1月一线城市新建商品住宅...
- 【天天新要闻】央行、银保监会:...
- 焦点要闻:丽水城建投资15亿公司...
- 碧桂园花3亿打造餐厅,满屋都是...
- “22苏科技城SCP003”将于2月28...
- 选对伊利金领冠奶粉,营养成分筑...
- 统计局:1月一线城市商品住宅销...
- 《美国往事》讲述的是什么?《美...
- 微资讯!纽约的唐人街你知道吗?...
- 逆来顺受的上班族叫什么?社畜详解
- 当前速讯:快手直播带货需要什么...
- 世界热消息:《传闻中的陈芊芊》...
- 《下一个天亮》的歌词是什么?《...
- 活结乐队的鼓手叫什么?活结乐队...
- 热讯:二套房是怎么定义的?银行...
- 环球观天下!QQ声音怎么开?打开...
- 【全球速看料】小俊介是什么品种...
- drkong是什么牌子的鞋?drkong品牌介绍
- 实时焦点:雷影vs佐助是第几集?...
- 澳门回归是几年几月几日?澳门回...