全球快看点丨自动驾驶下游任务的数据需求估计
arXiv论文“How Much More Data Do I Need? Estimating Requirements for Downstream Tasks“,上传于2022年7月4日,作者来自Nvidia,多伦多大学和Vector。
(相关资料图)
给定一个小训练数据集和学习算法,需要多少数据才能达到目标(target)验证或测试性能?这个问题在自动驾驶应用中至关重要,因为收集数据既昂贵又耗时。高估或低估数据需求会产生大量成本,本来在预算中是可以避免的。之前关于神经规模化定律(neural scaling laws)的工作表明,幂-定律(power-law)函数可以拟合验证性能曲线,并将其外推到更大的数据集。
不过,这并不能立即转化为在下游模块估计所需数据集大小以满足目标性能这一更困难的任务。这项工作考虑一大类计算机视觉任务,并系统地研究一系列泛化幂-定律函数的函数,为更好地估计数据需求。最后,结合调整的校正因子和多轮的数据收集,显著提高了数据估计器的性能。这样可以准确估计机器学习系统的数据需求,以节省开发时间和数据采集成本。
在部署深度学习模型之前,设计者可能会要求模型满足基线性能,例如像在延迟验证或测试集的指标。一个例子:在部署到安全-紧要应用之前,目标检测器可能需要最小的平均精度。达到目标(target)性能的最有效方法之一是为给定模型收集更多的训练数据。然而,到底还需要多少数据?
高估数据需求可能会因不必要的收集、清理和标注而产生成本。例如,标注分割数据集可能每个目标需要时间15到40秒,这意味着标注一个包含10万个图像的驾驶数据集,每个图像平均有10辆车,可能需要170到460天的时间。
另一方面,低估意味着必须在后期收集更多数据,从而导致未来成本和工作流延迟。例如,在自动驾驶汽车应用程序中,每个数据收集阶段都需要管理一组驾驶员来记录驾驶视频。因此,准确估计给定任务需要多少数据可以减少深度学习工作流中的成本和延迟。
关于估计机器学习模型的样本复杂度,最近提出的神经规模化定律表明,根据幂律泛化随数据集大小规模化。Rosenfield等人建议使用小数据集性能统计数据拟合幂律函数,推断大数据集的性能。然而,幂律函数不是唯一可能的选择。
如图用幂律函数估计ImageNet数据集以及几个有效的替代方案,说明了图像分类中的数据收集过程。
当使用小数据集进行外推时,拟合函数可能以不同方式偏离真值性能曲线。更重要的是,即使是外推精度的一个小错误也可能导致高估或低估数据需求上的大错误,带来巨大的运营成本。
如图所示是数据收集的流水线:
其主要基于以下经验观察事实:
【观察】:直观地说,随着收集更多数据,每个附加数据点的边际值应该降低。
用凹单调递增函数通过回归建立训练数据集大小的模型得分函数 v(n)。在数据收集循环中,首先用可用初始训练数据D0和当前训练数据(加附加数据)Dˆ估计附加数据nˆ,并通过拟合得分函数v(n)的回归模型vˆ(n;θ)来估计相应分数,其中θ是回归参数集。
在学习曲线文献中考虑满足观察(见下表)的四个回归函数。
虽然可以用更复杂的模型,但这些具有少量参数的简单结构化函数更容易适应较小的学习统计数据集。使用拟合回归函数,我们求解最小nˆ。如下算法1总结了主要步骤:重建回归数据,在循环中拟合参数,最后加点
现有文献表明,幂律可以使用数据集大小估计模型精度,但估计所需数据集大小以满足目标分数的实际应用面临三大挑战:
上面表中的所有函数都符合模型分数
。有了足够的数据,表中的所有回归函数都可以精确拟合v(n)。当|D0| = 600000 图像进行拟合时,每个连接函数(虚线)与真值精度的误差最大为6%。虽然幂律在理论上是有来源的,但在其他函数中使用是否有经验上的正当性?用小数据集外推精度是困难的
。在数据有限的情况下,所有回归函数都很差。当|D0| = 125000个图像进行拟合时,每条曲线(虚线)显著偏离真值(≈ 数据集的10%)。此外,一些曲线提供了比幂律更好的拟合。有论文提出数据集和模型大小的联合回归;虽然这提高了外推性能,但也需要通过采样子集和修改不同模型获得2倍多的数据-得分对集合R。这可能会增加计算成本和耗时;因此,重点关注用少量训练统计数据的简单估计器,即r≤ 10、精度误差小,数据误差大
。假如在ImageNet建立一个满足67%测试精度的模型,需要90万个数据点。即使60万张图像进行函数拟合,但误差仍达到1%到6%之间。错误估计12万到31万张图像之间的数据需求,收集的数据比实际需要少34%。由于外推误差的容忍度较低,必须确定估计数据需求的最佳做法。数据和方法
评估下表中总结的图像分类、目标检测和语义分割任务的数据收集问题。
分类中,在CIFAR10、CIFAR100和ImageNet数据集上训练ResNet,确定满足目标验证集精度所需的数据量。用Pascal VOC数据集训练
SSD
300进行2D目标检测,其中确定满足目标平均精度(AP)所需的数据量。对于3D目标检测,在nuScenes训练集的不同子集训练
FCOS3D
网络架构,遵循nuScenes 3D检测评估协议的平均精度(mAP)。样本是在不同场景中随机获得的。用BDD100K探索语义分割,作为一个大规模驱动数据集,收集了50K个驾驶数据,具有各种地理、环境和天气条件。对于多视图BEV分割,在nuScenes数据集上训练“Lift-Splat-Shot(LSS
)”架构。在这里,报告mIoU结果。对每个任务,确定模型的体系结构和学习算法,包括数据采样。对每个数据集和任务,有一个初始数据集D0(例如,n0=训练数据集的10%)。在分析中,根据D0 相对于完整训练数据集的相对大小报告n0。首先根据算法1构建大小呈线性增长的r 个子集创建回归数据集R∈ {0,…,r− 1})。为了确保这个回归过程不昂贵,用了一个小r ≤ 10。
然后,为评估外推性能和估计数据需求的回归函数,抽样较大的子集D1⊂D2⊂···,以此增大(例如,整个训练数据集的10%、20%、30%、…、100%)。对每个子集,训练模型并评估分数Vf(Di)。利用这些集合,构造分段线性得分函数v(n),并将其用作真值。
进行两种类型的实验。在第一个初步分析中,用R拟合每个回归函数,然后对所有| Di |>|D0 |评估相对预测Vf(Di)的误差。该分析揭示每个回归函数在更大数据集上推断模型分数的能力。第二个主要分析是模拟算法1中的数据收集问题,其中用n0=10%的完整训练数据集进行初始化(对于VOC,n0=20%),并估计需要多少数据才能获得不同的目标值。在这里,重复在算法1中数据收集阶段描述的相同步骤,除了一个不同之处。在模拟中,不是每一轮采样更多数据并评估Vf(D0 ∪ Dˆ),而是评估v(n0+nˆ)获得模型分数。该模拟近似于真实的数据收集问题,同时简化了实验,因为不必重复地重训练模型。
分析
下表总结了在外推较大数据集的分数时每个回归函数的均方根误差(RMSE)。
在每个数据集和任务中,用不同的随机种子做三次运行,展示了可以用小、中、大数据子集进行外推。
对考虑的每个任务,
验证前两个挑战
。给定足够数量的初始数据D0来拟合回归模型(即当n0等于完整数据集大小的50%时),每个链接函数都实现了较低的均方根误差(其范围为区间[0,100])。此外,始终存在至少一个回归函数,其均方根误差小于1。当n0等于完整数据集大小的10%时,大多数链接函数产生较高的均方根误差,这表明当拟合在小数据集上时,这些函数容易偏离真实v(n)。最后,对于大多数数据集,替代回归函数始终产生较低的均方根误差。特别是,Arctan函数对于所有分类数据集都是最好的,并且通常幂律均方根误差减半。这些结果表明,从小数据集外推模型性能是困难的,此外,其他回归函数代替幂律可以获得更准确的分数回归。
给定n0和T,通过扫描一系列目标来模拟每个不同回归函数的数据收集 。如图所示报告每个函数收集的最终数据与根据真值分数所需最小数据的比率,即(n0+nˆ)/(n0+n∗) ,其中n∗ 满足v(n0+n)= V
的最小值。n
的值很容易找到,因为v(n)是一个分段线性单调递增函数。在评估每个回归函数如何收集数据时,需要考虑两种情况。如果比率小于1,该函数被描述为分数的乐观预测因子,即低估数据的需要。比率小于1意味着,用该回归函数,在T轮内将无法收集足够的数据来满足V∗ ,因此无法解决问题。另一方面,如果比率大于1,则该函数是一个悲观预测因子,即高估数据的需要。理想的数据收集策略将实现大于1的最小比率。实验表明,通常情况下,Arctan函数是最悲观的,并且通常达到最大的比率。
验证第三个挑战
,指出低回归误差不一定转化为更好的数据收集。在CIFAR100、ImageNet和VOC上,使用Arctan可能会收集到比实际需要多5倍的数据;在nuScenes上进行BEV分割可能会导致10倍以上的结果。回想一下,在ImageNet上,需要大约90万张图像才能达到目标V∗ = 67%。以n0=10%的数据初始化时,Arctan将导致仅在第一轮中就收集约450万张图像,而所有其他回归函数的比率约等于1。虽然上表表明回归中Arctan实现了所有函数中最低的RMSE(3.19),但以此估计数据需求将导致不必要的昂贵数据收集。这表明,在确定良好的数据收集策略时,简单分析回归误差是不够的,需要模拟方法。
对于大多数回归函数,收集足够的数据需要多轮外推。当T=1时,幂律、对数和代数根函数低估了除VOC之外数据集和任务的数据需求。然而,当T=5时,对除CIFAR10之外的数据集,所有函数在整个V*范围内的比率都大于0.9。也就是说,始终可以使用任何回归函数获得至少90%的所需数据。
最终,即使T=5,当V∗ 较大(例如,在ImageNet上,当V* ≥ 62%时幂律、对数和代数根函数的比值小于1)。从操作角度来看,虽然这些方法不会造成巨大的成本,但也无法解决问题。
有助于达到目标的修正系数
从算法1中,在每一轮数据收集中,根据vˆ(n0+nˆ;θ)最小化 nˆ∗) ≥ V∗。理想情况下,希望最小化真实数据需求,即求解n∗ 满足v(n0+n)∗) = V∗。然而,模拟表明,大多数回归函数都是最优的,并且低估数据需要。
实际上,一种纠正少于满足V∗ 收集数据的简单方法,是施加校正因子τ≥ 0,估计满足“修正”更高目标V∗ + τ所需的数据。因此,固定一个常数τ并修改算法1,以便在每一轮满足vˆ(n0 +nˆ;θ∗)≥V∗ +τ的最小化nˆ。
为了确定该校正因子应该有多大,可视为一个超参进行拟合。例如,假设有完整的CIFAR10数据集,并且想要为未来的数据集构建一个T-轮收集策略。首先,用每个回归函数模拟τ=0的CIFAR10数据收集,获得如图所示的结果。
然后增加τ,直到该函数的整个比率曲线大于1。换句话说,求解最小τ,对于CIFAR10(对于给定的固定T和函数),这样数据收集策略将收集刚好足够的数据,满足所有目标值V∗ 。然后,用该拟合τ作为未来数据集的校正因子。
将校正因子与多轮数据收集相结合,可以持续收集略高于最低数据要求的数据。如表所示比较了对每个数据集在所有V∗ 取最小比率的每个回归函数采用τ的效果。用CIFAR10数据集对T和回归函数的每个设置拟合τ。
在不进行校正的情况下,幂律、对数和代数根函数对于除VOC之外的每个数据集都实现了小于1的比率。采用τ这些函数几乎总是能实现1到2之间的比率。此外,对于每个数据集,当T=5时,这3个回归函数达到各自的最低比率(高于1)。如图用τ在所有V*上对于T=5的每个数据集进一步给出模拟结果。
每个数据集的所有V*,幂律、对数和代数根函数的比率在1.03到2.5之间。此外,对于所有数据集,没有一致最佳的回归函数。例如,代数根函数在VOC中占主导地位,但当V∗ 很大幂律对 inuScenes BEV segmentation 特别有效。然而,回想一下,Arctan自然高估了数据需求,因此不会从校正中受益。
结论是,纠正三种乐观估计量(幂律、对数或代数根)中的任何一种,并五轮收集数据,就足以在满足预期目标的情况下近似地最小化收集总数据量。
数据要求的经验界
如果校正因子拟合不佳或收集轮数限制比较小,可能仍然会低估或高估数据要求。从上表中可以看出,在T=1的nuScenes分割中,不带τ的幂律可以估计出58%的所需数据,而使用τ可以估计出比所需数据多28倍的数据。
在某些应用程序中,建模可能还需要根据经验估计应该马上收集的数据量。现在考虑这样一个问题,n0个数据点还剩下T=1轮;在单轮或多轮的最后一轮中,我们必须达到数据收集目标。因此,试图获得关于需要多少数据的最坏和最佳情况估计(即上限和下限)。所有不同的回归函数都会产生一系列预测。然后,最大预测是最坏情况估计,最小预测是最佳情况估计。
对于每个数据集,设置T=1,并扫描n0和V∗,用8个回归函数估计数据需求。如图所示:顶行显示,对于每个n0和V*的实例频率,其中最乐观和最悲观的回归函数约束真实数据需求。底行进一步显示,这些上下限的均值。
对于图像分类,在80%以上时间估计器限制真实要求。这一趋势也适用于VOC,对于n0≥ 数据集的30%,在80%以上时间内限制需求。由于BDD100K和nuScenes BEV分割是更具挑战性的数据集,限制数据需求的概率有时会降低。
由于在nuScenes上训练3-D目标检测器比其他任务在计算上要昂贵得多,这里只报告n0=10%、20%、50%的值。在这里,估计器的范围用区间[0.56, 31.1]、[0.76, 40.8]、[0.56, 26.9]中的比率分别限制了88%、91%和83%的真实数据需求。
尽管如此,结果表明,如果给一个具有大型初始数据集的单轮,能够准确估计数据需求的上下限。此外,即使有多轮收集数据,在最后一轮中,应该能够获得需求的上下界限。在实际应用中,这些界限可以引导建模得到乐观或悲观的选择,例如,如果实际训练和部署模型的deadline很严格不能错过。
不同技术估计的数据,要么远远多于所需数据,要么远远少于所需数据。使用多轮数据收集和低估的技术可以收集高达90%的真实所需数据量。
通过之前任务的模拟,可以确定哪些方法低估数据要求,并学习修正系数来解决这一不足。使用校正因子并收集多达五轮数据,最多可以收集达到任何期望性能所需最小数据量的1-2倍。
只剩下一轮数据收集,可以用所有回归函数来获得通常真实数据需求的限制区间。这些界限可以指导建模根据实际需求或多或少地收集数据。
责任编辑:hnmd003
相关阅读
-
全球快看点丨自动驾驶下游任务的数据需求估计
arXiv论文“HowMuchMoreDataDoINeed?EstimatingRequirementsforDownstreamTasks“,上传于2022年7月4日...
2022-07-18 -
全球快看点丨自动驾驶下游任务的数据需求估计
arXiv论文“HowMuchMoreDataDoINeed?EstimatingRequirementsforDownstreamTasks“,上传于2022年7月4日...
2022-07-18 -
热资讯!上周楼市成交环比同比均下降,土地市场二线城市交易活跃
电脑端复制链接一键获取【中指报告】https: u fang com ytjgn6 上周楼市成交同环比齐降。分城市...
2022-07-18 -
【环球快播报】标价1.45亿,看房需验资5000万!顶级豪宅被出售,房东是中超球星?房产照片曝光
顶级豪宅的出售都会引发关注。据界面新闻报道,近日有市场消息称,曾在广州恒大足球队(现广州队)效力1...
2022-07-18 -
天天讯息:华南城拟出售第一亚太物业50%股权予特区建发集团 代价12.57亿元
7月18日早间,华南城控股有限公司发布公告称,于7月15日,第一亚太集团有限公司(卖方,华南城间接全资...
2022-07-18 -
世界动态:业绩快报 | 财信发展上半年净亏1.63亿 计提资产减值4.59亿
财信发展2022年上半年净亏1 63亿销售9 53亿元。报告期,该公司房地产全年新开工面积约48,262平方米,...
2022-07-18 -
天天信息:资本圈 | 宝龙完成交换要约并新发4.33亿美元票据 华发设21.56亿长租房类REITs
7月17日消息,华金-华发租赁住房二号第一期长租房类REITs成功设立。据了解,本次发行为“平安-漳龙供应...
2022-07-18 -
每日速看!“华金-华发租赁住房二号资产支持专项计划”首期设立 规模21.56亿
观点网讯。7月17日消息,华金-华发租赁住房二号第一期长租房类REITs成功设立。观点新媒体获悉,该产品发...
2022-07-17 -
【全球独家】龙泉股份拟转让淄博物业公司100%股权 挂牌价3.69亿元
观点网讯。7月16日,山东龙泉管道工程股份有限公司发布公告称,拟转让全资子公司淄博龙泉盛世物业有限公...
2022-07-17 -
天天热头条丨福建漳龙集团4.49亿供应链ABS成功发行 利率2.88%
观点网讯。近日,福建漳龙集团成功完成供应链资产证券化(ABS)第二期产品发行。观点新媒体获悉,本项目...
2022-07-17 -
【世界热闻】西部数据交易中心正式投用 力争10年后交易规模达1000亿元
观点网讯。7月15日,西部数据交易中心大厅投用仪式在重庆市江北区成功举办。观点新媒体了解到,西部数据...
2022-07-17 -
天天热头条丨佳兆业旗下航运健康持股派林生物由8.01%降至5%以下
观点网讯。7月15日,派斯双林生物制药股份有限公司发布公告称,2021年12月18日至2022年7月14日,航运健...
2022-07-17
阅读排行
资讯播报
- 今日快看!新华都制定年均35%以上...
- 当前消息!助企纾困 | 新疆克...
- 天天热讯:祖国内地天地广阔 香...
- 每日热议!海航投资延期至7月29日...
- 天天消息!财信发展聘任熊欢伟为...
- 全球资讯:海航投资股价异动 3...
- 环球快看:财信发展2022年上半年...
- 当前速看:财信发展上半年计提资...
- 全球观焦点:“体总杯”全国街头...
- 当前热门:WTT球星挑战赛:王楚...
- 即时看!走进县城看发展|贵州龙...
- 当前快报:云南出台措施支持高校...
- 全球热点评!高考花钱可录取?别...
- 天天观焦点:巩立姣收获个人第七...
- 天天观天下!数次梦见自己夺冠,...
- 环球视点!华侨城深圳湾新玺名苑...
- 环球热资讯!青海首家“青少年女...
- 焦点讯息:奋斗者正青春|扎根沙...
- 天天速看:用好区位优势 提升...
- 天天百事通!马勒动力总成开设新...
- 天津乾升冠成科技发展有限公司企...
- 当前要闻:全国碳市场启动一周年...
- 全球看热讯:看见博鳌丨开讲楼市...
- 天天实时:【在希望的田野上】重...
- 当前信息:中国男篮95:80战胜中...
- 快看点丨连扳三局!王楚钦王曼昱...
- 世界即时看!【在希望的田野上】...
- 环球快播:大山里的“陶艺村”:...
- 环球热消息:打出“组合拳” 天...
- 环球滚动:王艺迪4:1石川佳纯晋级...
- 每日看点!马龙王楚钦2:3赵大成...
- 天天速讯:什么样的爱情,才能长...
- 每日速看!直落三局!孙颖莎王曼...
- 环球新消息丨科技助力夏季田间管...
- 当前讯息:战高温 | 90后“女...
- 焦点简讯:中国经济半年报 | 上...
- 今日热门!高温下劳动者特写:为...
- 2022北京数字经济体验周下周启幕...
- 喜羊羊新片开播!羊村守护者高燃...
- 世界热文:中国恒大接获额外复牌...
- 世界热议:热问|避免入住“踩坑...
- 全球即时看!中国冰雪大篷车“开...
- 世界要闻:获两项吉尼斯世界纪录...
- 环球新动态:2022(第二届)京张...
- 最新消息:格斗时刻之列阵揭幕赛...
- 当前信息:海南:保障性租赁住房...
- 信息:晋级世锦赛百米半决赛!苏...
- 每日热闻!中国恒大接获复牌额外...
- 天天热门:武汉渡江节:92名“泳...
- 每日热闻!苏炳添:可能让大家失...
- 天天新动态:火了!积分摇号,成...
- 全球即时看!恒大接获复牌额外指...
- 动态焦点:一周公告合辑丨房企上...
- 世界看点:6月70城房价出炉:成...
- 世界头条:切阳什姐世锦赛20公里...
- 每日焦点!智惠支付运营方爱农驿...
- 世界速看:恒大: 清盘呈请已被...
- 环球微动态丨海南机场:目前持有...
- 新消息丨西门子工程咨询服务团队...
- 资讯推荐:中国恒大接获复牌指引...
- 世界新动态:2022京张体育文化旅...
- 环球热消息:海航基础:拟搭建大...
- 焦点简讯:快速完成声学校准-更高...
- 每日快看:海南机场:将寻求机会...
- 快看点丨仿真开发应用平台介绍--...
- 【天天聚看点】我国将新增100余...
- 头条焦点:朗诗地产上半年签约销...
- 世界微头条丨建发国际根据以股代...
- 【世界热闻】建业以股代息发行86...
- 全球速看:重庆启动优秀竞技后备...
- 世界即时看!南山控股与专业投资...
- 全球最新:50亿美元债全部成功展...
- 环球微速讯:资源控股:前附属公...
- 每日报道:朗诗绿色地产上半年签...
- 【天天聚看点】上半年全国房地产...
- 世界视讯!金世旗控股近期累计减...
- 焦点速读:“玛丽莱杯”青少年足...
- 全球快看:旭辉控股董事张永岳增...
- 天天即时:中南建设为滨海中南提...
- 焦点简讯:房贷风波,对地产行业...
- 世界速讯:泰达股份中标贵州省思...
- 天天日报丨中国建筑上半年地产业...
- 天天看热讯:广东第十六届运动会...
- 每日速讯:58安居客房产研究院分...
- 要闻:龙光集团发布声明:前海天...
- 天天微资讯!万科、保利、龙湖等...
- 当前快讯:报告:建筑业产业集中...
- 全球快消息!2022年《财富》中国...
- 世界快资讯:恒大地产:珠三角59...
- 焦点热门:滨江集团:今年主要计...
- 环球滚动:南宁西乡塘预出让一宗7...
- 【天天聚看点】龙光发布声明:前...
- 全球要闻:许小乐:6月70大中城...
- 天天微速讯:深交所发布保障性租...
- 全球时讯:中国小篮球联赛激战天...
- 环球热点评!港府再度委任林振宇...
- 时讯:西安13条措施防范商品房延...
- 快报:上交所出台保障租赁房基础...
- 行业首次!时尚泳装品牌BE范德安...
- 吉克隽逸、王心凌同登《浪姐3》...