|
三维视觉 5篇
* Detection and Mapping of Specular Surfaces Using Multibounce Lidar Returns
* 链接: https://arxiv.org/abs/2209.03336
* 作者: Connor Henley,Siddharth Somasundaram,Joseph Hollmann,Ramesh Raskar
* 摘要: 我们提出了使用镜面多声激光雷达返回的方法来检测和映射镜面表面,这些表面可能是依赖直接单刻钟返回的常规LIDAR系统看不见的。我们得出将这些多声音返回的时间和到达的表达式与镜面表面上的散射点相关联,然后使用这些表达式来制定技术以检索镜面几何时,当场景被单光束扫描或照亮时带有多光束闪光灯。我们还考虑了透明的镜面表面的特殊情况,可以将表面反射与散布在表面后面的物体上的光混合在一起。
* 3D Textured Shape Recovery with Learned Geometric Priors
* 链接: https://arxiv.org/abs/2209.03254
* 作者: Lei Li,Zhizheng Liu,Weining Ren,Liudi Yang,Fangjinhua Wang,Marc Pollefeys,Songyou Peng
* 其他: 5 pages, 3 figures, 2 tables
* 摘要: 从部分扫描中进行的3D纹理形状恢复对于许多现实世界应用至关重要。现有的方法证明了隐性功能表示的功效,但它们患有严重阻塞和不同物体类型的部分输入,这极大地阻碍了其在现实世界中的应用价值。该技术报告介绍了我们通过合并学习的几何先验来解决这些局限性的方法。为此,我们从学习的姿势预测中生成一个SMPL模型,并将其融合到部分输入中,以增加对人体的先验知识。我们还提出了一种新颖的完整性界限框适应,以处理不同级别的尺度和部分扫描的部分性。
* MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection
* 链接: https://arxiv.org/abs/2209.03102
* 作者: Yang Jiao,Zequn Jie,Shaoxiang Chen,Jingjing Chen,Xiaolin Wei,Lin Ma,Yu-Gang Jiang
* 摘要: 融合激光雷达和相机信息对于在自动驾驶系统中实现准确可靠的3D对象检测至关重要。但是,由于难以结合两个截然不同的方式的多晶格几何和语义特征,因此这是具有挑战性的。最近的方法旨在通过2D摄像机图像中的提升点(称为种子)中的3D空间来探索相机功能的语义密度,并且可以将它们大致分为1)1)原始点的早期融合,旨在增强3D在早期输入阶段的点云,以及2)Bev(鸟眼视图)的后期融合,在检测头之前合并了LiDar和Camera BEV功能。尽管两者在增强联合特征的表示能力方面都具有优点,但这种单级融合策略是对上述挑战的次优点。他们的主要缺点是无法充分从两种不同的方式中相互作用的多晶格语义特征。为此,我们提出了一个新颖的框架,该框架着重于多粒性激光雷达和相机功能的多尺度渐进互动。我们提出的方法缩写为MDMSFusion,实现最先进的方法可导致3D对象检测,在Nuscenes验证集上具有69.1 MAP和71.8 NDS,在NUSCENES测试集上进行了70.8 MAP和73.2 nds,该级别的第一和第二级和第二个NDS。在提交时,在单模型的非集结方法中。
[推荐] * BiFuse++: Self-supervised and Efficient Bi-projection Fusion for 360 Depth Estimation
* 链接: https://arxiv.org/abs/2209.02952
* 作者: Fu-En Wang,Yu-Hsuan Yeh,Yi-Hsuan Tsai,Wei-Chen Chiu,Min Sun
* 其他: Accepted in TPAMI 2022; Code: this https URL
* 摘要: 由于球形摄像机的兴起,单眼360深度估计成为许多应用(例如自主系统)的重要技术。因此,提出了针对单眼360深度估计的最新框架,例如Bifuse中的双预测融合。为了训练这样的框架,需要大量全景以及激光传感器捕获的相应深度地面真相,这极大地增加了数据收集成本。此外,由于这样的数据收集过程是耗时的,因此将这些方法扩展到不同场景的可扩展性成为一个挑战。为此,从360个视频中进行单眼深度估计网络的自我培训是减轻此问题的一种方法。但是,没有现有的框架将双投射融合融合到自我训练方案中,这极大地限制了自我监督的性能,因为Bi-Prodoction Fusion可以利用来自不同投影类型的信息。在本文中,我们建议Bifuse ++探索双投影融合和自我训练场景的组合。具体来说,我们提出了一个新的融合模块和对比度感知的光度损失,以提高Bifuse的性能并提高对现实世界视频的自我训练的稳定性。我们在基准数据集上进行了监督和自我监督的实验,并实现最先进的性能。
* Morphology-preserving Autoregressive 3D Generative Modelling of the Brain
* 链接: https://arxiv.org/abs/2209.03177
* 作者: Petru-Daniel Tudosiu,Walter Hugo Lopez Pinaya,Mark S. Graham,Pedro Borges,Virginia Fernandez,Dai Yang,Jeremy Appleyard,Guido Novati,Disha Mehra,Mike Vella,Parashkev Nachev,Sebastien Ourselin,Jorge Cardoso
* 其他: 13 pages, 3 figures, 2 tables, accepted at SASHIMI MICCAI 2022
* 摘要: 可以使用医学成像数据研究人类解剖学,形态和相关疾病。但是,访问医学成像数据受到治理和隐私问题,数据所有权和获取成本的限制,从而限制了我们理解人体的能力。解决此问题的一个可能解决方案是创建能够学习的模型,然后生成以相关性的特定特征(例如,年龄,性别和疾病状态)来生成人体的合成图像。最近,以神经网络形式的深层生成模型已被用于创建自然场景的合成2D图像。尽管如此,数据稀缺性,算法和计算局限性仍阻碍了具有正确解剖形态的高分辨率3D体积成像数据的能力。这项工作提出了一个生成模型,可以缩放以产生人类大脑的解剖学正确,高分辨率和现实的图像,并具有必要的质量,以允许进一步的下游分析。产生潜在无限数据的能力不仅能够对人体解剖学和病理学进行大规模研究,而不会危及患者的隐私,而且还可以在异常检测,模态综合,有限的数据和公平和公平和公平和公平和公平和公平和公平和公平和公平和公平和公平和公平和公平的学习领域进行显着提高。道德AI。代码和训练有素的模型可在以下网址提供:此HTTPS URL。
视频处理 4篇
* Pixel-Level Equalized Matching for Video Object Segmentation
* 链接: https://arxiv.org/abs/2209.03139
* 作者: Suhwan Cho,Woo Jin Kim,MyeongAh Cho,Seunghoon Lee,Minhyeok Lee,Chaewon Park,Sangyoun Lee
* 摘要: 特征相似性匹配将参考框架的信息传输到查询框架,是半监视视频对象分割中的关键组件。如果采用了汇总匹配,则背景干扰器很容易出现并降低性能。徒匹配机制试图通过限制要传输到查询框架的信息的量来防止这种情况,但是有两个局限性:1)由于在测试时转换为两种匹配,因此无法完全利用过滤匹配的匹配; 2)搜索最佳超参数需要测试时间手动调整。为了在确保可靠的信息传输的同时克服这些局限性,我们引入了均衡的匹配机制。为了防止参考框架信息过于引用,通过简单地将SoftMax操作与查询一起应用SoftMax操作,对查询框架的潜在贡献得到了均等。在公共基准数据集上,我们提出的方法与最先进的方法达到了可比的性能。
* Treating Motion as Option to Reduce Motion Dependency in Unsupervised Video Object Segmentation
* 链接: https://arxiv.org/abs/2209.03138
* 作者: Suhwan Cho,Minhyeok Lee,Seunghoon Lee,Chaewon Park,Donghyeong Kim,Sangyoun Lee
* 摘要: 无监督的视频对象分割(VOS)旨在在像素级别的视频序列中检测最显着的对象。在无监督的VO中,大多数最先进的方法除了外观提示外,还利用从光流图获得的运动提示来利用与背景相比,显着物体通常具有独特运动的属性。但是,由于它们过于依赖运动提示,在某些情况下可能是不可靠的,因此它们无法实现稳定的预测。为了减少现有两流VOS方法的这种运动依赖性,我们提出了一个新型的运动 - 选项网络,该网络可选地利用运动提示。此外,为了充分利用并非总是需要运动网络的属性,我们引入了协作网络学习策略。在所有公共基准数据集中,我们提出的网络以实时推理速度提供最先进的性能。
* Context Recovery and Knowledge Retrieval: A Novel Two-Stream Framework for Video Anomaly Detection
* 链接: https://arxiv.org/abs/2209.02899
* 作者: Congqi Cao,Yue Lu,Yanning Zhang
* 其他: 13 pages, 10 figures
* 摘要: 视频异常检测旨在在视频中找到不符合预期行为的事件。普遍的方法主要通过摘要重建或将来的框架预测误差来检测异常。但是,错误高度依赖于当前摘要的局部环境,并且缺乏对正态性的理解。为了解决这个问题,我们建议不仅通过本地环境来检测异常事件,而且还根据测试事件与培训数据正常的知识之间的一致性。具体而言,我们提出了一个基于上下文恢复和知识检索的新颖的两流框架,这两个流可以相互补充。对于上下文恢复流,我们提出了一个时空的U-NET,可以完全利用运动信息来预测未来的框架。此外,我们提出了一种最大的局部误差机制,以减轻复杂前景对象引起的大恢复错误的问题。对于知识检索流,我们提出了一种改进的可学习区域敏感性散列的散列,该哈希通过暹罗网络和相互差异损失来优化哈希功能。关于正态性的知识是编码和存储在哈希表中的,测试事件与知识表示之间的距离用于揭示异常的概率。最后,我们融合了从两个流的异常得分以检测异常。广泛的实验证明了这两个流的有效性和互补性,因此提出的两流框架在四个数据集上实现了最新的性能。
* Video Restoration with a Deep Plug-and-Play Prior
* 链接: https://arxiv.org/abs/2209.02854
* 作者: Antoine Monod,Julie Delon,Matias Tassano,Andrés Almansa
* 其他: 10 pages + 4 pages supplementary; code at this http URL
* 摘要: 本文提出了一种通过深层插件(PNP)方法恢复数字视频的新方法。在贝叶斯形式主义下,该方法包括在交替的优化方案中使用深度卷积的降级网络代替先前的近端操作员。我们通过直接应用该方法来恢复降级视频观察结果的数字视频,从而将自己与先前的PNP工作区分开来。这样,可以将经过验证训练的网络重新用于其他视频修复任务。我们在视频脱张,超分辨率和随机缺失像素的插值方面的实验都显示出明显的好处,因为它使用专门为视频denoising设计的网络,因为它可以产生更好的恢复性能和更好的时间稳定性。使用相同的PNP公式。此外,我们的方法比较比较在序列的每个帧上分别应用不同的最新PNP方案。这在视频修复领域打开了新的观点。
医学图像分析 6篇
* Explainable Artificial Intelligence to Detect Image Spam Using Convolutional Neural Network
* 链接: https://arxiv.org/abs/2209.03166
* 作者: Zhibo Zhang,Ernesto Damiani,Hussam Al Hamadi,Chan Yeob Yeun,Fatma Taher
* 其他: Under review by International Conference on Cyber Resilience (ICCR), Dubai 2022
* 摘要: 图像垃圾邮件威胁检测一直是互联网惊人扩展的流行研究领域。这项研究提出了一个可解释的框架,用于使用卷积神经网络(CNN)算法和可解释的人工智能(XAI)算法检测垃圾邮件图像。在这项工作中,我们使用CNN模型分别对图像垃圾邮件进行了分类,而hoc XAI方法包括局部可解释的模型不可思议的解释(Lime)和Shapley添加说明(SHAP),以提供有关黑手盒CNN的决定的解释关于垃圾邮件图像检测的模型。我们在6636图像数据集上训练,然后评估拟议方法的性能,包括垃圾邮件图像和从三个不同的公开电子邮件Corpora收集的垃圾邮件图像和正常图像。实验结果表明,根据不同的性能指标,提出的框架实现了令人满意的检测结果,而独立模型的XAI算法可以为不同模型的决策提供解释,以比较未来的研究。
* A New Method for the High-Precision Assessment of Tumor Changes in Response to Treatment
* 链接: https://arxiv.org/abs/2209.03116
* 作者: P. D. Tar,N. A. Thacker,J.P.B. O'Connor
* 摘要: 成像表明临床前和人类肿瘤是异质性的,即单个肿瘤可以表现出多个区域,在正常发育过程中均表现出不同的行为,也可以反应治疗。在对照组肿瘤中观察到的大变化可能会掩盖由于归因于变化原因的歧义而导致的显着治疗作用的检测。由于实验设计的局限性,而不是由于治疗衰竭,这可能会阻碍有效疗法的发展。描述了对成像信号中生物变异和异质性进行建模的改进方法。具体而言,线性泊松建模(LPM)在放疗前和72小时之前评估了两种结直肠癌的异种移植模型,在放疗前和72小时后评估了明显的扩散效率(ADC)的变化。使用基本ADC分布参数的常规t检验分析将测量变化的统计显着性与可实现的变化的统计显着性进行了比较。当LPM应用于治疗的肿瘤时,LPM检测到了高度显着的变化。与常规方法相比,所有肿瘤的分析对于所有肿瘤都很重要,相当于4倍的增益(即等同于样本量大16倍)。相比之下,只有使用t检验在队列水平上检测到极大的变化,从而限制了其在个性化医学中的潜在用途,并增加了测试过程中所需的动物数量。此外,LPM使每个异种移植模型估计响应和非反应组织的相对体积。对处理过的异种移植物的剩余分析提供了质量控制并确定了潜在的异常值,从而提高了对临床相关样本量的LPM数据的信心。
* Risk of Bias in Chest X-ray Foundation Models
* 链接: https://arxiv.org/abs/2209.02965
* 作者: Ben Glocker,Charles Jones,Melanie Bernhardt,Stefan Winzeck
* 其他: Code available under this https URL
* 摘要: 基础模型在AI的所有应用中都被认为是一个突破性的突破性,有望进行功能提取的可重复使用的机制,从而减轻了对特定于任务的预测模型的大量高质量培训数据的需求。但是,基础模型可能可能编码甚至加强历史数据集中存在的现有偏见。鉴于仔细检查基础模型的能力有限,尚不清楚机会是否超过了临床决策等安全关键应用中的风险。在我们对最近发布且可公开可用的胸部X射线基础模型的统计偏差分析中,我们发现了关注的原因,因为该模型似乎编码了受保护特征,包括生物学性别和种族认同,这可能会导致下游亚组的各个子群体不同申请。尽管针对医疗保健应用的基础模型的研究处于早期阶段,但我们认为,让社区意识到这些风险以避免伤害很重要。
* Boundary Guided Semantic Learning for Real-time COVID-19 Lung Infection Segmentation System
* 链接: https://arxiv.org/abs/2209.02934
* 作者: Runmin Cong,Yumo Zhang,Ning Yang,Haisheng Li,Xueqi Zhang,Ruochen Li,Zewen Chen,Yao Zhao,Sam Kwong
* 其他: Accepted by IEEE Transactions on Consumer Electronics 2022
* 摘要: 尽管已经开发了疫苗,并且国家疫苗接种率正在稳步提高,但2019年冠状病毒病(COVID-19)仍对世界各地的医疗保健系统产生负面影响。在当前阶段,从CT图像中自动分割肺部感染区域对于诊断和治疗COVID-19至关重要。得益于深度学习技术的发展,已经提出了一些针对肺部感染细分的深度学习解决方案。但是,由于分布分布,复杂的背景干扰和界限模糊,现有模型的准确性和完整性仍然不令人满意。为此,我们在本文中提出了一个边界引导的语义学习网络(BSNET)。一方面,结合顶级语义保存和渐进式语义集成的双分支语义增强模块旨在建模不同的高级特征之间的互补关系,从而促进产生更完整的分割结果。另一方面,提出了镜像对称边界引导模块,以以镜像对称方式准确检测病变区域的边界。公开可用数据集的实验表明,我们的BSNET优于现有的最新竞争对手,并实现了44 fps的实时推理速度。
* Deep Learning for Medical Imaging From Diagnosis Prediction to its Counterfactual Explanation
* 链接: https://arxiv.org/abs/2209.02929
* 作者: Sumedha Singla
* 其他: PhD thesis
* 摘要: 深度神经网络(DNN)几乎在商业,技术和科学上几乎普遍存在计算机视觉任务中实现了前所未有的表现。尽管为高度准确的体系结构而做出了大量的努力并提供了可用的模型解释,但大多数最先进的方法首先是为自然视觉设计的,然后转换为医疗领域。本论文旨在通过提出新的体系结构来解决这一差距,这些新型体系结构将医学成像的特定域约束纳入DNN模型和解释设计。
* Magnitude-image based data-consistent deep learning method for MRI super resolution
* 链接: https://arxiv.org/abs/2209.02901
* 作者: Ziyan Lin,Zihao Chen
* 其他: Accepted by IEEE CBMS 2022
* 摘要: 磁共振成像(MRI)在临床中很重要,可以产生高分辨率图像进行诊断,但其获取时间很长,对于高分辨率图像。基于深度学习的MRI超级分辨率方法可以减少扫描时间而无需复杂的序列编程,但由于训练数据和测试数据之间的差异,可能会产生其他伪像。数据一致性层可以改善深度学习结果,但需要原始的K空间数据。在这项工作中,我们提出了基于幅度图像的数据一致性深度学习MRI超级分辨率方法,以提高超级分辨率图像的质量,而无需原始K空间数据。我们的实验表明,与没有数据一致性模块的同一卷积神经网络(CNN)块相比,提出的方法可以改善超级分辨率图像的NRMSE和SSIM。
Transformer 3篇
* Visual Transformer for Soil Classification
* 链接: https://arxiv.org/abs/2209.02950
* 作者: Aaryan Jagetia,Umang Goenka,Priyadarshini Kumari,Mary Samuel
* 其他: Presented in 2022 IEEE Students Conference on Engineering and Systems (SCES), July 01-03, 2022, Prayagraj, India
* 摘要: 我们的粮食安全建立在土壤的基础上。如果土壤不健康,农民将无法用纤维,食物和燃料喂养我们。准确预测土壤的类型有助于规划土壤的使用,从而提高生产率。这项研究采用了最先进的视觉变压器,并与SVM,Alexnet,Resnet和CNN等不同模型进行了比较。此外,这项研究还着重于区分不同的视觉变压器体系结构。对于土壤类型的分类,数据集由4种不同类型的土壤样品组成,例如冲积,红色,黑色和粘土。 Visual Transformer模型在测试和测试时达到98.13%的训练和93.62%的范围,在测试和训练精度方面都优于其他模型。视觉变压器的性能超过了其他模型的性能至少2%。因此,新颖的视觉变压器可用于计算机视觉任务,包括土壤分类。
* Fusion of Satellite Images and Weather Data with Transformer Networks for Downy Mildew Disease Detection
* 链接: https://arxiv.org/abs/2209.02797
* 作者: William Maillet,Maryam Ouhami,Adel Hafiane
* 摘要: 作物疾病显着影响农业生产的数量和质量。在精确农业的目标是最大程度地减少甚至避免使用农药的目的,具有深度学习的天气和遥感数据可以在检测作物疾病中发挥关键作用,从而允许对农作物的局部治疗。但是,将天气和图像等异质数据结合在一起仍然是一个热门话题和具有挑战性的任务。变压器体系结构的最新发展显示了从不同领域(例如文本图像)融合数据的可能性。当前的趋势是仅定制一个变压器来创建多模式融合模型。相反,我们提出了一种使用三个变压器实现数据融合的新方法。在本文中,我们首先通过使用ConvlstM模型来插值来解决缺失的卫星图像问题。然后,提出了一种多模式融合体系结构,该体系结构共同学习处理视觉和天气信息。该体系结构是由三个主要组件,一个视觉变压器和两个变压器编码器构建的,可以融合图像和天气方式。所提出的方法的结果有望达到97 \%的总体准确性。
* Spach Transformer: Spatial and Channel-wise Transformer Based on Local and Global Self-attentions for PET Image Denoising
* 链接: https://arxiv.org/abs/2209.03300
* 作者: Se-In Jang,Tinsu Pan,Ye Li,Pedram Heidari,Junyu Chen,Quanzheng Li,Kuang Gong
* 其他: 10 pages
* 摘要: 由于其定量优点和高灵敏度,位置排放断层扫描(PET)被广泛用于诊所和研究中,但遭受了低信噪比(SNR)的侵害。最近,卷积神经网络(CNN)已被广泛用于提高宠物图像质量。尽管在局部特征提取方面取得了成功和有效的效率,但由于其接受场有限,CNN无法很好地捕获远距离依赖性。全球多头自我注意力(MSA)是捕获远程信息的流行方法。但是,3D图像的全局MSA计算具有较高的计算成本。在这项工作中,我们提出了一个有效的空间和渠道编码器变压器Spach Transformer,可以基于本地和全局MSA来利用空间和渠道信息。基于不同宠物示踪剂数据集的实验,即$^{18} $ f-fdg,$^{18} $ f-acbc,$^{18} $ f-dcfpyl,$ f-dcfpyl和$^{68} $ ga--进行了Dotatate,以评估提出的框架。定量结果表明,所提出的SPACH变压器可以比其他参考方法获得更好的性能。
注意力机制 3篇
* Multi-Scale Attention-based Multiple Instance Learning for Classification of Multi-Gigapixel Histology Images
* 链接: https://arxiv.org/abs/2209.03041
* 作者: Made Satria Wibawa,Kwok-Wai Lo,Lawrence Young,Nasir Rajpoot
* 摘要: 具有多吉吉像素的组织学图像产生了丰富的信息,以用于癌症诊断和预后。在大多数情况下,只能使用幻灯片级标签,因为像素的注释是劳动密集型任务。在本文中,我们提出了一条深度学习管道,以进行组织学图像中的分类。使用多个实例学习,我们试图预测基于降血石蛋白和曙红蛋白(H&E)组织学图像的鼻咽癌(NPC)的潜在膜蛋白1(LMP1)状态。我们利用了与聚合层保持剩余连接的注意机制。在我们的3倍交叉验证实验中,我们分别达到了平均准确性,AUC和F1得分为0.936、0.995和0.862。这种方法还使我们能够通过可视化注意力评分来检查模型的可解释性。据我们所知,这是使用深度学习预测NPC上LMP1状态的首次尝试。
* CP-AGCN: Pytorch-based Attention Informed Graph Convolutional Network for Identifying Infants at Risk of Cerebral Palsy
* 链接: https://arxiv.org/abs/2209.02824
* 作者: Haozheng Zhang,Edmond S. L. Ho,Hubert P. H. Shum
* 摘要: 早期预测在临床上被认为是脑瘫(CP)治疗的重要部分之一。我们建议实施一个基于一般运动评估(GMA)的CP预测的低成本和可解释的分类系统。我们设计了一个基于Pytorch的注意力图形卷积网络,以识别从RGB视频中提取的骨骼数据中有CP风险的早期婴儿。我们还设计了一个频率模块,用于在过滤噪声时学习频域中的CP运动。我们的系统仅需要消费级RGB视频进行培训,以通过提供可解释的CP分类结果来支持交互式时间CP预测。
* DM$^2$S$^2$: Deep Multi-Modal Sequence Sets with Hierarchical Modality Attention
* 链接: https://arxiv.org/abs/2209.03126
* 作者: Shunsuke Kitada,Yuki Iwazaki,Riku Togashi,Hitoshi Iyatomi
* 摘要: 在各种Web应用程序(例如数字广告和电子商务)中使用多模式数据的兴趣越来越大。从多模式数据中提取重要信息的典型方法取决于结合了来自多个编码器的特征表示的中型架构。但是,随着模态数量的增加,中融合模型结构的几个潜在问题会出现,例如串联多模式特征和缺失模态的维度增加。为了解决这些问题,我们提出了一个新概念,该概念将多模式输入视为一组序列,即深度多模式序列集(DM $^2 $ S $^2 $)。我们的设置感知概念由三个组成部分组成,这些组件捕获了多种模式之间的关系:(a)基于BERT的编码器来处理序列中元素间和内级内和内级的编码器,(b)模式内的残留物(Intramra)(Intramra) )捕获元素在模态中的重要性,以及(c)模式间残留的关注(Intermra),以进一步增强具有模态水平粒度的元素的重要性。我们的概念表现出与以前的设置感知模型相当或更好的性能。此外,我们证明了学识渊博的Intermra和Intramra权重的可视化可以提供对预测结果的解释。
对抗生成学习 5篇
* On the Transferability of Adversarial Examples between Encrypted Models
* 链接: https://arxiv.org/abs/2209.02997
* 作者: Miki Tanaka,Isao Echizen,Hitoshi Kiya
* 其他: to be appear in ISPACS 2022
* 摘要: 深度神经网络(DNN)众所周知,很容易受到对抗例子的影响(AES)。此外,AE具有对抗性转移性,即为源模型傻瓜(目标)模型生成的AE。在本文中,我们首次研究了为对抗性强大防御的模型的可传递性。为了客观地验证可转让性的属性,使用称为AutoAttack的基准攻击方法评估模型的鲁棒性。在图像分类实验中,使用加密模型的使用不仅是对AE的鲁棒性,而且还可以减少AES在模型的可传递性方面的影响。
* Can GAN-induced Attribute Manipulations Impact Face Recognition?
* 链接: https://arxiv.org/abs/2209.02941
* 作者: Sudipta Banerjee,Aditi Aggarwal,Arun Ross
* 摘要: 由于人口统计因素(例如年龄,性别,种族等)的影响,已经在自动化的面部识别系统中进行了广泛的研究。但是,\ textIt {数字修改}的人口统计学和面部属性对面部识别的影响相对较小。在这项工作中,我们研究了通过生成对抗网络(GAN)引起的属性操作的影响对面部识别性能。我们通过使用Attgan和Stgan有意修改13个属性,并评估它们对两种基于深度学习的面部验证方法,Arcface和VGGFACE的影响,在Celeba数据集上进行实验。我们的发现表明,涉及眼镜和性线索的数字变化的一些属性操纵可能会大大损害面部识别多达73%,需要进一步分析。
* DC-Art-GAN: Stable Procedural Content Generation using DC-GANs for Digital Art
* 链接: https://arxiv.org/abs/2209.02847
* 作者: Rohit Gandikota,Nik Bear Brown
* 摘要: 艺术是一种使用数字技术作为生成或创造过程的一部分的艺术方法。随着数字货币和NFT(不可杀死的代币)的出现,对数字艺术的需求正在积极增长。在本手稿中,我们主张将深层生成网络和对抗性训练进行稳定和变体的艺术生成的概念。这项工作主要集中于使用深卷积生成对抗网络(DC-GAN),并探讨了解决GAN训练中常见陷阱的技术。我们比较DC-GAN的各种架构和设计,以为稳定而逼真的一代提供推荐的设计选择。这项工作的主要重点是生成现实中不存在但由提议的模型从随机噪声中合成的逼真图像。我们提供了生成的动物面部图像(一些显示物种混合物的证据)的视觉结果以及训练,建筑和设计选择的建议。我们还展示了训练图像预处理如何在GAN培训中起着重要作用。
[推荐] * Studying Bias in GANs through the Lens of Race
* 链接: https://arxiv.org/abs/2209.02836
* 作者: Vongani H. Maluleke,Neerja Thakkar,Tim Brooks,Ethan Weber,Trevor Darrell,Alexei A. Efros,Angjoo Kanazawa,Devin Guillory
* 其他: ECCV22 Submission
* 摘要: 在这项工作中,我们研究了生成图像模型的性能和评估如何受到其培训数据集的种族组成的影响。通过检查和控制各种培训数据集中的种族分布,我们能够观察不同培训分布对生成的图像质量和生成图像的种族分布的影响。我们的结果表明,生成的图像的种族组成成功地保留了培训数据。但是,我们观察到截断是一种用于在推断过程中生成更高质量图像的技术,加剧了数据中的种族失衡。最后,在检查图像质量与种族之间的关系时,我们发现给定种族的最高可感知的视觉质量图像来自该种族代表性很好的分布,并且注释者始终偏爱白人的生成图像,而不是黑人。
* Inference and Learning for Generative Capsule Models
* 链接: https://arxiv.org/abs/2209.03115
* 作者: Alfredo Nazabal,Nikolaos Tsagkas,Christopher K. I. Williams
* 其他: 24 pages, 6 figures. This paper extends our previous work (arXiv:2103.06676) by covering the learning of the models as well as inference
* 摘要: 胶囊网络(参见例如Hinton等,2018)旨在编码有关对象及其部分之间关系的知识和理由。在本文中,我们为此类数据指定了一个生成模型,并得出了一种用于推断场景中每个模型对象转换的变异算法以及观察到的部分对对象的分配。我们基于变异期望最大化来得出对象模型的学习算法(Jordan等,1999)。我们还根据Fischler和Bolles(1981)的RANSAC方法研究了一种替代推理算法。我们将这些推理方法应用于(i)从正方形和三角形(“星座”)等多个几何对象生成的数据,以及(ii)基于零件的面部模型的数据。 Kosiorek等人的最新工作。 (2019年)通过堆叠的胶囊自动编码器(SCAE)使用摊销推理来解决此问题 - 我们的结果表明,我们在可以进行比较的地方(在星座数据上)大大优于它们。
非强监督学习 4篇
[推荐] * Measuring the Interpretability of Unsupervised Representations via Quantized Reverse Probing
* 链接: https://arxiv.org/abs/2209.03268
* 作者: Iro Laina,Yuki M. Asano,Andrea Vedaldi
* 其他: Published at ICLR 2022. Appendix included, 26 pages
* 摘要: 自我监督的视觉表示学习最近引起了重大的研究兴趣。虽然一种评估自我监督表示的常见方法是通过转移到各种下游任务,但我们研究了衡量其可解释性的问题,即了解原始表示中编码的语义。我们将后者提出为估计表示和手动标记概念空间之间的相互信息。为了量化这一点,我们介绍了一个解码瓶颈:必须通过简单的预测变量捕获信息,将概念映射到表示空间中的簇。我们称之为反向线性探测的方法为表示表示的语义敏感。该措施还能够检测出表示何时包含概念的组合(例如“红色苹果”),而不仅仅是单个属性(独立的“红色”和“苹果”)。最后,我们建议使用监督分类器自动标记大型数据集,以丰富用于探测的概念的空间。我们使用我们的方法来评估大量的自我监督表示形式,通过解释性对它们进行排名,并通过线性探针与标准评估相比出现的差异,并讨论了一些定性的见解。代码为:{\ scriptsize {\ url {this https url}}}}。
* A Weakly Supervised Learning Framework for Salient Object Detection via Hybrid Labels
* 链接: https://arxiv.org/abs/2209.02957
* 作者: Runmin Cong,Qi Qin,Chen Zhang,Qiuping Jiang,Shiqi Wang,Yao Zhao,Sam Kwong
* 其他: Accepted by IEEE Transactions on Circuits and Systems for Video Technology 2022
* 摘要: 完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
[推荐] * Semi-supervised Crowd Counting via Density Agency
* 链接: https://arxiv.org/abs/2209.02955
* 作者: Hui Lin,Zhiheng Ma,Xiaopeng Hong,Yaowei Wang,Zhou Su
* 其他: This is the accepted version of the Paper & Supp to appear in ACM MM 2022. Please cite the final published version. Code is available at this https URL
* 摘要: 在本文中,我们提出了一种新的机构指导的半监督计数方法。首先,我们建立了一个可学习的辅助结构,即密度代理,将公认的前景区域特征带到相应的密度子类(代理)和推开背景的区域。其次,我们提出了密度引导的对比度学习损失,以巩固主链特征提取器。第三,我们通过使用变压器结构进一步完善前景特征来构建回归头。最后,提供了有效的噪声抑郁丧失,以最大程度地减少注释噪声的负面影响。对四个挑战性人群计数数据集进行的广泛实验表明,我们的方法在很大的边距中实现了与最先进的半监督计数方法相比最先进的性能。代码可用。
* Unsupervised Scene Sketch to Photo Synthesis
* 链接: https://arxiv.org/abs/2209.02834
* 作者: Jiayun Wang,Sangryul Jeon,Stella X. Yu,Xi Zhang,Himanshu Arora,Yu Lou
* 摘要: 草图在快速执行的徒手绘图时会形成直观而有力的视觉表达。我们提出了一种从场景草图中综合现实照片的方法。不需要草图和照片对,我们的框架直接以无监督的方式从随时可用的大型照片数据集中学习。为此,我们引入了一个标准化模块,该模块在训练期间通过将照片和草图转换为标准化域,即边缘地图,从而提供伪素描 - 光谱对。草图和照片之间的域间隙减少也使我们可以将它们分为两个组成部分:整体场景结构和低级视觉样式,例如颜色和纹理。利用这一优势,我们通过结合草图的结构和参考照片的视觉样式来合成照片真实的图像。关于感知相似性指标和人类感知研究的广泛实验结果表明,该方法可以从场景草图和跑赢大于最先进的照片合成基准中产生逼真的照片。我们还证明,我们的框架通过编辑相应草图的笔触来促进对照片综合的可控操作,从而比依赖于区域级编辑的以前的方法提供了更多细粒度的细节。
小样本学习 2篇
* What does a platypus look like? Generating customized prompts for zero-shot image classification
* 链接: https://arxiv.org/abs/2209.03320
* 作者: Sarah Pratt,Rosanne Liu,Ali Farhadi
* 摘要: 开放词汇模型是图像分类的有希望的新范式。与传统的分类模型不同,开放词汇模型在推理过程中用自然语言指定的任何任意类别中分类。这种称为“提示”的自然语言通常由一组手写的模板(例如,“ {}”的照片)组成,这些模板与每个类别名称完成。这项工作引入了一种简单的方法,可以生成更高的准确性提示,而无需对图像域的明确知识和更少的手工构造句子。为了实现这一目标,我们将开放式词汇模型与大语言模型(LLMS)相结合,以通过语言模型(Cupl,发音为“夫妇”)创建自定义提示。特别是,我们利用LLMS中包含的知识来生成许多针对每个对象类别定制的描述性句子。我们发现,这种直接和一般的方法可提高一系列零照片分类基准的准确性,包括ImageNet上超过一个百分比的增益。最后,此方法不需要额外的培训,并且仍然完全零射。代码可在此HTTPS URL上找到。
* Not All Instances Contribute Equally: Instance-adaptive Class Representation Learning for Few-Shot Visual Recognition
* 链接: https://arxiv.org/abs/2209.03034
* 作者: Mengya Han,Yibing Zhan,Yong Luo,Bo Du,Han Hu,Yonggang Wen,Dacheng Tao
* 摘要: 很少有视觉识别是指从一些标记实例中识别新颖的视觉概念。通过将查询表示形式与类表征进行比较以预测查询实例的类别,许多少数射击的视觉识别方法采用了基于公制的元学习范式。但是,当前基于度量的方法通常平等地对待所有实例,因此通常会获得有偏见的类表示,考虑到并非所有实例在总结了类级表示的实例级表示时都同样重要。例如,某些实例可能包含无代表性的信息,例如过多的背景和无关概念的信息,这使结果偏差。为了解决上述问题,我们提出了一个新型的基于公制的元学习框架,称为实例自适应类别表示网络(ICRL-net),以进行几次视觉识别。具体而言,我们开发了一个自适应实例重新平衡网络,具有在生成班级表示,通过学习和分配自适应权重的不同实例中的自适应权重时,根据其在相应类的支持集中的相对意义来解决偏见的表示问题。此外,我们设计了改进的双线性实例表示,并结合了两个新型的结构损失,即,阶层内实例聚类损失和阶层间表示区分损失,以进一步调节实例重估过程并完善类表示。我们对四个通常采用的几个基准测试:Miniimagenet,Tieredimagenet,Cifar-FS和FC100数据集进行了广泛的实验。与最先进的方法相比,实验结果证明了我们的ICRL-NET的优势。
分割 2篇
* MSSPN: Automatic First Arrival Picking using Multi-Stage Segmentation Picking Network
* 链接: https://arxiv.org/abs/2209.03132
* 作者: Hongtao Wang,Jiangshe Zhang,Xiaoli Wei,Chunxia Zhang,Zhenbo Guo,Li Long,Yicheng Wang
* 摘要: 选择第一次到达的Prestack收集时间被称为首次到达时间(FAT)采摘,这是地震数据处理中必不可少的一步,并且主要是手动解决的。随着当前地震数据收集密度的增加,手动采摘效率无法满足实际需求。因此,近几十年来,自动采摘方法已经大大开发出来,尤其是基于深度学习的方法。但是,当前有监督的基于深度学习的方法很少可以避免对标记样品的依赖。此外,由于收集数据是一组与自然图像大不相同的信号,因此当前方法在低信号与噪声比(SNR)的情况下很难解决脂肪拾取问题。在本文中,对于Hard Rock地震收集数据,我们提出了一个多阶段分割拾取网络(MSSPN),该网络解决了跨工作地点的概括问题以及在低SNR的情况下的采摘问题。在MSSPN中,有四个子模型可以模拟手动采摘处理,从而将其假定为从粗糙到细的四个阶段。具有不同质量的七个现场数据集的实验表明,我们的MSSPN的表现优于大幅度的基准。尤其是,在中等和高snrs的情况下,我们的方法可以实现超过90 \%的精确拾取,甚至精细模型也可以使用低SNR实现88 \%精确的数据集。
* SUNet: Scale-aware Unified Network for Panoptic Segmentation
* 链接: https://arxiv.org/abs/2209.02877
* 作者: Weihao Yan,Yeqiang Qian,Chunxiang Wang,Ming Yang
* 其他: 10 pages, 7 figures, 8 tables
* 摘要: Pastic分割结合了语义和实例细分的优势,可以为智能车辆提供像素级和实例级别的环境感知信息。但是,它挑战各种尺度的对象,尤其是在极小的和小的物体上。在这项工作中,我们提出了两个轻量级模块来减轻此问题。首先,Pixel-ReSation Block旨在为大规模事物建模全局上下文信息,该信息基于与查询无关的公式,并带来小参数增量。然后,构建对流网络以收集针对小规模内容的额外高分辨率信息,为下游分割分支提供更合适的语义功能。基于这两个模块,我们提出了一个端到端尺度意识到的统一网络(Sunet),该网络更适合多尺度对象。对城市景观和可可的广泛实验证明了所提出的方法的有效性。
检测 6篇
* Joint Learning of Deep Texture and High-Frequency Features for Computer-Generated Image Detection
* 链接: https://arxiv.org/abs/2209.03322
* 作者: Qiang Xu,Shan Jia,Xinghao Jiang,Tanfeng Sun,Zhe Wang,Hong Yan
* 摘要: 区分计算机生成(CG)和自然摄影图像(PG)图像对于验证数字图像的真实性和独创性至关重要。但是,最近的尖端生成方法使CG图像中的合成质量很高,这使得这项具有挑战性的任务变得更加棘手。为了解决这个问题,提出了具有深层质地和高频特征的联合学习策略,以进行CG图像检测。我们首先制定并深入分析CG和PG图像的不同采集过程。基于这样的发现,即图像采集中的多个不同模块将导致对图像中基于卷积神经网络(CNN)渲染的不同敏感性不一致,我们提出了一个深层纹理渲染模块,以增强纹理差异和歧视性纹理表示。具体而言,生成语义分割图来指导仿射转换操作,该操作用于恢复输入图像不同区域中的纹理。然后,原始图像和原始图像和渲染图像的高频组件的组合被馈入配备了注意机制的多支球神经网络,该神经网络分别优化了中间特征,并分别促进了空间和通道维度的痕量探索。在两个公共数据集和一个具有更现实和多样化图像的新构建的数据集上进行的广泛实验表明,所提出的方法的表现优于现有方法,从而明确的余量。此外,结果还证明了拟议方法后处理操作和生成对抗网络(GAN)生成的图像的检测鲁棒性和泛化能力。
* Hardware faults that matter: Understanding and Estimating the safety impact of hardware faults on object detection DNNs
* 链接: https://arxiv.org/abs/2209.03225
* 作者: Syed Qutub,Florian Geissler,Yang Peng,Ralf Grafe,Michael Paulitsch,Gereon Hinz,Alois Knoll
* 其他: 15 pages, accepted in safecomp22 conference
* 摘要: 对象检测神经网络模型需要在高度动态和安全至关重要的环境(例如自动驾驶或机器人技术)中可靠地执行。因此,在意外硬件故障(例如软误差)下验证检测的鲁棒性至关重要,这些故障可能会影响系统感知模块。基于平均精度的标准指标会在对象级别而不是图像级别产生模型漏洞估计。正如我们在本文中所显示的那样,这并不能提供直观或代表性的指标,表明是由基础记忆中的位翻转引起的无声数据损坏的安全性影响,而是导致典型断层诱导危害的过度估计或低估。为了关注与安全相关的实时应用程序,我们提出了一个新的度量IVMOD(图像漏洞测量的对象检测),以基于错误的图像检测(FPS)或假阴性为基于图像的对象检测,以量化漏洞(FNS)对象,结合严重性分析。对几个代表性对象检测模型的评估表明,即使是单个位翻转也可能导致严重的无声数据腐败事件,具有潜在的关键安全性,例如,(大于)生成的100 fps或最多可产生。 90%的真实阳性(TPS)在图像中丢失。此外,在单个卡住的情况下,可能会影响整个图像序列,从而导致暂时持续的幽灵检测,这些检测可能被误认为是实际对象(覆盖了大约83%的图像)。此外,场景中的实际物体被持续遗漏(最多约有64%的TPS)。我们的工作建立了对此类关键工作负载与硬件故障的安全相关脆弱性的详细理解。
* FasterX: Real-Time Object Detection Based on Edge GPUs for UAV Applications
* 链接: https://arxiv.org/abs/2209.03157
* 作者: Wei Zhou,Xuanlin Min,Rui Hu,Yiwen Long,Huan Luo,JunYi
* 其他: 12 pages, 7 figures
* 摘要: 无人驾驶飞机(UAV)的实时对象检测是一个具有挑战性的问题,因为Edge GPU设备作为物联网(IoT)节点的计算资源有限。为了解决这个问题,在本文中,我们提出了一种基于Yolox模型的新型轻型深度学习体系结构,用于Edge GPU上的实时对象检测。首先,我们设计了一个有效且轻巧的PixSF头,以更换Yolox的原始头部以更好地检测小物体,可以将其进一步嵌入深度可分离的卷积(DS Conv)中,以达到更轻的头。然后,开发为减少网络参数的颈层中的较小结构,这是精度和速度之间的权衡。此外,我们将注意模块嵌入头层中,以改善预测头的特征提取效果。同时,我们还改进了标签分配策略和损失功能,以减轻UAV数据集的类别不平衡和盒子优化问题。最后,提出了辅助头进行在线蒸馏,以提高PIXSF Head中嵌入位置嵌入和特征提取的能力。在NVIDIA Jetson NX和Jetson Nano GPU嵌入平台上,我们的轻质模型的性能得到了实验验证。扩展的实验表明,与目前的模型相比,Fasterx模型在Visdrone2021数据集中实现了更好的折衷和延迟之间的折衷。
* Zoom Text Detector
* 链接: https://arxiv.org/abs/2209.03014
* 作者: Chuang. Yang,Mulin. Chen,Yuan. Yuan,Qi. Wang
* 摘要: 为了追求全面的性能,最近的文本检测器以牺牲准确性为代价提高了检测速度。他们采用基于收缩面罩的文本表示策略,从而导致检测准确性对收缩罩的高度依赖性。不幸的是,三个缺点会导致不可靠的收缩面罩。具体而言,这些方法试图通过语义信息来加强从背景中对收缩面具的歧视。但是,通过细粒度的目标优化了散焦现象的特征散布现象限制了语义特征的提取。同时,由于收缩面具和边缘都属于文本,因此忽略边缘的细节损失现象阻碍了收缩遮罩与边缘的区分,这会导致模棱两可的收缩面罩边缘。此外,假阳性样品享有带有收缩遮罩的类似视觉特征。他们加剧了收缩面具识别的下降。为了避免上述问题,我们提出了一个受相机变焦过程启发的变焦文本检测器(ZTD)。具体而言,引入了缩放模块(ZOM),以提供粗层的粗颗粒优化目标,以避免使用偏置功能。同时,提出了模块中的缩放(ZIM)以增强边缘识别,以防止细节损失。此外,顺序视觉判别器(SVD)旨在通过顺序和视觉特征抑制假阳性样品。实验验证了ZTD的出色全面性能。
* YOLOv6: A Single-Stage Object Detection Framework for Industrial Applications
* 链接: https://arxiv.org/abs/2209.02976
* 作者: Chuyi Li,Lulu Li,Hongliang Jiang,Kaiheng Weng,Yifei Geng,Liang Li,Zaidan Ke,Qingyuan Li,Meng Cheng,Weiqiang Nie,Yiduo Li,Bo Zhang,Yufei Liang,Linyuan Zhou,Xiaoming Xu,Xiangxiang Chu,Xiaoming Wei,Xiaolin Wei
* 其他: technical report
* 摘要: 多年来,Yolo系列一直是有效对象检测的事实上的行业级别标准。尤洛社区(Yolo Community)绝大多数繁荣,以丰富其在众多硬件平台和丰富场景中的使用。在这份技术报告中,我们努力将其限制推向新的水平,以坚定不移的行业应用心态前进。考虑到对真实环境中速度和准确性的多种要求,我们广泛研究了行业或学术界的最新对象检测进步。具体而言,我们从最近的网络设计,培训策略,测试技术,量化和优化方法中大量吸收了思想。最重要的是,我们整合了思想和实践,以在各种规模上建立一套可供部署的网络,以适应多元化的用例。在Yolo作者的慷慨许可下,我们将其命名为Yolov6。我们还向用户和贡献者表示热烈欢迎,以进一步增强。为了了解性能,我们的Yolov6-N在NVIDIA TESLA T4 GPU上以1234 fps的吞吐量在可可数据集上击中35.9%的AP。 Yolov6-S在495 fps处的43.5%AP罢工,在相同规模〜(Yolov5-S,Yolox-S和Ppyoloe-S)上超过其他主流探测器。我们的量化版本的Yolov6-S甚至在869 fps中带来了新的43.3%AP。此外,与其他推理速度相似的检测器相比,Yolov6-m/L的精度性能(即49.5%/52.3%)更好。我们仔细进行了实验以验证每个组件的有效性。我们的代码可在此HTTPS URL上提供。
* Multi-Grained Angle Representation for Remote Sensing Object Detection
* 链接: https://arxiv.org/abs/2209.02884
* 作者: Hao Wang,Zhanchao Huang,Zhengchao Chen,Ying Song,Wei Li
* 其他: 13 pages, 9 figures, 14 tables
* 摘要: 任意为导向的对象检测(AOOD)在遥感方案中的图像理解起着重要作用。现有的AOOD方法面临歧义和高成本的挑战。为此,提出了由粗粒角分类(CAC)和细粒角回归(FAR)组成的多透明角度表示(MGAR)方法。具体而言,设计的CAC避免了通过离散角编码(DAE)避免角度预测的歧义,并通过使DAE的粒度变形来降低复杂性。基于CAC,FAR的开发是为了优化角度预测,成本比狭窄的DAE粒度要低得多。此外,与IOU指导的自适应重新加权机制相交,旨在提高角度预测的准确性(IFL)。在几个公共遥感数据集上进行了广泛的实验,这证明了拟议的MGAR的有效性。此外,对嵌入式设备进行的实验表明,拟议的MGAR也对轻型部署也很友好。
分类 & 检索 6篇
* Plant Species Classification Using Transfer Learning by Pretrained Classifier VGG-19
* 链接: https://arxiv.org/abs/2209.03076
* 作者: Thiru Siddharth,Bhupendra Singh Kirar,Dheeraj Kumar Agrawal
* 其他: Under review process in 'IETE Journal of Research'
* 摘要: 深度学习目前是机器学习中最重要的分支,在语音识别,计算机视觉,图像分类和医学成像分析中的应用。植物识别是可以使用图像分类通过其叶子识别植物物种的领域之一。植物学家通过亲自检查将大量时间用于识别植物物种。本文描述了一种剖析瑞典叶子和识别植物物种的颜色图像的方法。为了实现更高的准确性,该任务是在预先训练的分类器VGG-19的帮助下使用转移学习完成的。分类的四个主要过程是图像预处理,图像增强,特征提取和识别,这些过程是作为整体模型评估的一部分进行的。 VGG-19分类器通过采用预定义的隐藏层(例如卷积层,最大池层和完全连接的层)来掌握叶子的特征,并最终使用Soft-Max层为所有植物类生成特征表示。该模型获得了与瑞典叶数据集的各个方面相关的知识,其中包含15种树类,并有助于预测未知植物的适当类别,准确性为99.70%,这比以前报告的研究工作高。
* Shifting Perspective to See Difference: A Novel Multi-View Method for Skeleton based Action Recognition
* 链接: https://arxiv.org/abs/2209.02986
* 作者: Ruijie Hou,Yanran Li,Ningyu Zhang,Yulin Zhou,Xiaosong Yang,Zhao Wang
* 摘要: 基于骨架的人类行动识别是由于其复杂的动态而是一项长期挑战。动态的一些细颗粒细节在分类中起着至关重要的作用。现有的工作主要集中在设计带有更复杂的相邻矩阵的增量神经网络上,以捕获关节关系的细节。但是,他们仍然很难区分具有广泛相似运动模式但属于不同类别的动作。有趣的是,我们发现运动模式上的细微差异可以显着放大,并且可以轻松地通过指定的视图方向来区分观众,在这些方向上,该属性以前从未得到充分探索。与以前的工作截然不同,我们通过提出一种概念上简单而有效的多视图策略来提高性能,该策略从一系列动态视图功能中识别动作。具体而言,我们设计了一个新颖的骨骼锚定建议(SAP)模块,该模块包含一个多头结构来学习一组视图。为了学习不同观点的特征学习,我们引入了一个新的角度表示,以在不同视图下的动作转换并将转换归因于基线模型。我们的模块可以与现有的动作分类模型无缝合作。与基线模型合并,我们的SAP模块在许多具有挑战性的基准上展示了明显的性能增长。此外,全面的实验表明,我们的模型始终击败了最新的实验,并且在处理损坏的数据时保持有效和健壮。相关代码将在此HTTPS URL上可用。
* Difficulty-Net: Learning to Predict Difficulty for Long-Tailed Recognition
* 链接: https://arxiv.org/abs/2209.02960
* 作者: Saptarshi Sinha,Hiroki Ohashi
* 其他: Accepted for publication at WACV 2023
* 摘要: 长尾数据集(Head Class)组成的培训样本比尾巴类别多得多,这会导致识别模型对头等舱有偏见。加权损失是缓解此问题的最受欢迎的方法之一,最近的一项工作表明,班级难度可能比常规使用的类频率更好地决定了权重的分布。在先前的工作中使用了一种启发式公式来量化难度,但是我们从经验上发现,最佳公式取决于数据集的特征。因此,我们提出了困难网络,该难题学习在元学习框架中使用模型的性能来预测类的难度。为了使其在其他班级的背景下学习班级的合理难度,我们新介绍了两个关键概念,即相对难度和驾驶员损失。前者有助于困难网络在计算班级难度时考虑其他课程,而后者对于将学习指向有意义的方向是必不可少的。对流行的长尾数据集进行了广泛的实验证明了该方法的有效性,并且在多个长尾数据集上实现了最先进的性能。
* Language-aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification
* 链接: https://arxiv.org/abs/2209.02700
* 作者: Yuxiang Zhang,Mengmeng Zhang,Wei Li,Shuai Wang,Ran Tao
* 其他: arXiv admin note: substantial text overlap with arXiv:2209.01634
* 摘要: 在高光谱图像分类(HSI)任务中,忽略了包括有关土地覆盖类别的大量先验知识在内的文本信息。有必要探索语言模式在协助HSI分类方面的有效性。此外,大规模训练的图像文本基础模型在各种下游应用中都表现出了出色的性能,包括零拍传输。但是,大多数领域的概括方法从未解决过采矿语言模态知识以提高模型的概括性能。为了弥补上述不足的不足,提出了一个语言感知的域概括网络(LDGNET),以从跨域共享的先验知识中学习跨域不变的表示。所提出的方法仅在源域(SD)上训练,然后将模型传输到目标域(TD)。包括图像编码器和文本编码器在内的双流架构用于提取视觉和语言特征,其中粗粒和细粒度的文本表示旨在提取两个层次的语言特征。此外,语言特征被用作跨域共享的语义空间,并且通过在语义空间中的对比度学习完成视觉语言对齐。与最先进的技术相比,三个数据集上的广泛实验证明了该方法的优越性。
* Banknote Recognition for Visually Impaired People (Case of Ethiopian note)
* 链接: https://arxiv.org/abs/2209.03236
* 作者: Nuredin Ali Abdelkadir
* 其他: 3 pages, 2 figures, Machine Learning for Development Workshop at NeurIPS 2021
* 摘要: 货币几乎在任何地方都用于促进业务。在大多数发展中国家,尤其是非洲的发展中国家,有形的笔记主要用于日常金融交易。这些国家之一,埃塞俄比亚,被认为具有世界上最高的失明率之一(1.6%)和低视力(3.7%)。大约有400万视觉障碍的人;有170万人完全视力丧失。这些人在公交车站,购物中心或需要物有所需交换的任何地方时都面临许多挑战。在本文中,我们尝试使用AI/ML应用程序为此问题提供解决方案。我们开发了一个Android和iOS兼容的移动应用程序,其模型在数据集中达到了98.9%的分类精度。该应用程序具有一个语音集成功能,该功能讲述了埃塞俄比亚的工作语言Amharic中扫描货币的类型。该应用程序的开发为其用户易于访问。这是为了减轻埃塞俄比亚的视障人士的负担。
[推荐] * Handcrafted Feature Selection Techniques for Pattern Recognition: A Survey
* 链接: https://arxiv.org/abs/2209.02746
* 作者: Alysson Ribeiro da Silva,Camila Guedes Silveira
* 其他: Technical Report on Handcraft Feature Selection Techniques
* 摘要: 当执行模式识别时,分类器的准确性主要与输入特征向量的质量和代表性相关。特征选择是一个过程,可以正确表示信息并可能提高分类器的准确性。此过程负责找到最佳的功能,从而使我们能够确定A类模式所属的属性。功能选择方法可以归类为过滤器,包装器和嵌入。本文介绍了一些用于手工特征选择的过滤器和包装方法的调查。还提供了一些关于数据结构,处理时间和能够很好地代表特征向量的讨论,以明确说明某些方法以执行特征选择的适当方式。因此,如果应用其积极因素和负面因素,则提出的特征选择方法可以准确有效,发现哪个最适合问题的域可能是最艰巨的任务。
其他 16篇
* AI Illustrator: Translating Raw Descriptions into Images by Prompt-based Cross-Modal Generation
* 链接: https://arxiv.org/abs/2209.03160
* 作者: Yiyang Ma,Huan Yang,Bei Liu,Jianlong Fu,Jiaying Liu
* 摘要: AI Illustrator旨在自动设计具有视觉吸引力的图像,以激发丰富的思想和情感。为了实现这一目标,我们提出了一个框架,将具有复杂语义的原始描述转换为语义相应的图像。主要的挑战在于原始描述语义的复杂性,这可能很难可视化(例如,“阴郁”或“亚洲”)。通常,它对现有方法构成了处理此类描述的挑战。为了解决这个问题,我们提出了一个及时的跨模式生成框架(PCM-FRAME),以利用两个强大的预训练模型,包括剪辑和StyleGAN。我们的框架由两个组成部分组成:一个基于提示的图像嵌入到图像嵌入的投影模块,以及基于stylegan的改编图像生成模块,该模块将图像嵌入为输入,并通过结合语义一致性损失进行训练。为了弥合现实图像和插图设计之间的差距,我们进一步采用了风格化模型作为后处理,以获得更好的视觉效果。受益于预先训练的模型,我们的方法可以处理复杂的描述,并且不需要外部配对数据进行培训。此外,我们已经建立了一个由200个原始描述组成的基准。我们进行了一项用户研究,以证明我们对复杂文本的竞争方法的优势。我们在此HTTPS URL上发布代码。
* Wavelength-aware 2D Convolutions for Hyperspectral Imaging
* 链接: https://arxiv.org/abs/2209.03136
* 作者: Leon Amadeus Varga,Martin Messmer,Nuri Benbarka,Andreas Zell
* 其他: Submitted
* 摘要: 深度学习可以大大提高高光谱成像(HSI)的分类精度。尽管如此,对大多数小型高光谱数据集的培训并不是微不足道的。两个关键的挑战是录音的大信道维度以及不同制造商的摄像机之间的不兼容。通过引入合适的模型偏置并连续定义通道维度,我们提出了针对高光谱成像的这些挑战进行优化的2D卷积。我们根据两个不同的高光谱应用(内联检查和遥感)评估该方法。除了显示模型的优势外,修改还增加了其他解释能力。此外,该模型以数据驱动的方式学习了必要的摄像机过滤器。基于这些相机过滤器,可以设计一个最佳摄像头。
* MimCo: Masked Image Modeling Pre-training with Contrastive Teacher
* 链接: https://arxiv.org/abs/2209.03063
* 作者: Qiang Zhou,Chaohui Yu,Hao Luo,Zhibin Wang,Hao Li
* 摘要: 最近的蒙版图像建模(MIM)在自我监督学习(SSL)中受到了很多关注,该学习要求目标模型恢复输入图像的掩盖部分。尽管基于MIM的预训练方法在转移到许多下游任务时达到了新的最新性能,但可视化表明,与基于基于对比性学习预训练相比,学习的表示形式不可分割,尤其是相比。这激发了我们思考MIM预培训表示的线性可分离性是否可以进一步改善,从而改善了训练的性能。由于MIM和对比度学习倾向于利用不同的数据增强和培训策略,因此将这两个借口任务结合起来并不是微不足道的。在这项工作中,我们提出了一个新颖而灵活的预训练框架,名为Mimco,该框架通过两阶段的预培训结合了MIM和对比度学习。具体而言,MIMCO将预先训练的对比学习模型作为教师模型,并通过两种类型的学习目标进行了预培训:贴片级和图像级的重建损失。关于下游任务的广泛转移实验证明了我们的MIMCO预训练框架的出色表现。以VIT-S为例,当使用预先训练的MoCov3-Vit-S作为教师模型时,Mimco只需要100个时期的预训练时期即可达到Imagenet-1K上的82.53%Top-1 FineTuning精度,这表现优于表现最先进的自我监督学习对手。
* SIRA: Relightable Avatars from a Single Image
* 链接: https://arxiv.org/abs/2209.03027
* 作者: Pol Caselles,Eduard Ramon,Jaime Garcia,Xavier Giro-i-Nieto,Francesc Moreno-Noguer,Gil Triginer
* 摘要: 从单个图像中恢复人头的几何形状,同时对材料和照明进行分解是一个严重不良的问题,需要事先解决。基于3D形态模型(3DMM)及其与可区分渲染器的组合的方法已显示出令人鼓舞的结果。但是,3DMM的表现力受到限制,它们通常会产生过度平滑和身份敏捷的3D形状,仅限于面部区域。最近,使用多层感知器参数化几何形状的神经场获得了高度准确的全头部重建。这些表示形式的多功能性也已被证明可有效解开几何形状,材料和照明。但是,这些方法需要几十个输入图像。在本文中,我们介绍了Sira,该方法从单个图像中,从一个图像中重建了具有高保真度几何形状和分解的灯光和表面材料的人头头像。我们的关键成分是基于神经场的两个数据驱动的统计模型,这些模型可以解决单视3D表面重建和外观分解的歧义。实验表明,Sira获得了最新的状态导致3D头重建,同时它成功地解开了全局照明以及弥漫性和镜面反照率。此外,我们的重建适合基于物理的外观编辑和头部模型重新构建。
* Text Growing on Leaf
* 链接: https://arxiv.org/abs/2209.03016
* 作者: Chuang. Yang,Mulin. Chen,Yuan. Yuan,Qi. Wang
* 摘要: 不规则形状的文本为场景文本检测带来了挑战(STD)。尽管现有的基于轮廓点序列的方法达到了可比的性能,但它们无法涵盖一些高度弯曲的色带样文本线条。它导致文本拟合能力和性病技术应用有限。考虑到上述问题,我们将文本几何特征和生物学结合起来,设计基于天然叶子的文本表示方法(LVT)。具体而言,发现叶静脉是一张普遍定向的图,可以很容易地覆盖各种几何形状。受其启发,我们将文本轮廓视为叶边缘,并通过主,侧向和薄静脉表示。我们进一步构建基于LVT的检测框架,即Leaftext。在文本重建阶段,Leftext模拟了叶片生长过程以重建文本轮廓。它在笛卡尔坐标中生长主要静脉,首先将文本大致定位。然后,沿极坐标的主要静脉生长方向产生侧静脉和细静脉。他们负责分别产生粗轮廓和精炼。考虑到侧静脉对主静脉的深度依赖性,提出了多方向平滑(MOS)以增强主静脉的鲁棒性,以确保可靠的检测结果。此外,我们提出了全球激励损失,以加速侧静脉和薄静脉的预测。消融实验表明,LVT能够精确描绘任意形状的文本并验证MOS和全球激励损失的有效性。比较表明,Leftext优于MSRA-TD500,CTW1500,Total-Text和ICDAR2015数据集的现有最新方法(SOTA)方法。
* Auto-TransRL: Autonomous Composition of Vision Pipelines for Robotic Perception
* 链接: https://arxiv.org/abs/2209.02991
* 作者: Aditya Kapoor,Nijil George,Vartika Sengar,Vighnesh Vatsal,Jayavardhana Gubbi
* 其他: Presented at the IEEE ICRA 2022 Workshop in Robotic Perception and Mapping: Emerging Techniques
* 摘要: 为不同数据集创建视力管道来解决计算机视觉任务是一个复杂且耗时的过程。目前,这些管道是在域专家的帮助下开发的。此外,除了依靠经验,反复试验或使用基于模板的方法外,没有系统的结构来构建视觉管道。由于选择合适的算法来实现特定视觉任务的搜索空间是大型的人类探索,以找到良好的解决方案需要时间和精力。为了解决以下问题,我们提出了一种动态和数据驱动的方式,以确定一组适当的算法,该算法适合构建视觉管道以实现目标任务。我们介绍了一种辅助的变压器体系结构,并采用了深厚的强化学习,以推荐可以在视觉工作流的不同阶段合并的算法。该系统既强大又适应环境的动态变化。实验结果进一步表明,我们的方法还很好地推荐了训练时未使用的算法,因此减轻了在测试期间引入的新算法上对系统进行重新训练的需求。
* Facial De-morphing: Extracting Component Faces from a Single Morph
* 链接: https://arxiv.org/abs/2209.02933
* 作者: Sudipta Banerjee,Prateek Jaiswal,Arun Ross
* 摘要: 面部变体是通过战略性地结合对应于多个身份的两个或多个面部图像来创建的。目的是使变形图像与多个身份匹配。当前的变形攻击检测策略可以检测变形,但无法恢复创建它们的图像或身份。从变形的面部图像中推论单个面部图像的任务称为\ textit {demphing}。截图的现有工作假设与一个身份有关的参考图像的可用性,以恢复同伙的图像 - 即其他身份。在这项工作中,我们提出了一种新颖的截形方法,可以从单个变形的面部图像中同时恢复两种身份的图像,而无需参考图像或有关变形过程的先前信息。我们提出了一个生成的对抗网络,该网络可实现基于单个图像的启动,并具有出乎意料的高度视觉现实主义和与原始面部图像的生物识别相似性。我们证明了我们的方法在基于里程碑的形态和基于生成模型的形态上的性能,并具有令人鼓舞的结果。
* A Data-dependent Approach for High Dimensional (Robust) Wasserstein Alignment
* 链接: https://arxiv.org/abs/2209.02905
* 作者: Hu Ding,Wenjie Liu,Mingquan Ye
* 其他: arXiv admin note: substantial text overlap with arXiv:1811.07455
* 摘要: 许多实际问题可以作为两种几何模式之间的对齐方式提出。以前,大量研究集中于计算机视觉领域中2D或3D模式的对齐。最近,高维度的对齐问题在实践中发现了一些新的应用。但是,该研究在算法方面仍然相当有限。据我们所知,大多数现有的方法只是对2D和3D案例的简单扩展,并且经常遭受诸如高计算复杂性之类的问题。在本文中,我们提出了一个有效的框架来压缩高维几何模式。任何现有的比对方法都可以应用于压缩的几何模式,并且可以大大降低时间复杂性。我们的想法的灵感来自观察到高维数据通常具有较低的内在维度。我们的框架是一种“数据依赖性”方法,其复杂性取决于输入数据的内在维度。我们的实验结果表明,与原始模式的结果相比,在压缩模式上运行对齐算法可以达到相似的质量,但是运行时间(包括压缩的时间成本)大大降低。
* Toward Data-Driven Radar STAP
* 链接: https://arxiv.org/abs/2209.02890
* 作者: Shyam Venkatasubramanian,Sandeep Gogineni,Bosung Kang,Ali Pezeshki,Muralidhar Rangaswamy,Vahid Tarokh
* 其他: 39 pages, 24 figures. Submitted to IEEE Transactions on Aerospace and Electronic Systems. This article supersedes arXiv:2201.10712
* 摘要: 在过去的十年中,由于雷达目的的现场特异性,高保真射频(RF)建模和仿真工具的催化,在过去的十年中,经典方法的数据驱动公式迅速增长。尽管有这种激增,但有限的焦点已针对这些经典方法的理论基础。在这方面,作为我们正在进行的数据驱动的雷达时空自适应处理方法(Stap)的一部分,我们在雷达目标定位的背景下分析了精选子空间分离方法的渐近性能保证,并通过拟议目标位置估计的深度学习框架。在我们的方法中,我们通过使用RFView(由ISL Inc.开发的一个特定于站点的RF建模和模拟工具)将可变强度的目标随机放置在预定的约束区域中。在范围内,方位角和归一化自适应匹配过滤器(NAMF)测试统计量以及广义Sidelobe canceller(GSC)的输出功率的高度。使用我们的深度学习框架,我们从这些热图张量估算目标位置,以证明我们数据驱动方法在匹配和不匹配的设置中提供的可行性和显着改进。
[推荐] * Interpretations Steered Network Pruning via Amortized Inferred Saliency Maps
* 链接: https://arxiv.org/abs/2209.02869
* 作者: Alireza Ganjdanesh,Shangqian Gao,Heng Huang
* 其他: Accepted to the European Conference on Computer Vision (ECCV 2022)
* 摘要: 卷积神经网络(CNN)压缩对于在资源有限的边缘设备中部署这些模型至关重要。 CNN的现有通道修剪算法在复杂模型上取得了很大的成功。他们从各个角度解决了修剪问题,并使用不同的指标来指导修剪过程。但是,这些指标主要集中于模型的“输出”或“权重”,而忽略了其“解释”信息。为了填补这一空白,我们建议通过利用模型的解释来引导修剪过程,从而从新颖的角度解决通道修剪问题,从而利用来自模型的输入和输出的信息。但是,现有的解释方法不能被部署以实现我们的目标,因为它们的修剪效率低下,或者可能预测了非固定解释。我们通过引入选择器模型来解决这一挑战,该模型可以预测修剪模型的实时平滑显着性掩码。我们通过径向基函数(RBF)函数来参数化解释性掩码的分布,以在我们选择器模型的电感偏置中纳入自然图像的几何事物。因此,我们可以获得解释的紧凑表示,以降低修剪方法的计算成本。我们利用我们的选择器模型来引导网络修剪,以最大程度地提高修剪和原始模型的解释性表示的相似性。关于CIFAR-10和Imagenet基准数据集的广泛实验证明了我们提出的方法的功效。我们的实现可在\ url {此https url}上获得
* Impact of Colour Variation on Robustness of Deep Neural Networks
* 链接: https://arxiv.org/abs/2209.02832
* 作者: Chengyin Hu,Weiwen Shi
* 其他: arXiv admin note: substantial text overlap with arXiv:2209.02132
* 摘要: 深度神经网络(DNN)已显示出针对计算机视觉应用程序(例如图像分类,分割和对象检测)的最先进性能。尽管最近的进步表明他们在输入数据中对手动数字扰动的脆弱性,即对对抗性攻击。网络的准确性受其培训数据集的数据分布的显着影响。输入图像的颜色空间上的失真或扰动会生成分布数据,这使网络更有可能将其错误分类。在这项工作中,我们通过在ImageNet的子集上扭曲其RGB颜色,以27种不同的组合来提出一个颜色变化的数据集。我们工作的目的是研究颜色变化对DNN的性能的影响。我们对拟议数据集的几个最新DNN架构进行实验,结果显示颜色变化与准确性丧失之间存在显着相关性。此外,根据RESNET50体系结构,我们展示了最近提出的强大训练技术和策略的一些实验,例如Augmix,Revisit和Free Normorhizer在我们的拟议数据集中。实验结果表明,这些强大的训练技术可以改善深网对颜色变化的鲁棒性。
[推荐] * The HoloLens in Medicine: A systematic Review and Taxonomy
* 链接: https://arxiv.org/abs/2209.03245
* 作者: Christina Gsaxner,Jianning Li,Antonio Pepe,Yuan Jin,Jens Kleesiek,Dieter Schmalstieg,Jan Egger
* 其他: 35 pages, 11 figures
* 摘要: Hololens (Microsoft Corp., Redmond, WA WA) is a headdress, optical transparent augmented reality show, are the main participants in the improving medical augmented reality research http://recently.In the medical environment, HoloLens make doctors can immediately understand the patient information, directly with their perceptions of clinical scheme, medical students, can have a better understanding of the complex anatomy or program, and even can be treated by performing a task.Improvement, immersion http://instruction.In the system of review, we provide related to the first generation in medical field HuoLuoLun, released in March 2016 to 2021, the comprehensive use of a comprehensive overview of his successor, has always been a concern HuoLuoLun, no. 2.Through the system search PubMed and Scopus database identified 171 related publications.We analyzed these publications expected use cases, registration and tracking methods, data sources, visualization and verification and assessment.We found that, although have already shown in the various medical scenario the feasibility of using Hololens, but in the precision, reliability, availability, workflow and awareness efforts to increase the AR established in clinical practice.
* Use and Misuse of Machine Learning in Anthropology
* 链接: https://arxiv.org/abs/2209.02811
* 作者: Jeff Calder,Reed Coil,Annie Melton,Peter J. Olver,Gilbert Tostevin,Katrina Yezzi-Woodley
* 摘要: 现在,整个研究社区都可以广泛使用机器学习(ML),它促进了这些新兴的数学技术在广泛学科中的新型和引人注目的应用的扩散。在本文中,我们将重点介绍一个特定的案例研究:古人类学领域,该领域旨在根据生物学和文化证据理解人类的演变。正如我们将表明的那样,ML算法的易用性以及在人类学研究界的适当使用方面缺乏专业知识,导致了整个文献中出现的基本错误应用。结果不可靠的结果不仅破坏了将ML合法纳入人类学研究的努力,而且还会对我们的人类进化和行为过去产生潜在的理解。本文的目的是简要介绍古人类学中ML的某些方式;我们还为那些与该领域完全熟悉的人提供了一些基本ML算法的调查,而该领域仍在积极发展。我们讨论了一系列的错误,错误和违反正确的ML方法方案的行为,这些方法经常在人类学文献的积累体内出现令人不安。这些错误包括使用过时的算法和实践;不适当的火车/测试拆分,样本组成和文本解释;以及由于缺乏数据/代码共享以及随后对独立复制的限制而缺乏透明度。我们断言,扩大样本,共享数据和代码,重新评估同行评审的方法,以及最重要的是,开发包括ML专家在内的跨学科团队对于将ML在人类学中纳入ML的未来研究的进步都是必要的。
* Scalable Regularization of Scene Graph Generation Models using Symbolic Theories
* 链接: https://arxiv.org/abs/2209.02749
* 作者: Davide Buffelli,Efthymia Tsamoura
* 摘要: 最近,几种技术旨在通过合并背景知识来提高场景图生成(SGG)的深度学习模型的性能。最先进的技术可以分为两个家庭:一个以潜在的方式将背景知识纳入模型,而另一种则以象征性形式保持背景知识。尽管有希望的结果,但两个技术家族都面临着几个缺点:第一个需要临时,更复杂的神经体系结构来增加培训或推理成本;第二个遭受有限的可伸缩性W.R.T.背景知识的大小。我们的工作引入了一种正则化技术,将符号背景知识注入神经SGG模型,以克服先前的艺术局限性。我们的技术是模型不合时宜的,在推理时间不会产生任何成本,并缩放到以前难以管理的背景知识规模。我们证明我们的技术可以提高最新SGG模型的准确性,最多可提高33%。
* Spatiotemporal Cardiac Statistical Shape Modeling: A Data-Driven Approach
* 链接: https://arxiv.org/abs/2209.02736
* 作者: Jadie Adams,Nawazish Khan,Alan Morris,Shireen Elhabian
* 其他: Accepted in the Statistical Atlases and Computational Modeling of the Heart (STACOM) workshop, part of the 25th International Conference on Medical Image Computing and Computer Assisted Intervention, MICCAI 2022. To be published in a Lecture Notes in Computer Science proceeding published by Springer
* 摘要: 对解剖学随时间变化的结构变化的临床研究可能会大大受益于人群水平的形状量化或时空统计形状建模(SSM)。这样的工具使患者器官周期或疾病进展相关的工具与群体有关。构造形状模型需要建立定量形状表示(例如,相应的地标)。基于粒子的形状建模(PSM)是一种数据驱动的SSM方法,可通过优化地标放置来捕获总体级别的形状变化。但是,它假设横断面研究设计,因此在代表形状随时间变化方面的统计能力有限。现有的建模时空或纵向形状变化的方法需要预定义的形状地图集和通常在横截面上构建的预先建造的形状模型。本文提出了一种受PSM方法启发的数据驱动方法,以直接从形状数据中学习人口级时空形状。我们介绍了一种新型的SSM优化方案,该方案产生了整个人群(受试者间)和跨时间序列(受试者内)的地标。我们将所提出的方法应用于心房 - 纤维化患者的4D心脏数据,并证明其在表示左心房动态变化方面的功效。此外,我们表明我们的方法在生成时间序列模型(线性动力学系统(LDS))方面优于时空SSM的基于图像的方法。 LDS使用通过我们的方法优化的时空形状模型拟合,可提供更好的概括和特异性,表明它准确地捕获了基本的时间依赖性。
* Statistical Shape Modeling of Biventricular Anatomy with Shared Boundaries
* 链接: https://arxiv.org/abs/2209.02706
* 作者: Krithika Iyer,Alan Morris,Brian Zenger,Karthik Karnath,Benjamin A Orkild,Oleksandre Korshak,Shireen Elhabian
* 摘要: 统计形状建模(SSM)是一种有价值且强大的工具,可以生成复杂解剖结构的详细表示,该解剖结构可以实现定量分析和形状及其变化的比较。 SSM应用数学,统计和计算来将形状解析为定量表示(例如对应点或地标),这些表示将有助于回答有关整个人群解剖学变化的各种问题。复杂的解剖结构具有许多不同的部分,具有不同的相互作用或复杂的结构。例如,心脏是四腔解剖结构,腔室之间有几个共同的边界。对于在整个身体中充分灌注末端器官,必要的心脏腔室的协调和有效收缩是必要的。这些心脏共享边界内的细微形状变化可以表明潜在的病理变化,导致不协调的收缩和末端器官灌注不良。早期检测和稳健的量化可以洞悉理想的治疗技术和干预时机。但是,现有的SSM方法无法明确对共享边界的统计数据进行建模。本文提出了一种通用且灵活的数据驱动方法,用于构建具有共同边界的多器官解剖结构的统计形状模型,可捕获单个解剖学及其在整个人群中共享边界表面的形态和对齐变化。我们通过开发形状模型来证明使用双脑室心脏数据集的提议方法的有效性,从而在整个人群数据中始终如一地参数化心脏双脑室结构和介入的室内隔膜(共享边界表面)。 |
|