2023年太阳成集团tyc122cc
信息技术研究生论坛(二十五)
场次一、
时间:2023年12月20日(星期三)9:00-12:00
地点:太阳成集团tyc122cc408教室
报告题目一:An Investigation of Segment Anything Model (SAM) on Uterus Segmentation
报告人:张珊
报告简介:Highly development of language-image models makes prompt driven accurate segmentation become possible. Segment Anything Model (SAM) has recently made a breakthrough in zero-shot image segmentation, using an unprecedentedly large dataset to train a segmentation model with strong adaptability. In this report, we investigate the capability of SAM for MRI medical images in uterus Segmentation.
报告题目二:超声波手势识别和边缘计算
报告人:李名冉
报告简介:人与人之间的交流是以多模态系统为基础的,它不仅包括语言交流,还包括面部和身体的表达,以强化语言内容的意义。 人机交互 (HSI) 趋势正在发展,导致对模仿这种自然交流的新兴技术的研究,最大限度地减少对触摸屏、按钮或滑块等界面的使用。 众所周知的虚拟个人助理,如 Alexa 或 Siri,分别由 Amazon 和 Apple 开发,允许仅使用语音命令与系统进行通信。 还有几个系统将手势控制引入系统,即 SoundWave 、AudioGest、Dolphin 或 UltraGesture。 它们都使用低频超声信号来识别 5 到 12 个手势,这些手势大多基于多普勒频移效应(运动引起的频率变化),同时在 PC 或智能手机上运行识别算法。这项工作的目的是证明开发一个系统的可能性,该系统能够仅基于超声波信号检测手势并在边缘设备中执行信号处理,而无需使用 PC 或云环境。
报告题目三:深度神经网络模型压缩研究
报告人:刘荣启
报告简介:深度神经网络模型通常具有大量的参数,这导致模型在存储时需要占用大量的空间,并且在计算过程中需要大量的内存。这种情况使得深度神经网络模型难以应用于各种嵌入式设备。为了解决这个问题,需要在不影响模型性能的前提下,有效地减小网络模型的参数量和计算量。我们将分析和探讨这些技术的优缺点,并提出结合使用的策略,以便在实际应用中取得最佳效果。通过这些方法,我们可以使深度神经网络模型在嵌入式设备上发挥更大的作用,并满足实际应用的需求。
报告题目四:基于transformer的壮语语音翻译
报告人:黄敏
报告简介:广西地处西部少数民族地区,不少壮族贫困人口分布在偏远山区地带,交通交流极不顺畅。本系统针对壮族历来没有自己的民族文字现状,研究如何使用现代技术手段将壮语的语音直接转换成汉语文字形式。由于未有壮语语音数据库公开发表,故通过处理广西卫视壮语新闻栏目视频获取壮语语音数据。之后在 Conformer 模型的基础上,向 Encoder 层引入下采样,借鉴了Temporal U-Net结构,进行结构上的优化。新加入下采样层的网络架构在保持高效的训练和解码时间的同时,保持相似的识别性能。在 Aishell-1数据集上验证模型,在牺牲少量计算资源下,模型获得了较好的精度。
报告题目五:基于Transformer的快速鲁棒性点云配准研究
报告人:申少飞
报告简介:Transformer是2017年提出的一种深度学习模型架构,于自然语言处理任务,如机器翻译。它是一种基于注意力机制的模型,与传统的循环神经网络(RNN)和长短时记忆网络(LSTM)等架构有所不同。将Transformer作为基础模型进行点云配准,研究了为点云配准提取准确对应关系的问题。最近的无关键点方法绕过了在低重叠场景中很难检测的可重复关键点,在配准方面显示出巨大的潜力。他们在下采样的超点上寻找对应关系,然后将其传播到密集点。超级点根据其相邻面片是否重叠进行匹配。这种稀疏和松散的匹配需要捕获点云几何结构的上下文特征。使用几何变换器来学习几何特征以实现鲁棒的超点匹配。它对成对距离和三元组角度进行编码,使其在低重叠情况下具有鲁棒性,并且对刚性变换具有不变性。简单的设计获得了令人惊讶的高匹配精度,使得在对齐变换的估计中不需要RANSAC,从而导致100倍的加速。
报告题目六:解码器输入增强的非自回归神经机器翻译算法的研究
报告人:李锋
报告简介:借鉴迭代提纯式非自回归机器翻译模型的多解码器思想,但是不使用多个解码器,而是采用多编码器结构,并且不进行多次迭代,而是一次输出全部结果。采用多编码器能尽可能地加强模型对于输入信息的表征,使编码器的嵌入携带更多的语义信息和句法信息。在本文中,将采用双编码器,第一个编码器对源端语言进行嵌入,同时外部句法分析工具对句子的句法结构进行解析,二者输出的结果将作为第二个编码器的输入,在第二个编码器中进行整合嵌入,第二个编码器的输出将作为解码器的最终输入。
报告题目七:基于Conformer的高效自动语音识别算法研究
报告人:范泽平
报告简介:Conformer作为自回归模型,在推理过程中是按照顺序进行推理的,即预测当前字符或字母时,需要预测其之前的标签,当预测语音过长时,必然会占用更多的计算资源。有关研究人员提出下采样来减少计算资源的占用,并增加解码速度,然而采用下采样和速度的加快会带来识别精度的损失。针对Conformer在语音识别任务推理阶段中的问题,对模型的结构进行研究和改进,在速度和准确率之间进行权衡,使得模型在解码时速度提升的情况下保证一定的识别准确度。
报告题目八:基于机器学习的矢状骨面型分类模型研究
报告人:梁柏晖
报告简介:错合畸形准确的诊断具有重要的临床意义。作为诊断过程的基础部分,矢状骨面型分类是正畸医生预估颌骨生长发育方向、考量正畸诊断及制定治疗计划的重要因素。目前基于神经网络的矢状骨面型诊断模型还没有专门应用于儿童错合畸形患者,然而儿童患者正处在生长发育的快速期,因而骨型变异较快,诊断难度高,且相邻样本间存在无法避免的标签混淆问题。针对上述问题,提出了一种基于标签分布学习的方法,将混淆样本的独热编码标签改为软标签,在多个CNN模型上进行了实验,结果表明所提方法具有较高的准确率和鲁棒性。
场次二、
时间:2023年12月20日(星期三)15:00-18:00
地点:太阳成集团tyc122cc408教室
报告题目一:基于多参数MRI放射组学模型的开发和验证
报告人:张珊
报告简介:在医学领域,通过对高风险组织病理特征的分层,医生可以将患者分为不同的风险层次,例如低风险、中风险和高风险。这种分层有助于确定患者的疾病严重程度和预后,并制定相应的治疗方案。术前磁共振成像(MRI)具有识别高风险表型的潜力。在MRI上进行肿瘤分割后提取三维放射组学特征。在训练集中选择预测特征,对每个端点使用随机森林(RF)模型,并将训练好的RF模型应用于外部测试集。本报告介绍了此类基于多参数MRI放射组学模型的开发和验证。
报告题目二:大规模卷积神经网络的双层并行训练体系
报告人:李名冉
报告简介:卷积神经网络(Convolutional Neural Networks, CNN)得益于大规模的训练数据集和复杂的训练网络,以其较高的准确率被广泛应用于各个领域。然而,CNN的训练过程非常耗时,需要大量的训练样本和迭代运算才能获得高质量的权重参数。针对大规模CNN训练耗时的问题,介绍一种分布式计算环境下的双层并行训练(BPT-CNN)架构。BPT-CNN在外层并行性中解决了分布式和并行计算的关键问题,包括数据通信、同步和工作负载平衡。在内层并行化方面,加快了每台计算机上每个CNN子网络的训练过程,其中卷积层的计算步骤和局部权值训练的计算步骤基于任务并行化进行并行化。在保持准确率的前提下,可以有效地提高了CNN的训练性能。
报告题目三:边缘设备上的声学网络综合解决方案
报告人:刘荣启
报告简介:人们正在投入大量精力,为资源极其有限(内存、速度和缺乏GPU支持)的边缘设备带来最先进的分类和识别模型。在这里,我们展示了第一个用于声学识别的深度网络,该网络体积小、灵活且易于压缩,达到了原始音频分类的最先进的性能。我们提出了一个通用的综合解决方案,可以自动转换大型深度卷积网络,通过压缩和量化得到可以在资源匮乏的边缘设备上运行的网络,并且可以将模型实际部署运行。
报告题目四:机器同声传译算法研究
报告人:黄敏
报告简介:自然语言处理的任务是实现人机通信,其中机器翻译为自然语言处理的一个重要研究方向。机器翻译研究在非人工干预下,将源语言转换为与之同义的目标语言。神经机器翻译( neural machine translation,NMT)是机器翻译中的一种全新模型,利用神经网络实现源语言到目标语言的转换,它在近几年取得了丰富的研究成果,在许多翻译指标上超过了传统的机器翻译模型。机器同声传译是神经机器翻译的研究方向之一。在机器同声传译中,一般有两个要求,分别是译文质量和时延,但译文质量和延迟一般是互斥的。在翻译前等待的时间越长,得到的源端信息越完整,翻译质量通常就越高,但延迟也就越高。因此,模型需要在翻译质量和时间延迟上进行权衡,找出质量和延迟之间的平衡点。
报告题目五:探索Co-DETR模型在医学图像检测中的应用价值
报告人:段太森
报告简介:Co-DETR模型作为一种基于Transformer的目标检测模型,其在处理医学图像时表现出了独特的优势。该模型通过引入多辅助头机制,能够有效提取医学图像中的微小病变,比传统的目标检测算法更加精确。研究集中于评估Co-DETR模型在不同类型的医学图像,例如X光、CT和MRI中的表现,并与现有的模型进行比较。研究显示,Co-DETR在检测细小肿瘤、微血管异常等方面具有更高的敏感性和特异性。本研究的目标是将Co-DETR模型的检测能力推向极致,并探究其在临床应用中的潜力。首先,在公开的医学图像数据集上训练Co-DETR模型,以学习不同病变的特征表示。然后,构建了一个包含多种病理情况的验证集,来评估模型的实际应用效果。通过与医生的诊断结果相比较,评估模型的准确性和可靠性。同时,还研究了模型对于不同大小病变的敏感性,以及它在高噪音背景下的表现。Co-DETR模型在大多数情况下均优于传统的目标检测模型。尤其在小病变的检测上,Co-DETR模型减少了漏检的情况,并能够在复杂的背景中准确区分病变和正常组织。研究还发现,Co-DETR模型对于边缘不清的病变具有较好的辨识能力,这对于早期诊断某些类型的癌症尤为重要。Co-DETR模型的引入,为医学图像的目标检测领域带来了新的视角和方法。未来的工作将集中在优化模型结构,提高其在多模态医学图像处理中的泛化能力。
报告题目六:基于HyperMorph的图像配准的平摊超参数学习研究
报告人:申少飞
报告简介:近年来,图像配准任务在医疗方面的需求日益增大,VoxelMorph模型渐渐地不能满足日常需求,故在此基础上对HyperMorph进行研究,这是一种基于学习的可变形图像配准策略,它消除了在训练期间调整重要配准超参数的需要。经典的配准方法解决了一个优化问题,即找到两幅图像之间的一组空间对应关系,而基于学习的方法利用训练数据集来学习生成这些对应关系的函数。这两种技术的结果质量在很大程度上取决于超参数的选择。不幸的是,超参数调优非常耗时,并且通常涉及使用各种超参数值训练许多独立的模型,这可能导致次优结果。为了解决这种低效率问题,我们引入了用于图像配准的平摊超参数学习,这是一种学习超参数对变形场影响的新策略。该框架学习一个超网络,该超网络接受一个输入超参数,并调制一个配准网络以产生该超参数值的最优变形场。
报告题目七:壮语语音文字化及壮汉翻译系统的研究
报告人:李锋
报告简介:和其它民族一样,壮族自古有自己的语言,主要流通于广西的壮族聚居地区。壮语与泰语、贵州的布依语较相似,属于壮侗语族。国际上将其视为一个独立语系,但在中国被视为「汉藏语系」的一部分。广西各地的语言有自己的特点,主要分为南北两大方言,而南北方言在语音上有较大的不同,较难用壮语 相互 沟通。但是,各地壮语在语法上是一致的。壮族
本没有自己通用的民族文字。壮族人曾经依据汉字的结构和语音来创造本民族的文字 但是由于各地语音的不同方块壮字并没有普及。新中国成立后,曾创建拉丁拼音壮文。但是,习惯了使用方块汉字的绝大多数壮族人民不适应这种形式的壮文,因而并没有得到推广。目前这种壮字一般用于民族语音语言研究和民族文学记录,使用中还是以汉字为主。早期的壮语记音汉字是方块壮字的前身,始于汉代。但方块壮字以汉字的读音去记录壮语词的读音,有失准确性因为汉语语音和壮语语音是两个不同的系统,两者有很大的差别,所以用前者去记录后者,必然有误差,而这种误 差则使文字失掉科学性。由于方块壮字上述的缺点,使它只在民间小范围地流行,未成为壮族通用的文字。如何使用现代的科学技术手段将壮语的语音转换成为大家比较熟知的普通话汉字形式显得尤为重要。
报告题目八:深度学习算法构建在线壮语语音识别翻译云平台
报告人:范泽平
报告简介:由于壮族完全依赖口头交流,文化交流和传播遇到了障碍。需要一个在线云平台来加强语言交流。通过采集标准壮族语音,建立了一个壮族标注语料库,其次,采用额外的下采样模块实现了SAformerNet识别网络,这是一个更高效的基于transformer的自动语音识别网络。然后,通过微调BART模型和语料库过滤策略,构建了神经机器翻译模型。最后,为了提高网络对现实需求的响应能力,采用边缘计算技术缓解网络带宽压力,提出一种基于FPGA加速的边缘计算私有云系统。
报告题目九:基于影像组学的口腔颌面部骨组织病变影像学智能诊断模型研究
报告人:梁柏晖
报告简介:口腔颌面部疾病已经成为继心血管疾病,糖尿病等全身疾病之后威胁人类健康的重大非传染性疾病之一,如何解决颌骨组织病变早期诊断是目前临床待解决的难点。本研究首先根据纳入标准,建立口腔颌面部骨组织CBCT图像数据集,数据集的标注由两位具有10年临床工作经验的口腔科医师进行。其次,使用预训练的YOLOV8模型对ROI进行裁剪,然后根据提取得到病灶区域的影像组学特征,然后进行特征选择,选取有主要代表性的影像组学特征作为图卷积神经网络(GCN)的输入,输出分类诊断的结果。
报告题目十:基于 Swin-Transformer 的颈动脉超声图像斑块分割
报告人:徐峥嵘
报告简介:评估颈动脉超声图像斑块需要大量且经验丰富的临床医生,并且超声图像具有边界模糊、噪声干扰强等特 性,使得评估斑块耗时费力。因此,需要一种全自动的颈动脉斑块分割方法来解决人力稀缺的问题。文中提出了 一种基于 Swin-Transformer(Shifted-Windows Transformer)模块的深度神经网络模型用于自动分割颈动脉斑块。在 U-Net 架构的基础上,编码部分使用3个用于图像下采样的卷积块以获得不同分辨率大小的特征图像,再添加6对两两连续的 Swin-Transformer 模块用于更细化的特征提取。解码部分将 Swin-Transformer 模块输出的细化特征 逐级上采样,分别与编码部分各级分辨率的特征图进行跳跃连接。文中基于同仁医院数据集进行对比实验,结果 显示文中所提深度神经网络模型 Dice 指标达到 0.8142,高于其他的对比网络,证明了文中提出的模型可以有效 地提取颈动脉超声图像斑块的特征,实现自动化、高精度的斑块分割。