深度学习驱动的助盲图像描述算法:基于CNN与LSTM的研究

需积分: 13 0 下载量 9 浏览量 更新于2024-09-07 1 收藏 1.77MB PDF 举报
本篇论文深入探讨了在助盲场景下图像描述算法的研究,由作者李振宇、李晗曦和张明辉共同完成,发表在大连东北软信息大学软件工程系,中国大连,邮编116023。该研究主要聚焦于利用深度学习技术,特别是卷积神经网络(Convolutional Neural Networks, CNN)来提取图像特征,并将其转化为可理解的文字描述。CNN被用于从图片中抓取关键信息,这些特征随后成为循环神经网络(Recurrent Neural Networks, RNN)或更先进的长短期记忆网络(Long-Short Term Memory, LSTM)的输入,生成关于图像的描述性文本。 论文的核心创新在于,通过LSTM替代传统的RNN,旨在提高图像描述生成算法的质量并缩短实验时间。这表明作者认识到在处理序列数据时,LSTM的长程依赖性和记忆功能能够更好地捕捉图像内容的复杂性。此外,值得注意的是,该研究并未完全依赖GPU进行训练,而是尝试了在CPU上进行神经网络的训练,这可能涉及到对计算效率和资源使用的优化策略。 文章的实验部分可能包括了多种图像数据集的评估,以及对比不同模型在图像描述准确度、流畅度和可理解性方面的性能。此外,为了实现盲人辅助,文中还提到了将生成的图像描述通过语音技术呈现,这展示了研究者对无障碍技术的关注和应用。 最后,该研究引用了TP391号课题,这可能是项目编号或者文献参考,表明这项工作可能是在特定研究计划或项目的支持下进行的。整体来看,这篇论文不仅探讨了计算机视觉中的一个重要问题,还展示了人工智能在提升社会无障碍技术中的潜力。