深度学习驱动的助盲图像描述算法：基于CNN与LSTM的研究

需积分: 13 9 浏览量更新于2024-09-07 1 收藏 1.77MB PDF 举报

本篇论文深入探讨了在助盲场景下图像描述算法的研究，由作者李振宇、李晗曦和张明辉共同完成，发表在大连东北软信息大学软件工程系，中国大连，邮编116023。该研究主要聚焦于利用深度学习技术，特别是卷积神经网络（Convolutional Neural Networks, CNN）来提取图像特征，并将其转化为可理解的文字描述。CNN被用于从图片中抓取关键信息，这些特征随后成为循环神经网络（Recurrent Neural Networks, RNN）或更先进的长短期记忆网络（Long-Short Term Memory, LSTM）的输入，生成关于图像的描述性文本。论文的核心创新在于，通过LSTM替代传统的RNN，旨在提高图像描述生成算法的质量并缩短实验时间。这表明作者认识到在处理序列数据时，LSTM的长程依赖性和记忆功能能够更好地捕捉图像内容的复杂性。此外，值得注意的是，该研究并未完全依赖GPU进行训练，而是尝试了在CPU上进行神经网络的训练，这可能涉及到对计算效率和资源使用的优化策略。文章的实验部分可能包括了多种图像数据集的评估，以及对比不同模型在图像描述准确度、流畅度和可理解性方面的性能。此外，为了实现盲人辅助，文中还提到了将生成的图像描述通过语音技术呈现，这展示了研究者对无障碍技术的关注和应用。最后，该研究引用了TP391号课题，这可能是项目编号或者文献参考，表明这项工作可能是在特定研究计划或项目的支持下进行的。整体来看，这篇论文不仅探讨了计算机视觉中的一个重要问题，还展示了人工智能在提升社会无障碍技术中的潜力。

weixin_39841882

粉丝: 445
资源: 1万+

深度学习驱动的助盲图像描述算法：基于CNN与LSTM的研究

论文研究-基于Retinex理论的图像增强算法.pdf

论文研究-基于3D-DCT的自适应彩色图像压缩算法 .pdf

基于DFL-CNN实现的开源图像分类算法

图像缩放算法的研究及其在fpga上的实现.pdf

计算机的毕业论文有哪些，各是什么意思

《deep koalarization:使用 cnn 和 inception-resnet-v2 进行图像着色》

如何应用多尺度有理分形理论在图像插值中实现细节增强？请结合《基于多尺度有理分形的图像插值算法研究》进行说明。

基于深度学习的图像语义分割算法研究论

360环视摄像头鱼眼四摄像头拼接算法.pdf

红外与可见光图像融合数据集

最新资源