应用场景
1. 任何书写作品后想要评估作品美观程度的场景;
2. 任何想要练习书法,但是缺少专业老师指导的场景;
3. 任何想要改善当前的书写水准,却难以长期坚持临摹练习的场景。
目标人群
1. 任何对改善书写水平、迅速发现自身书写问题有需求的学生党、上班族;
2. 想要学习书法,但身边缺乏专人指导的书法爱好者。
3.1.4 关键点
说明本软件需求规格说明书中的关键点(例如:关键功能、关键算法和所涉及的关键技术
等)。
技术问题
1. 手写字检测时的噪声问题:在使用目标检测模型前先使用 CycleGAN 去除大部分的
图像噪声,之后使用调优后的目标检测模型检测单个手写字。
2. 用户书写的评价问题:书法是一门即包含艺术性也需兼顾结构化的领域,因此书法
的评价上不可使用单一的方式评价。本项目通过检测出的汉字骨架,结合模版汉字的骨架,
从是否缺少笔画、各笔画的差异、结构的问题三个方面进行评分。
3. 用户书写纠正:改模块分为汉字骨架识别与汉字字形纠正两部分,汉字骨架识别通
过识别出汉字的笔画信息提供给汉字字形纠正部分作为基础信息。汉字纠正部分根据识别
出的汉字骨架,通过计算用户写的汉字与模版汉字的各个笔画的区别,判断各个笔画的书
写情况。之后通过数据库中预先建模好的汉字的结构信息,匹配该汉字存在的书写缺陷及
指导建议反馈给用户。
项目数据集获取问题
目前已经具备的开放数据集:
1) 中科大手写汉字数据集 CASIA-HWDB
2) 哈工大手写识别数据集 HIT-OR3C
3) 北邮脱机手写汉字数据集 HCL2000
除此之外,项目团队在上述数据集基础上自行标注了小规模 Peanuts- HWDB 数据集,用于
项目中文本评分和字态纠正神经网络的训练测试;目前已经使用其中大约 5%的可用数据
训练模型 demo,已证实可行。
3.1.5 约束条件
列出进行本系统开发工作的约束条件。例如:经费限制、开发期限和所采用的方法与技术,
以及政治、社会、文化、法律等。
文档约束:使�⻜书�档进�团队协作,对于不同版本的�档,�动建�多�件标号来进
�版本控
制�不是使�⻜书本�的版本控制。
开发约束:在 Github 上进�多�协作,每个代码提交要有测试、code review。
代码约束:尽量思考优雅的代码实现,采用合适的设计模式,提升代码可重用性,降低代码耦
合度.
常量约束:对于系统通�常量应该有规定的�档来承载、记录。
文化约束: 对于某些特殊字体,应当对其书写方式表达一定的尊重;并严格按照中华人民共
和国常用 3500 字为基准构造数据集.