没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报一种基于孟加拉文海鲁拉村计算机科学与工程系,Shahjalal科技大学,Sylhet 3114,Bangladesh阿提奇莱因福奥文章历史记录:2017年10月30日收到2018年1月22日修订2018年1月23日接受在线提供2018年关键词:隐写术音译语音键盘容量隐写分析SVMA B S T R A C T在本文中,我们提出了一个简单而新颖的方法,通过音译隐写术。语音键盘布局对于具有非罗马字母表的书写语言非常流行。孟加拉语,一个语言的2.3亿人,是一个公平的例子,在这项工作中,我们利用孟加拉数字文本的数据隐藏所提出的技术。对于孟加拉字母表中的几个字符,有多个选项可以使用拼音键盘布局以其等效的罗马形式表示字符所提出的方法的主要思想是利用孟加拉语语音键盘布局的这一特殊功能,以位的形式隐藏秘密信息。这些选项中的一个可用于表示文档中的位“0”,另一个选项可表示文档中的位“1”,而不会有任何中间用户理解的风险。实验结果表明,该方法是一种非常成功的隐写技术。隐写分析结果表明,该方法的容量为1.2%,这是足够的文本隐写系统具有很低的机器检测的风险。这种方法可以很容易地适应和应用于任何其他语言的非罗马字母。©2018作者制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍隐写术可以被定义为将秘密数据隐藏在覆盖介质中,使得其他个体无法意识到秘密数据的存在的方法。换句话说,隐写术是隐藏信息的科学。它经常与密码学混淆,因为两者都用于保护机密信息。两者之间的区别在于处理后的输出的外观;隐写操作的输出不明显可见,但在密码学中,输出被扭曲,以便引起注意。如果一个邪恶的政府或互联网服务提供商(ISP)正在寻找加密的消息,他们可以很容易地找到它们。密码学的目标是使第三方无法读取数据,而隐写术的目标是向第三方隐藏数据隐写分析是检测隐写术存在的过程。隐写术中的关键术语是:明文是需要通信的原始秘密消息;覆盖文本是用作明文容器的较大且无害的数据;隐写文本是在将明文嵌入到覆盖文本之后生成的数据。电子邮件地址:khairullah-cse@sust.edu沙特国王大学负责同行审查隐写术是一种将信息隐藏在看似无害的载体中而不引起对隐藏信息传输的怀疑的艺术。另一方面,发现的艺术并且呈现这种隐藏信息的无害隐蔽消息被称为隐写分析。隐写分析的主要目标是识别隐藏消息的存在,然后识别热点以寻找隐藏信息(Johnson等人, 2001年)。隐写术方法的基本特征是高嵌入容量、不可见性或感知透明性、不可检测性、鲁棒性(即算法保留嵌入封面中的数据的能力)、防篡改性(防止修改或删除或嵌入不同消息的能力)以及原始封面的独立性(Salomon,2003)。当然,这些要求中有一些是冲突的,因此任何特定的算法只能满足其中的一个或两个。更具体地说,嵌入容量,鲁棒性和不可检测性是相互冲突的,不能全部由一个算法实现。图像、音频和视频是隐写术常用的载体另一方面,文本是理想的隐写术,由于其无处不在和较小的大小相比,这些媒体。然而,文本通信渠道并不一定提供足够的冗余隐蔽通信。孟加拉语是孟加拉国、印度西孟加拉邦以及印度特里普拉邦和阿萨姆邦部分地区的母语它是用孟加拉文书写的孟加拉语拥有近2.3亿的总使用者,https://doi.org/10.1016/j.jksuci.2018.01.0081319-1578/©2018作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comM. Khairullah/沙特国王大学学报349作为世界上使用人数第六多的语言。孟加拉语在Unicode中的位置是0980 09FF。键盘布局是指计算机、打字机或其他印刷键盘的键、图例或键意关联的任何特定的机械、视觉或功能安排。语音键盘布局,或简称为语音键盘,是一种设置,其中一种语言的字母对应于另一种语言的键盘布局中的键它假设语言中的字母之间一一对应,通常基于它们的声音。这个过程通常称为音译,转换后的文本称为音译文本。音译应该是可逆的,即。能够自动和明确地重建原始。由于世界上的语言都是以罗马字母为主,最常用的音译是罗马。像其他非罗马语言一样,孟加拉语输入法可以分为固定布局和语音布局。除了许多在线孟加拉语语音键盘工具,还有一些非常桌面应用程序,如Avro,Onkur,Ekushey Phonetic,Google的Ben-Ben音译,Microsoft的孟加拉语音译由于最近大众通过智能手机使用社交网络的人数激增,Ridmik和Mayabi等一些移动应用程序获得了巨大的人气。表1显示了孟加拉语字母列表,以及Avro语音键盘使用的相应罗马形式(OmicronLab,2017)。另外,使用百分比的统计(Sattar等人,(2004年)孟加拉语字母。从表1中,我们立即观察到一些孟加拉字符可以用两种方式表示。其中一个选项可用于表示二进制位0,另一个选项可表示位1。例如,可以将k表示为分别表示比特0和1的“k”或“q”。或者,“k”或“q”可以分别表示比特1和0。但是,如果我们考虑到孟加拉语字符的罗马表示不区分大小写,表1可以扩展为包括其他字符的许多可能选项。表2显示了这种扩展。在引入Unicode以及一些拼音打字软件后,孟加拉语计算达到了顶峰。这反映在因特网上孟加拉文网页的数量上。同样,在办公室和组织中使用的孟加拉文文件比以往任何时候都多。大量的孟加拉文文档可以很容易地用作所提出的隐写系统的隐蔽媒体。请注意,除了在正式文档和报纸中使用的标准孟加拉语文本之外,音译/罗马化孟加拉语文本在使用即时信使和社交网络的个人和非正式通信中非常流行(Hassan等人, 2016;Khan,2014)。除此之外,使用区域语言的文本隐写还有其他一些好处。要怀疑隐藏的信息,一个人必须是这种语言的母语或专业用户,并需要孟加拉语Unicode的专业知识。因此,所提出的技术是一种更安全的方法,可以通过国际网络(如互联网)进行秘密数据通信。值得一提的是,整个编码和解码过程是由两个通信端的软件系统完成的。因此,除了由底层通信系统和硬件引入的比特错误之外,不存在由于隐写过程而引入任何种类的比特错误的范围。然而,一个非故意的用户有可能通过窃听和黑客攻击来随机改变包含秘密比特的隐写文本的一些特殊字符,从而破坏隐藏的秘密信息。结合简单而传统的错误检测方法,如校验和,可以以高概率确保解码的秘密数据的正确性一般这种与隐写术相比,该问题与网络安全性更相关,并且超出了当前讨论的范围。一个额外的和有趣的点是,孟加拉语文本的罗马表示占用较少的磁盘空间,因为ASCII罗马字符的大小是1字节,而孟加拉语Unicode字符需要1-4字节,如Unicode的UTF-8标准所规定的。因此,使用概率论,压缩比是(4 + 3+2 + 1)/4 = 2.5,并且使用200个大小在8千字节到100千字节范围内的孟加拉语文本,我们发现平均减少是2.41。例如,隐写文本的大小附录中的文本大小为3.4千字节,而源孟加拉语文本大小为8千字节。简化这一点,我们可以说,至少有一半的所需的内存或磁盘空间可以节省通过使用孟加拉语文本的音译,而不是原来的基于Unicode的孟加拉语文本。考虑到这一点,我们假设,在后面的讨论中,所产生的隐写文本的大小是原始孟加拉语文本的一半。支持向量机(SVM)是一种监督学习方法,主要用于判别分类(Cortes and Vapnik,1995)。它从给定的标记训练数据中学习,并输出一个对新样本进行分类的最佳超平面。然而,SVM模型的评价和优化是一个具有挑战性的问题。分类准确度、检测精度和概率、混淆矩阵等用于SVM评估,其受不平衡样本分布或误分类成本的影响很大(Tian et al.,2011年)。受试者操作特征(ROC)曲线是克服上述问题的替代分类性能度量。在二维图中,它在可能的阈值范围内绘制了y轴上的真阳性数量与x轴上的假阳性数量。曲线下面积(AUC)是一种定量表示,等于分类器将随机选择的“真”实例排名高于随机选择的“假”实例的概率准确率是正确预测总数与数据点总数的比例,是SVM二元分类器的一种替代和有效的性能指标。2. 相关工作文本隐写技术大致可以分为三种类型:基于格式的、随机统计生成的和语言学方法。基于文本的方法使用并更改封面文本的格式以隐藏数据。它们不会改变任何单词或句子,因此不会损害封面文本的“价值”。随机采用统计生成方法,根据语言的统计特性自动生成封面文本。这些方法使用示例语法以特定的自然语言生成封面文本。语言学方法考虑文本的语言特性来修改文本,该方法利用消息的语言结构作为隐藏信息的地方。以下是已进行的一些主要工程的清单隐藏信息或文本隐写术适当可用的隐写分析方法也包括在内。2.1. 在文本中使用特定字符这是一种分析性的、复杂的和耗时的方法。从某些单词中选择一些特定的字符(Morkel例如,2005年)。例如,每个段落的第一个单词以这样的方式被选择,即通过并排放置所选择的单词的最后字符来形成秘密信息。Sui等人讨论了一种基于词首字母分布的检测方法。( 2006年)。350M. Khairullah/沙特国王大学学报表1孟加拉文字符和罗马文对应形式和替代形式以及使用统计的列表。অআইঈউঊঋএঐওঔকখগঘঙচছজঝঞটঠডঢণতথদধনপফবভমযরলশষ2.2. 移位方法在印刷文档中,文本的行垂直移动到一定程度以隐藏秘密数据(Low等人,1995; Alattar andAlattar,2004)。 在类似的方法中,通过水平移动单词和改变单词之间的距离来将信息隐藏在文本中(Low等人,1995; Kim等人,2003年)。对于单词之间的距离变化的文本,此方法是可接受的。这种方法可以识别较少,因为改变单词之间的距离来填充一行是很常见的。如果重新输入文本Li等人讨论了用于字移位方法的隐写分析。( 2008年)。2.3. 利用标点符号适当放置一些标点符号,如句号(。)和逗号(,)可以隐藏文本文件中的信息(Morkel等人,2005年)。这种方法需要确定放置标点符号的适当位置。2.4. 使用替代词通过使用某些词的同义词,可以在文本中隐藏信息(Alattar和Alattar,2004; Niimi等人,2003年)。这种方法的一个主要优点是在重新键入或使用OCR程序的情况下保护信息。然而,这种方法有时会改变文本的含义。类似地,通过使用缩写,可以隐藏一些信息,尽管容量非常小(Morkel等人,2005年)。例如,在几个字节的文件中只能隐藏几个比特。统计方法(Yu等人,2009)可以以非常高的成功率检测这种类型的隐写术。2.5. 特征编码方法文本的某些特征可以被改变以隐藏某些信息(Rabah,2004)。例如,一些字符的结尾部分,如h,d,b等,被拉长或缩短一点,从而隐藏文本中的信息重新键入文本或使用OCR程序破坏隐藏的信息。此外,可以通过替换字母点和变音符号来隐藏数据阿拉伯语、波斯语和乌尔都语文 本 用 于 该 技 术 ( Shirali-Shahreza 和 Shirali-Shahreza ,2006;Memon等人,2005; Aabed等人,2007; Gutub等人,2008年)。这些语言的特点之一是字母中有大量的点。单点字母用于通过将点的位置相对于文本中的标准点位置在垂直方向上稍微高一点来隐藏信息同样的技术被应用于元音符号来隐藏信息。2.6. 空白策略我们可以在文本中添加一些额外的空格(Morkel等人,2005;Huang and Yan,2001)来隐藏一些信息。这些空白可以放在每行的末尾,每个段落的末尾或单词之间。但是,某些文本编辑器程序会自动删除多余的空白,从而破坏隐藏的信息。在Rose等人(2014)中,一种文本法M. Khairullah/沙特国王大学学报351表2孟加拉文字符与等效罗马文表示的扩展列表অআইঈউঊঋএঐওঔকখগঘঙচ2.7. 通过扩展信该算法将文本隐写应用于阿拉伯文本Gutub和Fattani(2007)。阿拉伯语有一个特殊的扩展字符,可以任意插入字符之间进行格式化。2.8. 通过Office套件文档在Khairullah(2009)提出的技术中,三个字节的秘密信息可以隐藏为每个invis的RGB颜色值Word文档中的空格、制表符和换行符等不可见的字符。Mahato等人(2017)提出的一种新技术利用Microsoft Word的跟踪更改功能来隐藏秘密消息。在Kumar等人(2016)中,通过改变空白字符的字体类型和字体样式,在不引起用户怀疑的情况下,将秘密数据位隐藏在Microsoft Word文档中。Bin等人(2011年)、Tiwari和Sahoo(2011年)讨论了MS Excel文档中的各种隐写技术及其相关益处。例如,单元格中的文本方向可以根据要隐藏的位稍微旋转。352M. Khairullah/沙特国王大学学报2.9. 利用十进制数中的位值在这种方法中,数据隐藏在板球比赛记分卡中,通过在数字之前添加 一 个 无 意 义 的 零 来 表 示 位 1 , 并 保 持 数 字 不 变 , 以 表 示 位 0(Khairullah,2011)。财务文件,例如资产负债表,也可以以类似的方式用于隐写术(Khairullah,2014)。2.10. 通过计算机技术一些标记语言特性可以用来隐藏信息(Bennett,2004)。例如,HTML标签的大小写不敏感性可以被利用。例如,标签BR>也可以用作Br>和br>。因此,人们可以通过改变文档标签中字母的大小写来在HTML文档中进行文本隐写。在某些情况下,还使用标签的位置。例如 U>/B>/U>可以表示比特0,并且替代的U> B>/B>可以表示位1。信息可以通过比较标签位置来提取。Huang等人( 2009 )中提 出了相 应的检 测方法 。Kabetta和Dwiandiyanta(2011)讨论了基于CSS(级联样式表)的隐写术。这种技术使用RSA公钥密码系统加密消息,然后通过在每个CSS样式属性上使用End ofLine将密文嵌入到级联样式表(CSS)中,正好在一个字符串之后。一个空格后的一个空格嵌入位0,一个制表符后的一个制表符嵌入位1。Bassil(2012)提出的方法将输入文本消息编码到由SELECT查询组成的SQL载体中。实际上,输出SQL载体是使用实现为哈希表的单词字典从输入消息中动态生成的,并被组织成65个类别,每个类别表示语言中的特定字符Shi等人从信息理论和实践的角度出发,提出了一种基于网页搜索的文本隐写框架。(2016年)。2.11. 压缩算法方法在Satir和Isik(2012)中,LZW压缩算法用于隐藏秘密信息。此方法将秘密数据隐藏到'Cc'字段中列出的电子邮件地址中。对于秘密消息中的每个字符,计算文本中相同字符的相对“距离”,从而导出秘密消息的“距离向量”,并且为文本库的每个文本生成“距离矩阵”。最终从文本库中选择给出距离值的最高可重复性的最佳文本作为覆盖文本以及隐写密钥。LZW代码并且将所得比特级联并划分成12比特的块,其中划分为9比特和3比特。这些分区用于从一些可用选项中选择用户名和域名,以形成有效的电子邮件地址。虽然算法复杂,由于大量的组件,容量高达7%。基于霍夫曼压缩的类似方法在Satir和Isik(2014),Malik等人(2017),Rahman等人(2017)中提出。Malik等人(2017)提出了一种简化的扩展,直接将LZW算法应用于秘密消息,并将获得的比特流隐藏在电子邮件地址和电子邮件的消息中,将容量提高了14%。颜色是用来隐藏电子邮件文本中的秘密位后,一些颜色编码,这是一个主要的缺点。2.12. 使用数学工具列表的种类繁多,甚至包括一些数学定理和公式,以隐藏文本中的信息基于PDF文件的隐写术在Ekodeck和Ndoundam(2016)中提出,其应用中国剩余定理来生成隐写文本。非中断空格字符(即ASCII码A0)对普通PDF阅读器不可见,用于在PDF文件中隐藏字间或字符间位置的秘密数据。结果PDF文件大小增加的缺点通过中国剩余定理得到缓解,这也增加了一些随机性该定理的基本思想在方法中引入此概念以减少要插入的A0的数量。作者在Mandal et al. (2014)通过有向加权图覆盖介质提出了一种新的文本隐写将秘密数据中的每个字符转换为二维坐标值,并在平面图中表示为该坐标处的节点通过在字符对之间使用较小的边权值来保证秘密消息中的字符序列最近,提出了一种基 于 不 同 阶 数 的 马 尔 可 夫 链 的 方 法 ( Shniperov 和 Nikitina ,2016)。该方法的基本思想是在马尔可夫链的基础上生成隐写文本,该马尔可夫链是用自然语言组成的文本模式预先构造的。生成的隐写文本通常反映一个共同的含义,同时它的每个句子将在句法和语法上相当可靠地重复文本模式的一些块声称的容量高达 9% 。Acharjee等人提出了一种新的基于密钥的文本隐写模型。(2016),其在封面的单词的开始和结束字母上使用XOR运算。基于该结果和要隐藏的比特,密钥被存储在密钥文件中,该密钥文件与封面文件一起被发送到接收器。2.13. 使用机器生成的中文文本Luo和Huang(2017)提出了一种新的文本隐写方法,该方法使用递归神经网络(RNN)编码器-解码器结构来生成某种类型的中国诗歌。该方法保证了高容量以及更好的诗歌质量。 一个类似的工作是刘等。(2016),其产生了在秘密数据隐藏中使用的宋词。其基本思想是生成大量的冗余,从而为隐藏大量数据提供足够的空间,例如容量两种方法的阳性率分别为35%和27%。Qi和Guo(2015)提出的方法通过自然语言处理技术从大量目标语料库中生成文本载体此外,建立正确单词和错误单词的知识库,并且在对文本载体进行分词之后,通过用错误单词替换候选正确单词来嵌入秘密消息。利用中文文本自动校对技术定位错误词对和正确词对,提取接收机中嵌入的秘密信息。3. 孟加拉语隐写术上述大多数技术都适用于本-维基文本也连同其固有的优点和缺点。第2.1,2.2,2.3,2.4,2.5,2.6,2.7,2.8,2.9节中的方法可以很容易地实现孟加拉语的隐写术,只需稍加修改或根本不修改。实现了一种基于特征编码的方法,通过将特定的“matra”向左移动,通过分别移动一些字符的点和通过移动字符“ref”来隐藏文本中的秘密消息Changder等人提出了一种新的语言学方法,通过考虑语言的灵活语法结构,通过印度语言(如Ben-Bibi)进行隐写。(2010年)。在这项工作中,M. Khairullah/沙特国王大学学报353二进制流被编码为某个词性,并创建以属于映射的词性的合适单词开始的有意义的句子。已经在Ben语言的帮助下提出了基于量子方法的文本隐写技术(Banerjee等人, 2012年)。该方法使用孟加拉语中的两个特殊字符和两个特殊字符(开、闭),并采用量子门真值表的映射技术考虑到孟加拉字母表的结构,已经提出了另一种文本隐写技术,其通过改变孟加拉字母表字母的模式来隐藏秘密消息(Bhattacharyya等人, 2011年)。考虑到包括孟加拉语在内的印度语言的更多字符和灵活语法结构的可用性,另一种隐写方法通过在找到两个二进制串的最长公共子序列之后创建有意义的句子来隐藏文本中的秘密消息,其中一个二进制串是秘密消息,另一个可以是任何二进制串(Changder等人, 2010年)。Khairullah(2018)提出的方法利用Unicode中某些孟加拉字符的复合形式来隐藏密码的位。Unicode中定义的这些字符也有复合形式,这意味着可以使用Unicode中的两个不同代码来编写。换句话说,这些字符有一个单一的形式,以及一个复合形式。例如,孟加拉语变音符号可以使用Unicode 09CB或Unicode 09C7和09BE的组合来编写,即. 这两种形式中的一种可以用来表示位0,另一种形式可以表示位1。 在Xinmei et al.(2010),隐藏在中文文本中的秘密数据与其他语言一样,孟加拉语也有大量的同义词。花至少可以用4个孟加拉语单词表示:太阳可以被翻译成因此,基于同义词的孟加拉语文本隐写系统具有很高的容量。此外,由于继承了梵语的传统,该语言有大量的同义词。这些词(原始梵语)和(纯孟加拉语)代表月亮这个词。孟加拉语动词的Shadhu形式和Cholito形式是大量同义词的另一个来源,尽管这两种形式在同一文献或讲话中混合使用是非常不鼓励的。例如,和是两种形式,以第一人称表示吃的完成工作说孟加拉语的人在日常生活中,特别是在办公室环境中使用一些常用词组合的缩写形式。是 孟加拉语中常见缩写的几个例子。这表明基于缩写的孟加拉语文本隐写术也强壮.通过替换字符和变音符号和(例如在conjunctions中)我们可以实现一个功能强大的孟加拉语文本隐写系统。4. 所提出的技术基于第1节中的讨论,可以通过以下两种方式实现利用孟加拉语文本的音译的新颖文本隐写方法。4.1. 基于不同的罗马表示法隐藏二进制位的一种非常简单的方法是利用表1中的基本替代罗马形式。代码映射表可以表3孟加拉语字符列表,可以用不同的罗马字符书写ঈউকখফভশ将特殊孟加拉字符映射到所需的罗马表示。表3就是这样一个例子。注意,罗马表示可以被置换以表示不同的位。例如,在表3的第3行中,可以交换两个选项,例如 因此,该表可以以27或128种方式建造。例如,孟加拉文是表示为在音译文本中,表示位1的罗马字符为斜体,表示位0的字符为下划线,以便于读者理解。所提出的方法的容量是相当低的。根据表1中的使用统计,表3中的字符在孟加拉语文本中的使用率约为9%。因此,我们可以假设在每4000个字符中,我们可以隐藏360位。更准确地说,45字节的秘密信息可以隐藏在一个8千字节的文档中。平均而言,一份标准和平均的孟加拉语报纸文章4.2. 基于不区分4.2.1. 使用孟加拉语文本作为输入利用表2的大小写不敏感性,可以大大扩展数据隐藏方法的能力。表4中提供了一个例子,可以用237种方式构造。通知所有可用的孟加拉字符的罗马替代品都不是用作选项的可用数量是2的幂。例如,孟加拉文表示为为方便读者,音译罗马文本中的罗马字符根据以下位表示来格式化:位1斜体、位0下划线、位对10粗体以及位对00斜体和下划线一起。与使用不同罗马表示的方法的低容量相反,利用大小写不敏感的方法的容量高。根据表1,适用于多种罗马表示的孟加拉字符(见表4)在孟加拉语文本中使用了近63%。因此,具有4000个字符的8KB孟加拉文文档可以隐藏2520位(315字节)。请注意,此功能几乎是标准SMS长度限制(160字节)的两倍。这在上面的例子中可以清楚地观察到。同样数量的隐写文本现在可以隐藏18位,这对于基于不同罗马表示的方法4.2.2. 使用罗马表示作为输入通过对表4的仔细观察,我们发现来自罗马字母表的字符是的。对应的代码映射表可以以215或32,768种方式形成。由于编码和解码步骤将是字符和354M. Khairullah/沙特国王大学学报表4孟加拉文字符列表,可用于在语音键盘布局中使用替代形式来表示二进制位。位组合在括号中আঈউএকখগঘচছজঝঠঢথধপফবভমযলশষহঢ়য়就其特性而言,这种方法非常容易实现和理解。如果可用的输入文本已经被音译,这种方法特别有用例如,等效的音译文本gaiche akash这里,为了方便读者,字符隐藏位1用斜体表示,字符隐藏位0用下划线表示。请注意,现在每个字符最多隐藏一个位。例如,罗马字符“q”和“k”现在隐藏一位而不是两位,而“g”什么也表6总结了代表孟加拉语文本的罗马字符的使用统计数据。此统计数据来自表1中列出的孟加拉语字符的使用统计数据。每个罗马字符的使用百分比是通过将使用该字符的孟加拉字符的使用百分比相加来计算的。例如,“b”的使用率根据表6,这些罗马字符在孟加拉语文本的音译中使用了近60%。因此,在4000个字符中,2400位(300字节)可以隐藏在8 KB的孟加拉文文档中。同样,这种能力几乎是标准SMS长度限制的两倍。这里,相同数量的隐写文本现在可以隐藏15位,这对于先前的方法是18位,而对于基于不同罗马表示的方法仅是3位。由于这两种技术利用的情况不敏感(见第4.2节)有一个显着更高的容量,我们认为这两种方法在建议的隐写技术。由于这两种方法生成的隐写文本略有不同,我们提出将这两种方法结合到我们的隐写方法中,并根据输入文本的版本、发送方和接收方之间的协议或固定的协议动态选择使用的方法。让我们有一些秘密信息隐藏在文件中。我们必须将秘密信息转换为仅由0和1组成的等效秘密比特流。让隐写术所选择的方法是通过使用原始的孟加拉文。我们首先查找表4中包含的特殊字符(例如UnicodeU +0986)在文档中的出现。 由于这具有隐藏1位的能力,因此我们将比特流。如果位为1,我们将在输出文本中使用相应罗马字符的选项1(例如'a'),否则使用选项2(例如'A')。另一方面,如果找到的特殊字符具有更高的容量(例如,Uni-码U + 0995),则我们从比特流中取出多个比特,并且对于比特00使用选项1(例如,“k”),或者对于比特01使用选项2(例如,"K“),或者对于比特10使用选项3(例如,”q“),或者对于比特10使用选项2(例如,”k“)。4(例如,“Q”),用于位11。另一方面,如果所选择的隐写方法是通过使用音译文本,即罗马文本,则我们在表5中递增地找到任何特殊字符的存在。我们从比特流中取出下一个比特并根据所述特殊字符选择所述特殊字符的对应形式在钻头上。所选的表单被附加以输出隐写文本,并且继续搜索输入文本中的下一个特殊字符,并且重复所有其他步骤。在接收端,我们做相反的解码原始文本,当然,生成秘密消息位。让隐写术所选择的方法是通过使用原始的孟加拉文。我们在文档中查找表4中任何特殊字符(例如这有隐藏1位的能力,我们在输出文本中放置1位,如果字符是'a',则在输出位流中放置0位,如果字符是'A',则放置1位另一方面,如果找到的特殊字符具有更高的容量(例如“k "或”K“或”q“或”Q“),则代码映射中的相应字符被附加有输出文本(例如”k“),并且比特的容量量被放置在秘密比特流上(例如”k"为00,“K”为01,“q”为10,另一方面,如果所选择的隐写方法是通过使用音译文本,即罗马文本,则我们在表5中递增地找到任何特殊字符的存在。表5中的特殊字符的相应比特被附加有秘密比特流。然后继续搜索输入文本中的特殊字符,并重复所有其他步骤这些通过音译的字符交替很少被任何人类读者注意到和区分。任何非预期的用户都无法意识到并检测到文档中这些特殊字符的这种更改。在任何情况下,如果有人可以实现交替,则识别用于交替的位是1还是0并不简单,因为代码映射仅在通信步骤之前构建,并且对于每个特殊字符,对应的位以及输出字符的形式都发生变化M. Khairullah/沙特国王大学学报355隐藏文本中的角色。例如,在一个通信中的罗马表示中,(“A”,“a”)可以表示位(0,1),并且在下一个通信中,它们可以表示(1,0)。因此,秘密消息的提取对于非预期用户来说要困难得多。算法1和算法2总结了所提出的隐写技术的编码和解码方案。开发了一个Java应用程序,它可以在所提出的数据隐藏方案的编码器和解码器功能之间切换。用户需要在这两种方法之间进行选择,并且还需要从多个可能性中选择代码映射。在编码器中,一个秘密的消息是作为一个输入从一个文本字段。输入或载体文本可以写在文本区或可以加载从磁盘中保存的文件。输出的隐写文本在一个单独的文本区域,也可以保存到磁盘上发送者可以从文本区域复制隐写文本并将其粘贴到所需的通信介质中,例如电子邮件中,或者可以直接将保存的文件发送给接收者。类似地,在解码器中,隐写文本可以粘贴在文本区域上,或者可以从文件加载。 图 1和图 2分别显示了开发的编码器和解码器的应用程序功能的屏幕截图。为方便有兴趣的读者,附录中附有一个实际案例。它包括用作隐写算法输入的原始孟加拉语文本、对应的音译文本356M. Khairullah/沙特国王大学学报表5在音译文本中隐藏二进制位的代码映射示例。罗马选项1(位0)选项2(位1)它不隐藏任何秘密数据,一个40字节的秘密消息,它被转换成它xt.h H hjJJkK KlL lmM mpp PqQ Qv v VyY yzz Z检测隐写术的两种基本方法是视觉攻击和统计攻击(Westfeld和Pfitzmann,2000)。视觉攻击方法利用人类的能力,清楚地区分正常的文本和文本中的一些明显不常见的模式。另一方面,统计攻击使用一些数学和统计理论分析数据,识别模式,并对文本进行分类。通常,这些依赖于不同的-Fig. 1. 数据隐藏应用程序的编码器。图二. 数据隐藏应用程序的解码器。一一一个响应隐写器BBBCCCeeE4.3。 隐写FFFM. Khairullah/沙特国王大学学报357nl某些事件发生的预期次数与其实际发生次数之间的关系。由于统计方法基本上已实现在计算机软件中,因此它更有效,应用也更频繁。由于音译是以可预测的方式将一种语言中的字母替换为另一种语言中的字母的方法,因此所提出的技术是基于替换的隐写方法。Meng etal.(2010)利用隐写文本中的高频词比正常文本中的高频词少的事实来检测基于翻译的文本隐写。使用支持向量机(SVM)分类器将给定文本分类为正常文本在典型的情况下,我们期望06或6 1.由于所提出的方法故意改变了音译文本中许多字符的大小写,因此主要的隐写分析方法应该考虑R在正常文本和隐写文本中的频率分布如在上面讨论的分析方法中,如果正常文本和隐写文本中的r一种补充方法可以是查看罗马字母表中每个字符的这种统计数据。为此,我们计算字符i的出现百分比为和隐写文本的基础上的频率差异,恶意文本和隐写文本。音译方案可以看作是狭义上的字级翻译,发生Ki1/4N×100%;2/2 N × 100%可以考虑字符的频率,而不是单词的频率,用于我们的方法的类似隐写分析。在Zhao et al.(2009)中,提出了一种隐写分析方法,用于在混合文本中使用字符替换来检测隐藏信息的存在。这也利用SVM作为分类器来对字母特征向量输入进行分类。隐写过程改变了异常字符与正常字符的比例。然而,这只考虑逗号(,)字符(英语版本或中文版本),我们的方法考虑的是完整的罗马字母表。语言隐写术利用自然语言的规则和语法,同时保持覆盖文本的语法和语义正确性。由于计算机自然语言处理能力的不足,语言隐写分析是一个具有挑战性的课题。用于同义词替换隐写术方法的隐写分析考虑同义词对属性并且基于频率检测隐写文本(Xiang等人,2014)或相对频率(Chen等人,2011年)。Chen et al.(2011)中的方案引入了上下文聚类来估计上下文适应度,并展示了如何使用上下文适应度值的统计来区分正常文本和隐写文本。虽然我们的方法利用了自然语言的一些特征,但它不应该被归类为语言学方法。例如,隐写文本中特定替换字符的选择没有上下文副作用,这是同义词隐写术中特定替换词的选择的情况。此外,由于我们的方法不使用统计生成,它是免费的相应的统计攻击以及。在孟加拉文字符的音译过程中,通过从许多替代方案中选择特定字符来对秘密位进行编码。大多数情况下,罗马字符的情况被用来构造孟加拉字符的替代集。因此,所提出的方法的隐写分析应该集中在统计的情况下,使用的信件在正常的文本,不包含秘密数据以及隐写文本。应该指出,无论是语义还是语境都不适用于音译,以考虑音译文本被认为是更标准的,随后是正常的文本。人们可能会认为,一个正常的文本应该在“句子的情况下”,即一个句子的第一个字符是大写字母和小写字母的其他。请注意,这不能通过音译过程来实现。然而,在可能的情况下,选择大写字母作为句子的第一个字符可能会被认为更自然,并且正常文本的定义可能会改变。尽管如此,我们认为音译,使用第一个替代每个孟加拉字符产生正常的文本。设nu和nl分别表示音译文本中大写字母和小写字母的个数。我们定义大写字母与小写字母的比率r,这是一个与长度无关的量,联系我们其中ki是字符i在一个transliter中出现的次数其中,N是文本的总长度。请注意,大小写字母的混合使用在音译中很常见(例如,附录中不包含机密数据的音译纯文本),在正常英语文本中的某些情况下也很常见(例如,专有名词的第一个字母,第一个字母一句话,一句话)。因此,混合使用大写字母和小写字母不应引起对隐藏数据的额外怀疑。5. 结果和讨论为了评估所提出的方法的性能,用开发的应用软件进行了几次测试运行。输入文本直接键入的帮助下,语音孟加拉打字软件,以及从孟加拉语的在线报纸,pers.The开发的应用程序隐藏和提取秘密信息与100%的准确性,在所有的测试情况下。 总共进行了200次测试。针对前一节提出的基于翻译的文本隐写方法的隐写分析,我们提出了两种攻击模型结果详述如下。5.1. 视觉攻击样本测试的输出已保存用于开放调查。参与者被要求阅读隐写文本,并询问他们对文本的看法。调查的问题是故意相当主观的,以提取参与者的实际感受和情绪。主要目标是分析看到或感觉到所提供的文本或文档有任何错误的可能性,这是隐写术方法无效的主要标志。调查的人口规模为28人。这个群体由各种各样的人组成,他们对Unicode和拼音键盘有着从基础到高级的知识,但都具有重要的计算机素养。表7总结了调查结果。我们将调查结果分为以下几个主要类别:i)对内容是否感兴趣,ii)对罗马表征的认同,iii)特别关注,iv)情感。据观察,参与者确实关注文本的内容(86%),64%只看内容。只有14%的人提到了文本的音译。大约21%的参与者注意到由于小写字母和大写字母的混合或元音字母的混合而导致的文本扭曲,但没有怀疑任何特殊的原因。他们表达的情感表明了这一点,他们大多数都明确表示不喜欢和讨厌阅读翻译文本。只有一位参与者指出,通过调查正在评估某种用户体验。因此,调查的结论是,生成的隐写文本没有被任何参与者怀疑为秘密消息,因此,358M. Khairullah/沙特国王大学学报表6孟加拉文音译文本中罗马字符的派生用法统计表7关于包含隐藏信息的样本文本的用户调查结果号选手对内容感兴趣?古罗马代表?特别注意情感表达方式1元音2Y3Y4YY烦人5元音O6Y7Y8Y9YY10小写/大写字母阅读困难11Y12Y大写字母键盘/软件问题13Y14Y15Y16Y17YY大写字母用户评价18Y19Y20Y21YY不喜欢22Y23Y24Y25Y26Y27Y28强调特定节点总百分之八十六百分之十四百分之二十一百分之十八所提出的方法可以可靠地用作隐写技术。5.2. 统计攻击我们可以评估所提出的隐写方法是容易检测的,如果统计的大写字母到小写字母的隐写文本与普通文本有很大不同否则,我们可以授予的隐写术是不可检测的。100孟加拉文本的大小约8千字节用于实验。这些文本来自孟加拉语语料库数据集(http://scdnlab.com/corpus),涵盖了所有类型,即事故、艺术、犯罪、经济、教育、娱乐、环境、国际事务、观点、政治、科学和技术以及体育。M. Khairullah/沙特国王大学学报3595.2.1. 资本与小写字母比率的分布图3示出了普通文本(不隐藏秘密数据)和隐藏不同量的秘密数据的隐写文本的大写字母与小写字母的请注意,尽管大写字母与小写字母的比例在不同的文本中有所波动,但分布是相当均匀的。实线用于通过方法1的隐写文本,虚线用于通过方法2的隐写文本请注意,方法1的大写字母与小写字母的比例略这可以归因于方法1除了交换字符的大小写之外还使用不同的罗马字符替代方案的事实显然,在隐藏80字节或160字节的隐写文本中,隐藏率远远高于正常文本,我们可以认为这种方法不适
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功