ANSI环境下读取Unicode文件的C++实现

1星需积分: 9 179 浏览量更新于2024-09-12 收藏 181KB PDF 举报

"在ANSI环境下读取Unicode文件的方法与注意事项" 在Windows编程中，处理不同编码的文件是一项挑战，尤其是在ANSI环境下读取Unicode（UTF-16）编码的文件。ANSI编码通常指的是系统默认的单字节字符集，如GBK或ISO-8859-1，而Unicode则是一种包含全球大部分语言字符的标准，常见的实现是UTF-16，它使用双字节来表示每个字符。标题和描述中提到的技术关键点是扩展CStdioFile类以支持在ANSI环境中读取Unicode文件。CStdioFile是MFC库中的一个类，它封装了标准C库的stdio.h中的文件操作，但默认并不直接支持Unicode文件。以下是实现这一功能的一些步骤： 1. **识别Unicode文件**：首先，读取文件的前两个字节，这是UTF-16的BOM（Byte Order Mark），即0xFFFE或0xFEFF，用于标记文件是以小端序还是大端序存储Unicode字符。 2. **跳过BOM**：如果检测到BOM，需要将其从读取位置移除，因为BOM不是实际的文本内容，而是编码标识。 3. **读取与转换**：在ANSI环境下，使用CFile类读取Unicode文件的二进制数据，然后使用`WideCharToMultiByte`函数将读取的宽字符（UTF-16）转换为ANSI编码的字符串。这个函数会将Unicode字符转换为指定的ANSI字符集。 4. **处理换行**：由于ANSI和Unicode对换行的表示可能不同，需要正确处理换行符。例如，Unicode中的换行通常由0x000D（CR）和0x000A（LF）组成，而在某些ANSI编码中，仅0x000D就代表换行。 5. **写入Unicode文件**：如果需要写入Unicode文件，首先需要将ANSI字符串转换为Unicode（UTF-16）格式，可以使用`MultiByteToWideChar`函数进行转换。之后，添加BOM（0xFFFE或0xFEFF）作为文件头，并以二进制模式写入文件。 6. **内存管理**：在进行转换时，需要注意内存的分配和释放，例如在上述代码中创建的`char* buf`，在使用后应使用`delete[]`释放。在VC++编程中，处理编码问题时，了解不同字符集和编码方式之间的差异非常重要。确保正确处理这些差异，可以避免数据丢失或乱码问题，保证程序的兼容性和可移植性。同时，使用适当的数据类型（如`CString`的宽字符版本`CStringW`）以及MFC提供的转换函数可以简化这些操作。在处理复杂编码问题时，还可以考虑使用第三方库，如Boost.Locale或ICU，它们提供了更全面的文本处理和转换功能。

IIT-Homer 专栏T-Homer 专栏

成功是优点的发挥，失败是缺点的积累！不为失败找理由，只为成功找成功是优点的发挥，失败是缺点的积累！不为失败找理由，只为成功找

方法……方法……

VVC 编程ANSI环境下读写Unicode文件和将CStdioFile类扩展,读取UNICODE文本文件 C 编程ANSI环境下读写Unicode文件和将CStdioFile类扩展,读取UNICODE文本文件

分类： C/C++/C# 2009-12-16 17:09 1507人阅读评论(0) 收藏举报

VV C 编程ANSI环境下读写Unicode文件C 编程ANSI环境下读写Unicode文件

没有注意到文件编码的不同会产生这么多的问题，在动手以前查询了很多资料，在本博客中收藏了不少先辈的成

果，在这里一并表示致敬！

 关于ANSI和Unicode编码的原理在这里也不说了，主要讲下如何读写！

 首先确定你的工程是采用的是什么编码环境，默认是ANSI，不同的字符集读写文件的差别也比较大，我这里

只在ANSI环境下做的，下一步在探索在Unicode环境下如何读写！（原先这个没搞懂，读了不少代码发现自己试验都

是有误的）。

 在ANSI的字符集下，CString等都是单字节版本的，所以一定要注意。而多要读取的Unicode文件却是双字节

的，这里就要转换了，当然在ANSI字符集下，还是用二进制的方式打开Unicode文件，自己判断是否是换行，在转化

成ANSI编码。而在写Unicode的时候，先将所字符转化成Unicode编码再写入，而且在写文件之前一定要加上Unicode

文件的标识。

下面是读下面是读

 CFile mFile(UnicodefilePath,CFile::modeRead);

 byte head[2];

 mFile.Read(head,2);

 if((head[0]==0xff&&head[1]==0xfe)||(head[0]==0xfe&&head[1]==0xff) )

 {

 //AfxMessageBox(_T("File is Unicode!"));

 isUnicode = true;

 }

if(isUnicode) mFile.Seek(2,CFile::begin); //0xfffe

wchar_t wch;

wchar_t wstr[300];

CString strvalue ;

hile(mFile.Read((char *)&wch,2)>0)

{

 if(wch==0x000D) //by line

 {

 //chang to ansi

 int nLen = i;

 char *buf = new char[2*nLen];

 WideCharToMultiByte(CP_ACP, 0, wstr, nLen, buf, 2*nLen, NULL, NULL);

 buf[2*nLen-1] = 0; //some assertion failed,这个比较重要，小问题可以折腾人啊

 strvalue = buf;

 mFile.Seek(2,CFile::current); //跳过行开头符号

 i=0;

}

 else

 {

 wstr[i++] = wch;

 }

}

//下面是写//下面是写

CStdioFile transFile;

transFile.Open(strUnicodeSavepath,CFile::modeCreate|CFile::modeWrite|CFile::typeBinary);

WORD wSignature = 0xFEFF;

transFile.Write(&wSignature, 2); //Unicode的文件符号

 CHAR *pszAnsi = new TCHAR[strvalue.GetLength()+1];

 _tcscpy(pszAnsi, strvalue);

 WCHAR * szwBuffer = new WCHAR[strvalue.GetLength()+1];

下载后可阅读完整内容，剩余8页未读，立即下载

guyuefeixing1990

粉丝: 2
资源: 4

ANSI环境下读取Unicode文件的C++实现

从txt文件读取unicode字符

VC ANSI环境下按行读取ANSI、UNICODE 、UNICODE big endian、UTF-8四种文本文件

VS2008在Unicode环境下将Unicode文本转为ANSI文本

读取ANSI、Unicode、Unicode big endian、UTF-8、UTF8 Bom、UTF16-LE明码文件

delphi 6-XE读取ANSI，unicode，unicode big，utf-8，utf-8BOM文件，保存utf8

CStdioFileEx（支持ANSI、UNICODE、UNICODE big endian、UTF-8编码的文本读取

unicode/ansi编码转换及文件读取源码

简单的从ANSI指针读取UNICODE数据的示例

Unicode文件读取

字符编码转换 Text、ANSI、Unicode、Unicode Big Endian、UTF-8、UTF-7

最新资源