首页 > > 网络编程 > Mysql >

MySQL数据库中数据库移植中的乱码问题

2008-02-23 07:39:28来源：互联网阅读 ()

新老客户大回馈,云服务器低至5折

MySQL移植含有中文的数据时，很容易出现乱码问题。很多是在从MySQL4.x向MySQL5.x移植的时候出现。MySQL的缺省字符集是latin1，在使用MySQL4.x的时候，很多人都是用的latin1字符集。而当使用MySQL5时往往愿意使用UTF-8。那么我们的任务是不是要把数据中的字符从latin1转为UTF-8呢？不是的。

用一句不大准确，但又比较形象的说法是，在之前的系统中，我们是用latin1保存了使用GB系列字符集（GBK、GB2312等）的汉字。怎么这样说呢？

mysql> show create table test\G
*************************** 1. row
Table: test
Create Table: CREATE TABLE `test` (
`a` varchar(100) default NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8
1 row in set (0.00 sec)

mysql> show create table testlatin1\G
*************************** 1. row *
Table: testlatin1
Create Table: CREATE TABLE `testlatin1` (
`a` varchar(100) default NULL
) ENGINE=InnoDB DEFAULT CHARSET=latin1
1 row in set (0.01 sec)

字符集是告诉我们，假如没有特别指定列的字符集，那么字符类型列的字符集和表的缺省字符集相同。

列的字符集是要告诉MySQL，这里面保存的字符所使用的字符集是什么。但到底保存的是什么字符集的字符，不由MySQL决定，MySQL也不进行检查。

在UTF-8广泛使用之前，我们使用的汉字都是GB系列的字符集，比如GB2312、GBK、GB18030等等。

在缺省字符集为latin1的MySQL中，我们通常就把GB字符集的汉字保存到数据库中，但是却告诉MySQL那是latin1字符集。而GB字符集是个汉字占两个字节，latin1是个字符占一个字节。也就是说一个GB汉字被当成两个latin1字符来保存了。这让我想起了当初的iso8859_1，也是类似的情况。只要我们保存和读取时都当作latin1，不进行转换，然后在显示时当作GB字符集，就能够正确使用。

那么怎么把latin1保存的汉字正确地导UTF-8字符集的数据库中呢？

首先，新的数据库中的列，要使用UTF-8字符集。一种办法是创建database时指定缺省字符集，这样在建表时假如不指定字符集则使用database的缺省字符集。

导出的数据要以latin1字符集导出，实际上就是告诉MySQL导出时不做转换（因为原有的表都是latin1字符集的）。

mysqldump出来以后，再用MySQL进行导入时，还要告诉MySQL，当前的数据是gb系列的字符集，比如gbk。这样，MySQL负责把数据由gbk转换为UTF-8，保存到数据库中。

如何告诉MySQL导入的SQL是什么字符集呢，一种方法是用--default-character-set，但有时会起不到实际作用。这是因为mysqldump出来的文档里有set names语句。比如：

head EA192.060913.sql

-- MySQL dump 10.10
--
-- Host: localhost Database: EA192
-- ----------------------------------
-- Server version 5.0.16-standard-log

/*!40101 SET @OLD_CHARACTER_SET_CLIENT
=@@CHARACTER_SET_CLIENT */;
/*!40101 SET @OLD_CHARACTER_SET_RESULTS
=@@CHARACTER_SET_RESULTS */;
/*!40101 SET @OLD_COLLATION_CONNECTION
=@@COLLATION_CONNECTION */;
/*!40101 SET NAMES latin1 */;

/*! */是MySQL特有有句法，在其他数据库会被当成注释忽略掉。/*!后面的40101是表示版本，在4.1.1及以上版才执行该条语句。

这里看到有一条SET NAMES latin1。他的一个作用是告诉mysql，客户端传过去的数据是latin1字符集。因为有这样一条SET NAMES，--default-character-set也就起不到作用了。假如不幸有这样一条SQL，那么需要把他去掉或改成SET NAMES gbk。修改或删除的办法，当数据量比较大的时候，能够用head和tail来配合。比如还是上面的那个文档：

先用head看一下SET NAMES在第几行（数一下），上面看到是第10行。

wc -l EA192.060913.sql
1987 EA192.060913.sql
得到总行数是1987

head -9 EA192.060913.sql > final.sql
brum@brum-laptop:~$ tail -1977 EA192.060913.sql
>> final.sql
brum@brum-laptop:~$

head -9是取前9行，tail -1977是取后1977行，这样就把第10行隔过去了。

得到final.sql再用MySQL运行时，就能够使用--default-character-set=gbk了。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有

上一篇：高端还是低端，MySQL掀起开源暗流？

下一篇：分析数据库备份过程中九种可能出现的情况

相关文章

IDC资讯：主机资讯注册资讯托管资讯 vps资讯网站建设

网站运营：建站经验策划盈利搜索优化网站推广免费资源

网站联盟：联盟新闻联盟介绍联盟点评网赚技巧

行业资讯：搜索引擎网络游戏电子商务广告传媒

网络编程： Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它

服务器技术： Web服务器 Ftp服务器 Mail服务器 Dns服务器安全防护

软件技巧：其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷

网页制作： FrontPages Dreamweaver Javascript css photoshop fireworks Flash

程序设计： Java技术 C/C++ VB delphi

网络知识：网络协议网络安全网络管理组网方案 Cisco技术

操作系统： Win2000 WinXP Win2003 Mac OS Linux FreeBSD

热门词条

最新资讯

热门关注

热门标签