本文将介绍在数据库初始化过程中,管理员需要经常面对的一个现实问题——如何把大容量的数据导入到数据库系统中。 在数据库初始化过程中,管理员需要面对的一个现实问题就是如何把大容量的数据导入到数据库系统中。在SQL Server数据库中提供了一些大容量数据导入导出的工具供数据库管理员实用。如管理员可以通过bcp实用工具,实现大容量导出数据和大容量导入数据并生成格式化文件。如可以利用bulk insert语句将大容量数据直接从数据文件导入数据库表或者未分区的视图中去等等。
虽然在SQL Server数据库中提供了这些实用工具。不过管理员在实际工作中,仍然需要谨慎对待这项工作。具体的来说,在大容量数据导入导出的过程中,需要注意如下几方面的内容。
一、 尽量采用系统提供的工具来倒入导出大容量的数据
以上笔者提到的几款实用工具,他们有一个共同的特点,即在导入的过程中会对大容量的数据进行一定的优化。如会规范一些数据的格式、节省导入导出的时间等等。但是利用这些工具的话,跟其他普通的数据导入导出工具有一个差异,就是大容量导入操作不支持逗号分隔符文件中导入数据,也就是常说的文本文件。虽然此时管理员也可以通过其他的工具来导入文件文件格式的大容量数据,但是通常情况下笔者不建议这么做。因为其他的工具不支持导入过程中的优化功能。为此笔者建议先用其他工具,如ACCESS等中间工具先把文本文件中的数据转化为普通的表格形式,然后再利用上面这些工具导入到系统中。这虽然会增加一定的工作量,但是却可以保证大容量数据的质量。为此,笔者在实际工作中,如果用户遇到这种问题笔者是强烈建议他们要采用系统提供的工具来导入导出大容量数据。
另外,利用格式化文件来提高大容量数据的规范化,也是一个不错的选择。上面提到的几款大容量导入导出工具都支持使用专门的格式化文件来存储原始数据文件中每个字段的格式信息。格式化文件还可以包含相应的数据库表的有关信息。格式化文件可以用于提供从数据库实例大容量导出数据和向其中大容量导入数据时所需的所有格式信息。通俗的讲,格式化文件提供了一种解释导入期间数据文件中数据的格式以及设置导出期间数据文件中数据格式的灵活方式。这种灵活性使得解释数据时无需编写专用代码,也无需为满足数据库或外部应用程序的特殊需要而重新设置数据的格式。如果灵活利用格式化文件,那么用户可以直接按需要的格式导出或者导入大容量数据,而不用事后再进行额外的格式调整。
二、 选择合适的数据库日志操作模式
正如大家所知道的,用户在数据库中做的任何变化,都会记录在相关的日志中。导入导出大容量数据也不例外。可是由于大容量数据比较大,会占用比较大的事务日志功能。为此笔者建议,在用户导入大容量数据之前,最好选择合适的数据库日志操作模式。笔者的做法是,如果用户需要导入大容量数据,那么最好选择大容量日志恢复模式。等到导入工作完成之后,再恢复到原先的模式。
这主要是因为在大容量日志模式下,对于大容量数据导入工作中说,支持力度相对来说比较好。与其他日志恢复模式相比(如完全恢复模式),大容量日志恢复模式只对大容量操作进行最小记录。为此大容量日志操作恢复模式保护大容量操作不受硬件故障的危害,提供比较好的性能并且占用日志的空间也是最小的。所以,使用大容量日志恢复有助于防止事务日志出现空间不足的情况,因为大容量日志恢复不会插入日志行。这个大容量日志操作模式,非常适用于使用完整恢复模式的数据库。对无索引表执行大容量操作时,大容量日志恢复模式非常有用。
不过大容量日志操作模式也具有一定的风险。如大容量日志恢复模式会增加这些大容量复制操作丢失数据的风险。因为大容量日志操作模式将会阻止数据库系统捕获对每个事务逐一所做的更改。如果日志备份包含大容量日志操作,则无法还原到该日志备份中的时点,而只能还原整个日志备份。另外在大容量日志恢复模式下,如果日志备份覆盖了任何大容量操作,则日志备份将包含由大容量操作所更改的日志记录和数据页。这对于捕获大容量日志操作的结果至关重要。合并的数据区可使日志备份变得非常庞大。再者,备份日志需要访问包含大容量日志事务的数据文件。如果无法访问任何受影响的数据库文件,则事务日志将无法备份,并且在此日志中提交的所有操作都会丢失。所以大容量日志备份模式并不是安全的日志模式。
三、 考虑是否需要先暂时删除表的索引
引是一种特殊的文件,在数据库中它的作用是举足轻重的。简单的来说,如果把数据库比喻成一本书的话,那么索引就好像是书的目录。索引包含着对数据表里所有记录的引用指针。索引可以提高数据库的性能,这是毋庸置疑的。但是不是在任何场合索引都可以起到正面的效果。在某些特殊情况下,其反而会降低一些操作的性能,如大容量数据的导入。
索引可以加快数据检索操作,但它会使数据修改操作变慢。因为每次修改或者插入数据记录,索引就必须刷新一次。也就是说,插入一百万条记录,则索引就必须重新所新一百万次。可见,当大容量数据导入的时候,索引将耗费数据库大量的资源,从而降低数据库的性能。如果目的表中有索引,那么不仅会影响数据库大容量数据导入的速度,而且还会降低其他用户正常访问数据库的性能。
为此,笔者的建议是,如果要导入的表中数据并不是很多,那么最好先删除索引来提高大容量数据导入的性能。导入之后再重新启用索引。但是,如果在需要导入的表中已经有不少的数据,而需要导入的数据可能跟已存在的数据差不多或者要少的话,那么还是不用删除索引。此时如果删除索引会起到适得其反的效果。因为数据库系统重新生成索引所需要的时间可能比大容量导入操作期间所节省的时间要更长。此时管理员删除目的表的索引就有点得不偿失了。
四、 数据导入后即时进行数据库备份
同建立数据库对象一样,把大容量数据导入到数据库系统后,管理员要及时对现有的数据库进行备份。因为及时有系统大容量导入工具的帮助,这个数据导入的工作仍然是非常繁琐、耗时的。为此当大容量数据顺利导入到数据库系统之后,管理员要及时得对数据库进行备份。这里笔者要提醒大家的是,不同的操作日志模式下,其备份的方法往往是不同的。
大容量数据导入后,管理员需要对数据库进行备份。对此笔者的建议是,如果当时管理员采用的是简单的日志恢复模式,则管理员在大容量导入操作完成后应该立即执行完整备份或差异备份(如果时间允许的话,最好还是完整备份)。而如果数据库管理员当时采用的是大容量日志恢复模式或完整恢复模式,如果时间不是很多或者怕担心完全备份会影响当时用户的访问,那么只需执行日志备份就足够了。如果数据库服务器还没有变成生产服务器(即还有没有用户在用),则还是对数据库进行完全备份保险一点。
五、 常见的错误
在大容量数据导入过程中,最常见的错误大概有两个。
一是提供文件的格式不对。如上面所说,通常情况下数据库提供的大容量导入工具不支持文本文件。为此管理员需要进行事先的转换。二是要注意隐藏字符可能带来到问题。许多软件和文本编辑器都会显示隐藏字符。这些隐藏字符通常位于数据文件末尾。在大容量导入操作期间,数据文件中的隐藏字符可能会导致一些难以预测的问题,如意外空字符错误等等。这个错误很好避免。只要数据库管理员在导入数据之前先查找并删除所有隐藏字符即可。其实,不仅在大容量数据导入过程中,还是在少量数据导入过程中,都会遇到这个问题。