用PHP程式讀取漢字點陣數據

作者：Eve Cole 更新時間：2009-06-01 17:48:35

背景知識：

簡體中文國標字庫（1981年訂，中國大陸）。 7445個字符，其中漢字6773個，包括一級漢字3755個，二級漢字3008個。採用2位元組（16位元二進位）編碼。

區碼：國標GB2312規定,所有的國標漢字與符號組成一個94×94的矩陣。在此方陣中,每一行稱為一個」區」,每一列稱為一個」位」,因此,這個方陣實際上組成了一個有94個區(區號分別為0 1到94)、每個區內有94個位元(位號分別為01到94)的漢字字元集。一個漢字所在的區號和位號簡單地組合在一起就構成了該漢字的」區位碼」。在漢字的區位碼中,高兩位為區號,低兩位為位號。由此可見,區位碼與漢字或符號之間是一一對應的。

內碼：漢字的內碼是指在電腦中表示漢字的編碼。機內碼與區位碼稍有差別。為什麼不直接用區位碼作為計算機內的編碼呢? 這是因為漢字的區碼和位碼的範圍都在1到94內, 如果直接用區位碼作機內碼, 就會與基本ASCII碼衝突。漢字的內碼通常與所使用的電腦系統有關。目前,對於國內大多數的電腦系統,一個漢字的內碼佔兩個位元組,分別稱為高位元組與低位元組,且這兩位位元組與區位碼的關係如下: 內碼高位元=區碼+A0H(H表示十六進位) 內碼低位=位碼+A0H 例如,漢字」啊”的區碼為”1601″,區碼和位碼分別用十六進位表示即為”1001H” ,則它的內碼為”B0A1H”。其中B0H為內碼的高位元組,A1H為內碼的低位元組。

php程式碼：傳回由0和1組成的字串。

＜?php
/**
* 讀取漢字點陣數據
*
* @author legend ＜ [email protected] ＞
* @link http://www.ugia.cn/?p=82
* @Copyright www.ugia.cn
*/

$str = "中華人民共和國" ;

$font_file_name = "simsun12.fon" ; // 點陣字庫檔名
$font_width = 12 ; // 單字寬度
$font_height = 12 ; // 單字高度
$start_offset = 0 ; // 偏移

$fp = fopen ( $font_file_name , "rb" );

$offset_size = $font_width * $font_height / 8 ;
$string_size = $font_width * $font_height ;
$dot_string = "" ;

for ( $i = 0 ; $i ＜ strlen ( $str ); $i ++)
{
if ( ord ( $str { $i }) ＞ 160 )
{
// 先求區位碼，再計算其在區位碼二維表中的位置，進而得出此字元在檔案中的偏移$offset = (( ord ( $str { $i }) - 0xa1 ) * 94 + ord ( $str { $i + 1 }) - 0xa1 ) * $offset_size ;
$i ++;
}
else
{
$offset = ( ord ( $str { $i }) + 156 - 1 ) * $offset_size ;
}

// 讀取其點陣資料fseek ( $fp , $start_offset + $offset , SEEK_SET );
$bindot = fread ( $fp , $offset_size );

for ( $j = 0 ; $j ＜ $offset_size ; $j ++)
{
// 將二進位點陣資料轉換為字串$dot_string .= sprintf ( "%08b" , ord ( $bindot { $j }));
}
}

fclose ( $fp );

echo $dot_string ;
?＞

其中包含兩個點陣字體檔：一個為16×16的chs16.fon，另一個為12×12的simsun12.fon，偏移量皆為零。