ここでは、「メモ帳」を使用して XML ファイルを作成してみましょう。まず XML ファイルを見てみましょう:
例 1
〈?xml version="1.0"coding="gb2312" ?〉
〈参考文献〉
<書籍>
〈名前〉XML 入門 〈/名前〉
〈著者〉張三〈/著〉
〈価格通貨単位=“RMB”〉20.00〈/価格〉
</本>
<書籍>
<name>XML 構文 </name>
〈!--この本は近々出版されます--〉
〈著者〉李思〈/著者〉
〈価格通貨単位=“RMB”〉18.00〈/価格〉
</本>
〈/参考資料〉
これは典型的な XML ファイルで、編集後は .xml 拡張子が付いたファイルとして保存されます。このファイルは、ファイル プリアンブル (プロローグ) とファイル本体の 2 つの主要な部分に分割できます。このファイルの最初の行はファイルのプリアンブルです。この行は XML ファイルで宣言する必要があり、主に XML パーサーに動作方法を指示するものであり、XML ファイルの最初の行に配置する必要があります。このうち、version はこの XML ファイルで使用される標準のバージョン番号であり、encoding はこの XML ファイルで使用される文字の種類を指定します (省略可能)。 (省略しないことをお勧めします)。この例では文字コード GB2312 を使用しているため、encoding ステートメントは省略できません。ファイルのプリアンブルにもいくつかの宣言文がありますが、これについては後で紹介します。
ファイルの残りの部分はファイル本体に属し、XML ファイルのコンテンツ情報が保存されます。ファイルの本体は開始 <reference> 制御タグと終了 </reference> 制御タグで構成されていることがわかります。これは XML ファイルの「ルート要素」と呼ばれ、<book> は「ルート要素」です。ルート要素の直下には「サブ要素」があり、「Book」の下には「名前」、「著者」、「価格」などのサブ要素があります。通貨単位は<price>要素の「属性」であり、「RMB」が「属性値」です。
〈!--この本は近々出版されます--〉はHTMLと同じようにコメント部分を「<!--」と「-->」タグで挟みます。
ご覧のとおり、XML ファイルは非常に単純です。 HTML と同様に、XML ファイルも一連のタグで構成されていますが、XML ファイル内のタグは独自のカスタム タグであり、タグ内のコンテンツの意味を説明できます。
XML ファイルについての予備的な印象を持った後、XML ファイルの構文について詳しく説明します。文法について話す前に、XML 解析という重要な概念を理解する必要があります。
1. XML パーサー
パーサーの主な機能は、XML ファイルに構造上のエラーがあるかどうかを確認し、XML ファイル内のタグを取り除き、次のアプリケーション プログラムで処理できるように正しい内容を読み出すことです。 XML は、ファイル情報を構造化するために使用されるマークアップ言語です。XML 仕様には、ファイルの構造をマークする方法に関する詳細な規則があります。パーサーは、これらの規則に従って記述されたソフトウェアです (主に Java で記述されています)。 HTML と同様に、ブラウザーが HTML タグで構成されるさまざまな Web ページを「読み取り」、それを私たちの前に表示できるように、ブラウザーにも HTML パーサーが必要です。ブラウザの HTML パーサーが読み取れないタグがある場合、エラー メッセージが返されます。
現在の HTML タグは実際には非常に混乱しており、非標準タグが多数あるため (一部の Web ページは IE では正常に表示できるが、Netscape Navigator では表示できない)、XML の設計者は XML の構文を厳密に規定しています。作成する XML ファイルはこれらの規制に準拠する必要があり、そうでない場合、XML パーサーは容赦なくエラー メッセージを表示します。
XML ファイルには 2 種類あり、1 つは Well-Formed XML ファイル、もう 1 つは Validating XML ファイルです。
XML ファイルが XML 仕様の特定の関連ルールを満たし、DTD (文書形式定義 - 詳細は後述) を使用していない場合、その文書は整形式と呼ばれます。 XML ファイルが整形式であり、DTD が正しく使用され、DTD 内の構文が正しい場合、ファイルは検証中です。 2 つの XML ファイルに対応して、2 つの XML パーサーがあり、1 つは Well-Formed パーサー、もう 1 つは Validating パーサーです。 IE 5 には検証パーサーが含まれており、整形式 XML ファイルの解析にも使用できます。
Well-Formedの条件を満たしているか確認してください。編集した最初の XML ファイルは、IE 5 以降のブラウザで開くことができます。
ブラウザでの表示がソース ファイルと同じであるのはなぜかと疑問に思われるかもしれません。そうです、XML ファイルの場合は内容しか分からず、その表示形式は CSS または XSL によって完成されるからです。ここでは、この XML ファイルの CSS または XSL ファイルを定義していないため、元の形式で表示されます。実際、電子データの交換に必要なのは XML ファイルだけです。それを何らかの形式で表示したい場合は、CSS または XSL ファイルを編集する必要があります (この問題については後で説明します)。
2. 整形式の XML ファイル
パーサーによって正しく解析され、ブラウザに表示されるためには、XML が整形式でなければならないことがわかっています。では、整形式 XML ファイルとは何でしょうか? XML ファイルを作成する際には、主に次のガイドラインを満たす必要があります。
まず、XML ファイルの最初の行で、そのファイルが XML ファイルであることと、そのファイルで使用される XML 仕様のバージョンを宣言する必要があります。ファイルの前に他の要素やコメントを置くことはできません。
次に、XML ファイル内に存在できるルート要素は 1 つだけです。最初の例では、<References>... </References> がこの XML ファイルのルート要素です。
3 番目に、XML ファイル内のタグは正しく閉じられている必要があります。つまり、XML ファイル内の制御タグには、対応する終了タグが必要です。例: <name> タグには、対応する </name> 終了タグが必要です。HTML とは異なり、一部のタグの終了タグはオプションです。 XML ファイル内で自己完結型のユニット タグが見つかった場合、これは HTML の終了タグのない <img src=....> に似ており、XML ではそれを「空要素」と呼び、次の書き込みメソッドを使用する必要があります。要素に属性が含まれる場合の記述方法は、<空要素名 属性名 = "属性値"/> です。
第四に、マークは互いに交差してはなりません。以前の HTML ファイルでは、次のように記述することができました:
<B><H>XXXXXXX</B></H>、
<B> タグと <H> タグの間には重複する領域がありますが、XML では厳密に千鳥配置されています。このようなマークの書き込みは禁止されています。マークは規則的な順序で表示されなければなりません。
第 5 に、属性値は「」記号で囲む必要があります。最初の例の「1.0」、「gb2312」、「RMB」など。これらはすべて「 」で囲まれており、見逃すことはできません。
第 6 に、英語の制御タグ、命令、および属性名は大文字と小文字を区別する必要があります。 HTML とは異なり、HTML では <B> と <b> などのタグは同じ意味を持ちますが、XML では <name>、<NAME>、または <Name> などのタグは異なります。
7 番目に、HTML ファイルで、入力した内容をそのままブラウザに表示させたい場合は、これらの内容を <pre></pre> または <xmp></xmp> に置くことができることがわかります。中央をマークします。 HTML のソース コードを Web ページに表示する必要があるため、HTML 教育 Web ページを作成する場合、これは不可欠です。 XML では、このような機能を実現するには、CDATA タグを使用する必要があります。 CDATA タグ内の情報は、パーサーによってそのままの状態でアプリケーションに渡され、情報セグメント内の制御タグは解析されません。 CDATA 領域は、開始マークとして「<![CDATA[」、終了マークとして「>>」によってマークされます。例: 例 2 のソース コードでは、"<![CDATA[" および ">>" 記号を除き、コンテンツ パーサーの残りの部分は、たとえ空白があっても、そのままダウンストリーム アプリケーションに渡されます。 CDATA 領域の先頭と末尾、改行文字なども転送されます (CDATA は大文字であることに注意してください)。
例 2
〈![CDATA[フライング XML〉〉〉〉〉,:-)
ああ〈〈〈〈〈〈
>>>
第 8 に、XML は HTML とは異なる方法で空白文字を処理します。 HTML 標準では、空白がいくつあっても 1 つの空白として扱われると規定されていますが、XML では、パーサーはタグ以外のすべての空白を下流のアプリケーションに処理のために忠実に渡す必要があると規定されています。このように、パーサーはインデントされたスペースも処理する必要があるため、HTML ファイルを作成するときにインデントの習慣を放棄しなければならない場合があります。例:
〈著者〉張三〈/著者〉
と<著者>
Zhang San </Author>
の内容は、パーサーによって異なります (後者には、<Author></Author> タグ内に Zhang San という文字に加えて、2 つの改行マークと「Zhang San」の前の文字も含まれています) " テキストのインデント記号)。したがって、マークを削除してアプリケーションに情報を渡した後のパーサーの処理結果は異なります。
タグ内のスペースには明確な意味があり、むやみに削除すべきではないことを XML プログラムに明確に伝えたい場合 (たとえば、一部の詩では、スペースに特定の意味があります)、XML 組み込み属性 - xml を追加できます。 - :space タグに。例: (属性名と値の大文字と小文字に注意してください):
<poetry xml:space="preserver">
祖国よ! 祖国よ!
私の祖国よ!
</Poetry>
さらに、XML ファイル内で表 1 の特殊文字を使用する場合は、対応する記号に置き換える必要があります。
表 1
特殊文字置換記号 && &
<⁢
>>
「」
' '
ここで要約すると、上記の要件を満たす XML ファイルは、整形式 XML ファイルです。これは、XML ファイルを作成するための最も基本的な要件です。 XML ファイルの構文は HTML の構文よりもはるかに厳密であることがわかります。このような厳格な規制により、ソフトウェア エンジニアは HTML 言語のパーサーを作成するのとは異なり、Web ページのさまざまな作成方法に適応し、独自のブラウザーの適応性を向上させるために懸命に努力する必要があります。実際、これは私たち初心者にとっても良いことです。以前のようにさまざまな HTML の書き方を気にする必要はなく、やりたいことだけを実行できます。
XML ファイルでは、ほとんどのカスタム タグが使用されていることがわかります。しかし、考えてみてください。同じ業界の 2 つの企業 A と B が XML ファイルを使用して相互にデータを交換したい場合、A 社は製品の価格情報を表すために <price> タグを使用し、B 社は <販売> タグを使用する可能性があります。価格> 情報を表します。 XML アプリケーションがそれぞれの XML ファイル内の情報を読み取る場合、<price> タグが価格情報を表すことしか認識していないと、B 社の価格情報を読み取ることができず、エラーが発生します。 XML ファイルを使用して情報を交換したいエンティティの場合、明らかに、エンティティ間で合意が必要です。つまり、どのタグを使用して XML ファイルを作成できるか、どのサブ要素を親要素に含めることができるか、親要素の順序などです。各要素がどのようなものになるのか、プロパティの定義方法など。これにより、XML でデータを交換するときにスムーズな通信が可能になります。この規約をDTD(Document Type Definition、文書フォーマット定義)といいます。 DTD は、XML ファイルを作成するためのテンプレートと考えることができます。同じ業界間で XML データを交換する場合、固定 DTD があったほうがはるかに便利です。たとえば、インターネット上の主要な電子ショッピング モールの XML Web ページがすべて同じ DTD に従っている場合、この DTD に基づいて、オンラインで関心のあるものを自動的にキャプチャするアプリケーションを簡単に作成できます。実際、前述した MathML や SMIL など、明確に定義された DTD がすでにいくつかあります。
XML ファイルが整形式であり、DTD に基づいて正しく作成されている場合、その XML ファイルは「Validating XML file」と呼ばれます。対応するパーサーは、Validating Parser と呼ばれます。