Auteur : AngelGavin Source : CSDN
Comment charger des documents contenant des caractères étrangers et spéciaux ?
Les documents peuvent contenir des caractères étrangers, tels que :
caractères étrangers (úóí ?)
Par exemple, les caractères étrangers tels que 粲 doivent être précédés d'une séquence d'échappement. Les caractères étrangers peuvent être codés en UTF-8 ou spécifiés avec un codage différent, comme suit :
caractères étrangers (?磲)
Le XML est maintenant chargé correctement.
D'autres caractères sont réservés en XML et doivent être traités différemment. XML ci-dessous :
Ceci et cela
L'erreur suivante se produit :
Aucun espace n'est autorisé ici.
Ligne 0000001 : Ceci et cela
Emplacement 0000012 : ----------^
Ici, & fait partie de la structure syntaxique XML. S'il est simplement placé dans la source de données XML, il ne peut pas être interprété comme &. Vous devez remplacer les séquences de caractères spéciaux appelées « entités ».
Ceci et cela
Les caractères suivants nécessitent des entités correspondantes :
< <
& &
>>
" "
''
Le caractère guillemet est utilisé comme délimiteur pour les valeurs d'attribut dans le balisage et ne peut donc généralement pas être utilisé dans les valeurs d'attribut. Par exemple, ce qui suit renverra une erreur :
Le guillemet simple ici est utilisé à la fois comme délimiteur d'attribut et dans la valeur d'attribut elle-même. Pour corriger ce problème, vous pouvez remplacer le délimiteur d'attribut par des guillemets doubles :
ou vous pouvez échapper les guillemets simples vers l'entité.
Les deux méthodes ci-dessus renverront la valeur d'attribut John's Stuff via la méthode getAttribute dans le modèle objet XML. De même pour les guillemets doubles vous pouvez utiliser l'entité ".
Vous pouvez également gérer les caractères spéciaux dans le contenu des éléments en plaçant le texte dans une section CDATA. Ce qui suit est correct :
dans cet exemple, le modèle objet XML affiche le nœud CDATA en tant que nœud enfant du nœud XML, qui renvoie la chaîne
This & that est simplement du contenu « texte ».
comme nodeValue.
Comment utiliser le composant MSXML COM dans Visual Studio 6.0 C++ ?
La manière la plus simple d'utiliser les composants COM MSXML dans Visual C++ 6.0 consiste à utiliser la directive #import :
#import "msxml.dll" nommé_guids no_namespace#import "msxml.dll" nommé_guids no_namespace
Il définit toutes les interfaces IXML* et les ID d'interface afin qu'ils puissent être utilisés dans les applications. La bibliothèque de types MSXML et les fichiers d'en-tête (en anglais) sont également disponibles sur l'INETSDK, ainsi que uuid.lib contenant les IID de classe.
Comment utiliser les entités HTML en XML ?
Le XML suivant contient des entités HTML :
Copyright ? 2000, Microsoft Inc, Tous droits réservés.
Cela produit l'erreur suivante :
Référence à une « copie » d’entité non définie.
Ligne : 1, Position : 23, Code d'erreur : 0xC00CE002
Droit d'auteur ? 2000, ...
-----------------------^
En effet, XML ne comporte que cinq entités intégrées. Pour plus d'informations sur les entités intégrées, consultez Comment charger des documents contenant des caractères étrangers et spéciaux ? .
Pour utiliser des entités HTML, vous devez les définir avec une DTD. Pour plus d'informations sur les DTD, consultez les recommandations XML du W3C (en anglais). Pour utiliser cette DTD, incluez-la directement dans la balise DOCTYPE, comme suit :
Copyright ? 2000, Microsoft Inc, Tous droits réservés.
Pour le charger, vous devez désactiver l'attribut validateOnParse de l'interface IXMLDOMDocument. Essayez de le coller dans la page de test du validateur, désactivez la validation DTD et cliquez sur Valider. Notez que le document se charge et que les caractères de copyright apparaissent dans l'arborescence DOM à la fin de la page du validateur.
Si la validation de la DTD est terminée, les entités HTML qui sont des entités paramètres doivent être incluses dans la DTD existante comme suit :
%HTMLENT;
%HTMLENT;
Il définira toutes les entités HTML afin qu'elles puissent être utilisées dans les documents XML.
Comment gérer les espaces dans le contenu des éléments ?
Le DOM XML dispose de trois manières d'accéder au contenu textuel des éléments :
Attribut Comportement
nodeValue Renvoie le contenu textuel d'origine (y compris les caractères d'espacement) sur les nœuds TEXT, CDATA, COMMENT et PI comme spécifié dans la source XML d'origine. Pour les nœuds ELEMENT et DOCUMENT lui-même, null est renvoyé.
Data Identique à nodeValue
Text Repeat concatène plusieurs nœuds TEXT et CDATA dans le sous-arbre spécifié et renvoie le résultat combiné.
Remarque : Les caractères d'espacement incluent les nouvelles lignes, tabulations et espaces.
La propriété nodeValue renvoie généralement le contenu du document d'origine, quelle que soit la façon dont le document a été chargé et la portée xml:space actuelle.
L'attribut text concatène tout le texte du sous-arbre spécifié et étend l'entité. Ceci est lié à la façon dont le document est chargé, à l'état actuel du commutateur préserverWhiteSpace et à la portée xml:space actuelle, voir ci-dessous :
préserverWhiteSpace = true lorsque le document est chargé
préserverWhiteSpace=truepreserveWhiteSpace | =truepreserveWhiteSpace= | falsepreserveWhiteSpace | =falsexml |
:space= | preserve xml:space=default | xml:space=preserve | xml:space |
= | defaultpreservepreservepreservepreserve | et | truncatepreserveWhiteSpace |
= false lorsque le document est chargé
préserverWhiteSpace=truepreserveWhiteSpace | =truepreserveWhiteSpace | =falsepreserveWhiteSpace= | false |
xml:space=preserve | xml:space=default | xml:space=preserve | xml:space=default |
mi-préserver | mi-préserver et tronquer | mi-préserver | mi-préserver et tronquer |
conserver ici signifie et exactement le même contenu de texte original dans le document XML d'origine, la signification tronquée des espaces de début et de fin a été supprimée, la signification semi-préservée « caractères d'espacement importants » est préservée et les « caractères d'espacement sans importance » sont normalisés. Les caractères d'espacement importants sont des caractères d'espacement dans le contenu du texte. Les caractères d'espacement sans importance sont les caractères d'espacement entre les jetons, ressemblent à ceci :
n
tJanen
tSmith n
Dans cet exemple, le rouge est un caractère d'espacement sans importance qui peut être ignoré, tandis que le vert est un caractère d'espacement important car il fait partie du contenu du texte et a donc une signification importante qui ne peut être ignorée. Ainsi, dans cet exemple, la propriété text renvoie ce qui suit :
La valeur de retour du statut reste "nt JanentSmith n"
Conserver et tronquer "JanentSmith"
Semi-réservé "Jane Smith"
Demi-préserve et tronque "Jane Smith".
Notez que "demi-préserve" normalisera les caractères d'espacement sans importance, par exemple, les caractères de nouvelle ligne et de tabulation seront réduits à un seul espace. Si vous modifiez l'attribut xml:space et le commutateur préservationWhiteSpace, les propriétés de texte renverront des valeurs différentes en conséquence.
Limites des sous-arbres CDATA et xml:space="preserve"
Dans l'exemple suivant, le contenu des nœuds CDATA ou nœuds « réservés » sera concaténé car ils ne participent pas à la normalisation des caractères d'espacement sans importance. Par exemple:
n
t Jeanne n
t Smith ]>n
Dans ce cas, les caractères d'espacement à l'intérieur du nœud CDATA ne sont plus "fusionnés" avec les caractères d'espacement "sans importance" et ne sont pas tronqués. Ainsi, la casse "à moitié préservée et tronquée" renverra ce qui suit :
"Jane Smith".
Ici, les caractères d'espacement sans importance entre les balises et seront inclus, quel que soit le contenu du nœud CDATA. Si vous remplacez CDATA par ce qui suit, le même résultat sera renvoyé :
Smith
Les entités sont
des entités spéciales qui sont chargées et analysées dans le cadre de la DTD et affichées sous le nœud DOCTYPE. Ils ne doivent pas nécessairement avoir de portée xml:space. Par exemple:
Jeannen
tn
">
]>
&Jeanne;
En supposant préserverWhiteSpace=false (dans la portée de la balise DOCTYPE), les caractères d'espacement sans importance sont perdus lors de l'analyse des entités. Les entités n'auront pas de nœuds de caractères d'espacement. L'arbre ressemblera à :
DOCTYPE foo
ENTITÉ : Jeanne
ÉLÉMENT : employé
ÉLÉMENT : nom
TEXTE : Jeanne
ÉLÉMENT : titre
TEXTE> :Ingénieur en conception de logiciels
ÉLÉMENT : foo
ATTRIBUT : xml:space="preserve"
ENTITYREF : Jane
Notez que l'arborescence DOM exposée sous le nœud ENTITY à l'intérieur du DOCTYPE ne contient aucun nœud WHITESPACE. Cela signifie que les nœuds enfants du nœud ENTITYREF n'ont pas non plus de nœuds WHITESPACE, même si la référence d'entité est dans la portée de xml:space="preserve".
Chaque instance de ENTITY référencée dans un document donné a généralement la même arborescence.
Si une entité doit absolument conserver les caractères d'espacement, elle doit alors spécifier son propre attribut xml:space en interne, ou le commutateur documentpreserveWhiteSpace doit être défini sur true.
Comment gérer les espaces dans les attributs ?
Il existe plusieurs façons d'accéder aux valeurs des propriétés. L'interface IXMLDOMAttribute possède un attribut nodeValue, qui est équivalent aux attributs nodeValue et text en tant qu'extension Microsoft. Ces propriétés renvoient : Le texte renvoyé par la propriété
attrNode.nodeValue
attrNode.valeur
getAttribute("name") renvoie exactement le même contenu (et entités étendues) que dans le document d'origine.
attrNode.nodeTypedValue Null
attrNode.text est identique à nodeValue, sauf que les espaces de début et de fin ont été tronqués.
La spécification "Langage XML" définit le comportement suivant pour les applications XML : Types d'attributs Texte renvoyé CDATA ID, IDREF, IDREFS, ENTITY, ENTITIES, NOTATION, énumération
Semi-normalisation Normalisation complète
Ici, la semi-normalisation représente la conversion de nouvelles lignes et de caractères de tabulation. est un espace, mais plusieurs espaces ne dégénéreront pas en un seul espace.