DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁腳本 >> XML學習教程 >> XML詳解 >> XML入門的常見問題(三)
XML入門的常見問題(三)
編輯:XML詳解     
如何加載有外國和特殊字符的文檔?

  文檔可以包含外國字符,例如:


   foreign characters (úóí?) 


  例如 磲 的外國字符必須在前面加上 escape 序列。外國字符可以是 UTF-8 編碼或用不同編碼指定,如下所示:


   foreign characters (磲) 


  現在可以正確加載 XML 了。

  其他字符是保留在 XML 中的,並且需要以不同的方式處理。下面的 XML:


   This & that
  產生如下錯誤:
  此處不允許有空格。
  行 0000001: This & that
  位置  0000012: ----------^


  此處 & 是 XML 句法結構的一部分,如果它僅僅放在 XML 數據源內部,那麼不能解釋為 &。您需要替換稱為“實體”的特殊字符序列。

  This & that
  下面的字符需要相應的實體:


   < <
  & &
  > >
  " "
  ' &apos;


  引號字符被用作標記中屬性值的定界符,因此通常不能在屬性值的內部使用。例如,下面的內容將返回錯誤:

  此處的單引號既用作屬性定界符,又在屬性值自身中。為了糾正這個問題,可以將屬性定界符換成雙引號:

  或者可以將單引號轉義為實體 &apos;

  上述兩種方式都將通過 XML 對象模型中的 getAttribute 方法返回屬性值 John's Stuff。同樣,對於雙引號,您可以使用實體
  "。
  也可以通過將文本放在 CDATA 節中來處理元素內容中的特殊字符。下面的內容是正確的:

  在本例子中,XML 對象模型將 CDATA 節點顯示 XML 節點的子節點,它將返回字符串

  This & that  is just "text" content.
  作為 nodeValue。如何在 Visual Studio 6.0 C++ 中使用 MSXML COM 組件?

  在 Visual C++ 6.0 中使用 MSXML COM 組件的最簡便方式是使用 #import 指令:

  #import "msxml.dll" named_guids no_namespace#import "msXML.dll" named_guids no_namespace
  它定義了所有 IXML* 接口和接口 ID,從而可以在應用程序中使用它們了。也可以從 INETSDK 獲取 MSXML 類型庫和頭文件(英文),以及包含類 IIDs 的 uuid.lib。

  如何在 XML 中使用 Html 實體?

  下面的 XML 包含 Html 實體:


   Copyright ? 2000, Microsoft Inc, All rights reserved.


  它產生下列錯誤:


   引用未定義的實體 'copy'。
  行: 1, 位置:23, 錯誤碼:0xC00CE002
  Copyright ? 2000, ...
  ----------------------^


  這是因為 XML 只有五個內置實體。關於內置實體的詳細信息,請參閱如何加載有外國和特殊字符的文檔?。

  要使用 Html 實體,需要用 DTD 定義它們。有關 DTD 的詳細信息,請參閱 W3C XML 建議(英文)。要使用該 DTD,請將它直接包括在 DOCTYPE 標記中,如下所示:


   Copyright ? 2000, Microsoft Inc, All rights reserved.

 

  要加載它,需要關閉 IXMLDOMDocument 接口的 validateOnParse 屬性。請嘗試將它粘貼到“Validator 測試頁”中,關閉 DTD 驗證,然後單擊“驗證”。請注意文檔將加載,並且版權字符將顯示在 validator 頁面的末尾的 DOM 樹中。

  如果已經完成了 DTD 驗證,那麼必須將作為參數實體的 Html 實體包括在現有的 DTD 中,如下所示:


   %HtmlENT;
  %HtmlENT;


  它將定義所有 Html 實體,以便在 XML 文檔中使用它們。

在元素內容中如何處理空白字符?

  XML DOM 有三種訪問元素文本內容的方式:

  屬性 行為

  nodeValue 按照原始的 XML 源中指定的那樣,返回 TEXT、CDATA、COMMENT 和 PI 節點上的原始文本內容(包括空白字符)。對於 ELEMENT 節點和 DOCUMENT 本身,則返回空值。

  數據 與 nodeValue 相同

  文本 重復連接指定子樹中的多個 TEXT 和 CDATA 節點並返回組合結果。

  注意: 空白字符包括新行、tab 和空格。

  nodeValue 屬性通常返回原始文檔中的內容,與文檔如何加載和當前 XML:space 范圍無關。

  文本屬性連接指定子樹中的所有文本並擴展實體。這與文檔如何加載、preserveWhiteSpace 開關的當前狀態和當前 XML:space 范圍有關,請看如下所示:

  preserveWhiteSpace = true when the document is loaded
preserveWhiteSpace=true preserveWhiteSpace=true preserveWhiteSpace=false preserveWhiteSpace=false xml:space=preserve xml:space=default xml:space=preserve XML:space=default 保留保留保留保留並截斷

  preserveWhiteSpace = false when the document is loaded
preserveWhiteSpace=true preserveWhiteSpace=true preserveWhiteSpace=false preserveWhiteSpace=false xml:space=preserve xml:space=default xml:space=preserve XML:space=default 半保留半保留並截斷半保留半保留並截斷

  此處的保留表示和原始 XML 文檔中完全相同的原始文本內容,截斷意味著前導和尾部空格已經刪除,半保留意味著保留了“重要的空白字符”並規范化了“不重要的空白字符”。重要的空白字符是文本內容內部的空白字符。不重要的空白字符是標記之間的空白字符,請看如下所示:

\n
  \t    Jane\n
  \tSmith     \n


  在本示例中,紅色是可以忽略的不重要的空白字符,而綠色是重要的空白字符,因為它是文本內容的一部分,因此有不可忽略的重要含義。所以在本例中,文本屬性返回下列結果:

  狀態 返回值
  保留 "\n\t    Jane\n\tSmith    \n"
  
  保留並截斷 "Jane\n\tSmith"
  
  半保留 "    Jane Smith    "
  
  半保留並截斷 "Jane Smith"

  請注意“半保留”將規范化不重要的空白字符,例如,新行和 tab 字符將退化為單個空格。如果更改 XML:space 屬性和 preserveWhiteSpace 開關,那麼文本屬性將返回相應的不同值。

  CDATA and XML:space="preserve" suBTree boundarIEs
  在下面的例子中,CDATA 節點或“保留”節點的內容將得到連接,原因是它們不參與不重要的空白字符規范化。例如:


   \n
  \t Jane \n
  \t     Smith     ]>\n


  在這種情況下,CDATA 節點內部的空白字符不再與“不重要”空白字符“合並”,並且不會截斷。因此“半保留並截斷”情況將返回下列內容:

  "Jane      Smith     "

  在此, 和 標記之間的不重要的空白字符將包括在內,與 CDATA 節點的內容無關。如果用下列內容代替 CDATA,那麼將返回相同結果:

  Smith    
  實體是特殊的

  實體是作為 DTD 的一部分加載和分析的,並且顯示在 DOCTYPE 節點下。它們不一定要有任何 XML:space 范圍。例如:


   Jane \n
  \t\n
  ">
  ]>
  &Jane;

假定 preserveWhiteSpace=false(在 DOCTYPE 標記范圍內),在分析實體時不重要的空白字符丟失。實體將不會有空白字符節點。樹將類似於:


   DOCTYPE foo
  ENTITY: Jane
  ELEMENT: employee
  ELEMENT: name
  TEXT: Jane
  ELEMENT: title
  TEXT>:Software Design Engineer
  ELEMENT: foo
  ATTRIBUTE: XML:space="preserve"
  ENTITYREF: Jane


  請注意,在 DOCTYPE 內部 ENTITY 節點下顯露的 DOM 樹不包含任何 WHITESPACE 節點。這意味著 ENTITYREF 節點的子節點也沒有 WHITESPACE 節點,即使實體引用在 XML:space="preserve" 的范圍內也是這樣。

  給定文檔中引用的每個 ENTITY 的實例通常都有相同的樹。

  如果實體必須絕對保留空白字符,那麼它必須在自己內部指定自己的 XML:space 屬性,或者文檔 preserveWhiteSpace 開關必須設置為 true。

  如何處理屬性中的空白字符?

  有幾種方式可以訪問屬性值。IXMLDOMAttribute 接口有 nodeValue 屬性,它等價於作為 Microsoft 擴展的 nodeValue 和 text 屬性。這些屬性返回: 屬性 返回的文本


   attrNode.nodeValue
  attrNode.value
  getAttribute("name") 返回和原始文檔中完全相同的內容(和擴展的實體)。
  attrNode.nodeTypedValue Null
  attrNode.text 除了前導和尾部的空白字符已經截斷之外,其他與 nodeValue 相同。 


  “XML 語言”規范為 XML 應用程序定義了下列行為: 屬性類型 返回的文本
  CDATA ID、IDREF、IDREFS、ENTITY、ENTITIES、NOTATION、枚舉

  半規范化 全規范化

  在此半規范化代表將新行和 tab 字符轉換為空格,但是多個空格不會退化為一個空格。

 

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved