Pull to refresh

Получение дерева уникальных элементов при помощи цепочного преобразования

Reading time12 min
Views2.5K
Многие ругают xslt за его ресурсоемкость, некрасивость, негибкость, сложность…да много за что еще, наверное, его ругают. Как раз для тех, кто ругает его по последним трем пунктам я и написала данный пост.

Этот пост признан компенсировать пробел в ваших знаниях и представить xslt во всей его красоте.

Недавно передо мной встала задача написать скрипт, который бы из исходного xml получал xml, состоящий только из уникальных элементов. Об исходном файле ничего заранее не известно, абсолютно ничего.


Файлы для экспериментов. Будем считать, что они указывают историю сессий на компьютере в интернет-клубе по логину пользователя.

Исходный:
  1. <computer_1>
  2.   <SentimentalSea>
  3.     <forum.tomsk.ru />
  4.     <free-lance.ru />
  5.     <somesite.com>
  6.       <forum.somesite.com>
  7.         <avto />
  8.         <examples />
  9.         <joblist />        
  10.       </forum.somesite.com>
  11.     </somesite.com>
  12.   </SentimentalSea>
  13.   <Liloo>
  14.     <forum.tomsk.ru />
  15.     <somesite.com>
  16.       <forum.somesite.com>
  17.         <avto />
  18.         <examples />        
  19.       </forum.somesite.com>
  20.     </somesite.com>
  21.   </Liloo>
  22.   <SentimentalSea>
  23.     <forum.tomsk.ru />
  24.     <somesite.com>
  25.       <forum.somesite.com>
  26.         <pets />        
  27.       </forum.somesite.com>
  28.     </somesite.com>
  29.   </SentimentalSea>
  30.   <Anonim_1>
  31.     <drom.ru />
  32.     <mamba.ru />
  33.   </Anonim_1>
  34.   <SentimentalSea>
  35.     <forum.tomsk.ru />
  36.     <ozon.ru />
  37.     <torrents.ru />
  38.   </SentimentalSea>
  39.   <Guest>
  40.     <forum.ru />
  41.     <somesite.com>
  42.       <forum.somesite.com>
  43.         <avto />
  44.         <examples />        
  45.       </forum.somesite.com>
  46.     </somesite.com>
  47.   </Guest>
  48.   <Anonim_1>
  49.     <exapmle_example.ru />
  50.   </Anonim_1>
  51. </computer_1>
* This source code was highlighted with Source Code Highlighter.


Результат:
  1. <?xml version="1.0"?>
  2. <computer_1>
  3.  <SentimentalSea>
  4.   <forum.tomsk.ru/>
  5.   <free-lance.ru/>
  6.   <somesite.com>
  7.    <forum.somesite.com>
  8.     <avto/>
  9.     <examples/>
  10.     <joblist/>
  11.     <pets/>
  12.    </forum.somesite.com>
  13.   </somesite.com>
  14.   <ozon.ru/>
  15.   <torrents.ru/>
  16.  </SentimentalSea>
  17.  <Liloo>
  18.   <forum.tomsk.ru/>
  19.   <somesite.com>
  20.    <forum.somesite.com>
  21.     <avto/>
  22.     <examples/>
  23.    </forum.somesite.com>
  24.   </somesite.com>
  25.  </Liloo>
  26.  <Anonim_1>
  27.   <drom.ru/>
  28.   <mamba.ru/>
  29.   <exapmle_example.ru/>
  30.  </Anonim_1>
  31.  <Guest>
  32.   <forum.ru/>
  33.   <somesite.com>
  34.    <forum.somesite.com>
  35.     <avto/>
  36.     <examples/>
  37.    </forum.somesite.com>
  38.   </somesite.com>
  39.  </Guest>
  40. </computer_1>
* This source code was highlighted with Source Code Highlighter.


Вот что у меня получилось в итоге, помимо слез радости от проделанной работы:
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <xsl:stylesheet xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
  3.         version="1.0"
  4.         xmlns:exsl="http://exslt.org/common"
  5.         exclude-result-prefixes="exsl">
  6.  
  7. <xsl:output method="xml" indent="yes" encoding="UTF-8"/>
  8.  
  9. <xsl:template match="/">  
  10.   <xsl:variable name="var_NodeWithPath">
  11.     <xsl:apply-templates select="*" mode="WhoMyRelatives"/>      
  12.   </xsl:variable>  
  13.   <xsl:apply-templates select="exsl:node-set($var_NodeWithPath)/*" mode="INeedYourTree"/>
  14. </xsl:template>
  15.  
  16. <xsl:template match="*" mode="WhoMyRelatives">  
  17.   <xsl:param name="parents"/>   
  18.   <xsl:element name="{name()}">
  19.     <xsl:attribute name="path">
  20.       <xsl:value-of select="concat($parents, '/', name(.))"/>
  21.     </xsl:attribute>
  22.     <xsl:apply-templates select="child::*" mode="WhoMyRelatives">     
  23.       <xsl:with-param name="parents">
  24.         <xsl:choose>          
  25.           <xsl:when test="not(boolean($parents))">
  26.             <xsl:value-of select="name(.)"/>
  27.           </xsl:when>          
  28.           <xsl:otherwise>
  29.             <xsl:value-of select="concat($parents, '/', name(.))"/>
  30.           </xsl:otherwise>
  31.         </xsl:choose>
  32.       </xsl:with-param>      
  33.     </xsl:apply-templates>
  34.   </xsl:element>   
  35. </xsl:template>
  36.  
  37. <xsl:template match="*" mode="INeedYourTree">
  38.   <xsl:element name="{name()}">  
  39.     <xsl:apply-templates select="*" mode="tree"/>     
  40.   </xsl:element>
  41. </xsl:template>
  42.  <xsl:template match="*" mode="tree">
  43.   <xsl:variable name="name" select="name(.)"/>
  44.   <xsl:variable name="path" select="./@path"/> 
  45.   <xsl:if test="generate-id(.) = generate-id(ancestor::*//child::*[name() = $name][@path = $path])">
  46.     <xsl:element name="{$name}">    
  47.       <xsl:apply-templates select="ancestor::*//child::*[name() = $name][@path = $path]/child::*" mode="tree"/>        
  48.     </xsl:element>            
  49.   </xsl:if>
  50.  </xsl:template>
  51. </xsl:stylesheet>
* This source code was highlighted with Source Code Highlighter.


А теперь поясню все, что я понаделала выше:

1. Первым делом мы подключаем расширения для xslt c exslt.org и назначаем ему пространство имен exsl, чтобы в будущем воспользоваться одной из возможностей данной библиотеки;

2. exclude-result-prefixes=«exsl» – этой строкой мы отключаем префикс из результатов трансформации, дабы не засорять эти самые результаты. Иногда, когда я забываю это сделать, приходится потом долго ломать голову, а почему я получаю на выходе совсем не то, что нужно получить;

3. <xsl:output method=«xml» indent=«yes» encoding=«UTF-8»/> — этой строкой мы говорим xslt процессору, что на выходе хотим получить валидный xml с отступами и с кодировкой UTF-8;

4. <xsl:template match="/"> — заходим в корень нашего таинственного документа;

5. Дальше мы берем наш исходный документ и к каждому элементу дописываем атрибут path, содержащий полный путь до него, начиная от корня и пробираясь все дальше по нашему дереву. Делаем мы это при помощи шаблона с <xsl:template match="*" mode=«WhoMyRelatives»> и записываем результат его работы в переменную var_NodeWithPath. А делаем мы это следующим образом:
  • <xsl:apply-templates select="*" mode=«WhoMyRelatives»/> — заходим в корень;
  • <xsl:element name="{name()}"> — добавляем в результат имя текущего элемента (не забывайте про фигурные скобочки);
  • <xsl:attribute name=«path»><xsl:value-of select=«concat($parents, '/', name(.))»/></xsl:attribute> — и атрибут, содержащий полный путь до него;
  • <xsl:apply-templates select=«child::*» mode=«WhoMyRelatives»> — а тут функция вызывает саму себя и обрабатывает уже потомков данного узла, добавляя в переменную parents все новые и новые подробности;

6. Получив, наконец-то, нашу var_NodeWithPath переменную мы тут же преобразовываем ее в xml при помощи функции exsl:node-set и работаем уже с этим «файлом» — <xsl:apply-templates select=«exsl:node-set($var_NodeWithPath)/*» mode=«INeedYourTree»/> . Кстати, вот что в ней находится (спонсор вывода переменной – copy-of):

  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <computer_1 path="/computer_1">
  3.  <SentimentalSea path="computer_1/SentimentalSea">
  4.   <forum.tomsk.ru path="computer_1/SentimentalSea/forum.tomsk.ru"/>
  5.   <free-lance.ru path="computer_1/SentimentalSea/free-lance.ru"/>
  6.   <somesite.com path="computer_1/SentimentalSea/somesite.com">
  7.    <forum.somesite.com path="computer_1/SentimentalSea/somesite.com/forum.somesite.com">
  8.     <avto path="computer_1/SentimentalSea/somesite.com/forum.somesite.com/avto"/>
  9.     <examples path="computer_1/SentimentalSea/somesite.com/forum.somesite.com/examples"/>
  10.     <joblist path="computer_1/SentimentalSea/somesite.com/forum.somesite.com/joblist"/>
  11.    </forum.somesite.com>
  12.   </somesite.com>
  13.  </SentimentalSea>
  14.  <Liloo path="computer_1/Liloo">
  15.   <forum.tomsk.ru path="computer_1/Liloo/forum.tomsk.ru"/>
  16.   <somesite.com path="computer_1/Liloo/somesite.com">
  17.    <forum.somesite.com path="computer_1/Liloo/somesite.com/forum.somesite.com">
  18.     <avto path="computer_1/Liloo/somesite.com/forum.somesite.com/avto"/>
  19.     <examples path="computer_1/Liloo/somesite.com/forum.somesite.com/examples"/>
  20.    </forum.somesite.com>
  21.   </somesite.com>
  22.  </Liloo>
  23.  <SentimentalSea path="computer_1/SentimentalSea">
  24.   <forum.tomsk.ru path="computer_1/SentimentalSea/forum.tomsk.ru"/>
  25.   <somesite.com path="computer_1/SentimentalSea/somesite.com">
  26.    <forum.somesite.com path="computer_1/SentimentalSea/somesite.com/forum.somesite.com">
  27.     <pets path="computer_1/SentimentalSea/somesite.com/forum.somesite.com/pets"/>
  28.    </forum.somesite.com>
  29.   </somesite.com>
  30.  </SentimentalSea>
  31.  <Anonim_1 path="computer_1/Anonim_1">
  32.   <drom.ru path="computer_1/Anonim_1/drom.ru"/>
  33.   <mamba.ru path="computer_1/Anonim_1/mamba.ru"/>
  34.  </Anonim_1>
  35.  <SentimentalSea path="computer_1/SentimentalSea">
  36.   <forum.tomsk.ru path="computer_1/SentimentalSea/forum.tomsk.ru"/>
  37.   <ozon.ru path="computer_1/SentimentalSea/ozon.ru"/>
  38.   <torrents.ru path="computer_1/SentimentalSea/torrents.ru"/>
  39.  </SentimentalSea>
  40.  <Guest path="computer_1/Guest">
  41.   <forum.ru path="computer_1/Guest/forum.ru"/>
  42.   <somesite.com path="computer_1/Guest/somesite.com">
  43.    <forum.somesite.com path="computer_1/Guest/somesite.com/forum.somesite.com">
  44.     <avto path="computer_1/Guest/somesite.com/forum.somesite.com/avto"/>
  45.     <examples path="computer_1/Guest/somesite.com/forum.somesite.com/examples"/>
  46.    </forum.somesite.com>
  47.   </somesite.com>
  48.  </Guest>
  49.  <Anonim_1 path="computer_1/Anonim_1">
  50.   <exapmle_example.ru path="computer_1/Anonim_1/exapmle_example.ru"/>
  51.  </Anonim_1>
  52. </computer_1>
* This source code was highlighted with Source Code Highlighter.


7. После того, как мы поместили нашу переменную в шаблон «INeedYourTree», мы выводим имя корня документа, а потомков пропускаем через шаблон «tree», в котором-то и происходит самое интересное;

8. В шаблоне «tree» мы делаем следующее:
  • <xsl:variable name=«name» select=«name(.)»/> — запоминаем имя текущего элемента;
  • <xsl:variable name=«path» select="./@path"/> — запоминаем его xPath;
  • <xsl:if test=«generate-id(.) = generate-id(ancestor::*//child::*[name() = $name][@path = $path])»> — если текущий элемент первый в своем роде (первый из всех с таким же значением атрибута path), то…
  • <xsl:element name="{$name}"> <xsl:apply-templates select=«ancestor::*//child::*[name() = $name][@path = $path]/child::*» mode=«tree»/> — выводим этот элемент и собираем всех потомков текущего узла и узлов с такой же историей.

Вот и все. Надеюсь, что кому-то мой опыт принесет пользу. Спасибо за внимание.

UPD:
MikhailEdoshin  предложил более элегантное решение данной задачи:
  1. <?xml version="1.0" encoding="UTF-8"?>
  2. <xsl:stylesheet version="1.0"
  3.  xmlns:xsl="http://www.w3.org/1999/XSL/Transform">
  4.  
  5.  <xsl:template match="/">
  6.   <!-- Initialize -->  
  7.   <xsl:apply-templates select="*[1]">
  8.    <xsl:with-param name="found-set" select="*" />
  9.   </xsl:apply-templates>
  10.  </xsl:template>
  11.  
  12.  <xsl:template match="*">
  13.   <xsl:param name="found-set" />
  14.   <xsl:copy>
  15.    <!-- Process children of all found elements with same names. -->
  16.    <xsl:variable name="children" select="$found-set[name() = name(current())]/*" />  
  17.    <xsl:apply-templates select="$children[1]">
  18.     <xsl:with-param name="found-set" select="$children" />
  19.    </xsl:apply-templates>
  20.   </xsl:copy>  
  21.   <!-- Exclude all siblings with the same name and continue -->
  22.   <xsl:variable name="remaining-siblings" select="$found-set[name() != name(current())]" />  
  23.   <xsl:apply-templates select="$remaining-siblings[1]">
  24.    <xsl:with-param name="found-set" select="$remaining-siblings" />
  25.   </xsl:apply-templates>
  26.  </xsl:template>
  27.  
  28. </xsl:stylesheet>
* This source code was highlighted with Source Code Highlighter.
Tags:
Hubs:
+22
Comments16

Articles

Change theme settings