Autor/s: Pascual, V.
CS IDEC. Institut Cartogràfic de Catalunya
Títol: Indexació semàntica per a les cerques al catàleg de metadades: cap a un cercador minimalista
Temātica: Infraestructura de Dades Espacials
Publicat a: Revista Catalana de Geografia
IV època / volum XVII / núm. 44 / febrer 2012
Font: II Jornadas Ibéricas de Infraestructuras de Datos Espaciales. Barcelona, novembre 2011
URL: http://www.rcg.cat/articles.php?id=234

INDEXACIÓ SEMÀNTICA PER A LES CERQUES AL CATÀLEG DE METADADES: CAP A UN CERCADOR MINIMALISTA

Víctor Pasual
Centre de Suport IDEC. Institut Cartogràfic de Catalunya
 



1. Introducció

Podríem definir una Infraestructura de Dades Espacials (IDE) com un conjunt de tecnologies, polítiques, estàndards, serveis i recursos humans necessaris per a la recopilació, la descripció, l'accés, la distribució i la utilització de dades geogràfiques a diferents nivells. Una IDE és una base per al descobriment de dades espacials, la seva avaluació i la seva utilització per tot tipus d'usuaris: del sector públic, empresarial, acadèmic, no governamental o ciutadans en general.

En un escenari òptim, tot usuari d'una IDE hauria de poder descobrir, per exemple, quina informació geogràfica existeix en una zona concreta del territori, visualitzar aquesta informació i finalment, si és del seu interès, descarregar-la.

Des d'un punt de vista tecnològic una IDE ha d'implementar aplicacions que permetin arribar a aquest escenari òptim. Una d'aquests aplicacions, si no la més important, és el catàleg de metadades.

La Infraestructura de Dades Espacials de Catalunya (IDEC), que fou la primera IDE creada a l'Estat espanyol l'any 2002, té com a missió promoure que les institucions d'àmbit català descriguin i comparteixen la seva informació geogràfica i que aquesta pugui ser accessible i interoperable de forma oberta i transparent pels usuaris finals.

L'any 2005, la Llei 16 d'Informació Geogràfica i de l' Institut Cartogràfic de Catalunya (ICC) atribuïa les funcions de creació, difusió, estructuració i manteniment de la Infraestructura de Dades Espacials de Catalunya a l'ICC, i dins el seu capítol cinquè, que regula la Infraestructura, crea el Centre de Suport (CS IDEC) com a aparell tècnic i òrgan bàsic de promoció, explotació i manteniment de la IDEC.

Així, doncs, és el CS IDEC l'encarregat de mantenir i impulsar el catàleg de metadades de la IDEC amb tota la informació geogràfica referent al territori català.


C
atàleg de metadades

El catàleg de metadades és, segurament, la peça més important dins de qualsevol IDE i podríem definir-lo com una base de dades espacial amb funcionalitats de registre que contindria l'inventari de tota la informació geogràfica disponible en un territori concret.

Esmentar que la implementació d'un catàleg de metadades és una tasca complexa i en alguns moments feixuga. El treball consisteix bàsicament a localitzar tots els possibles productors o distribuïdors de dades geogràfiques (departaments, ens públics, empreses privades, universitats, centres de recerca...) i convèncer-los de fer un inventari de tota la seva informació per seguidament descriure-la seguint un procés estandarditzat. Això és el què anomenem "creació de metadades".

No cal dir que la creació de metadades no és una tasca fàcil i implica conèixer i descriure al detall la informació de què es disposa. En una metadada cal descriure camps com l'escala de la informació, la data de creació, les dates de les revisions, l'accessibilitat, els formats de les dades, la qualitat, la distribució i la caixa de coordenades que correspon a la informació descrita.

Aquestes metadades, expressades amb llenguatge de marques extensible1 (XML) són codificades d'acord amb l'Oficina Internacional de Normalització (ISO)2, seguint les normes ISO 19115 per als conjunts de dades i ISO19119 per als serveis relacionats amb la visualització, procés o descàrrega de les dades. Són normes molt extenses on cada organisme té la llibertat de crear els seus esquemes seguint la realitat de les seves dades. A Catalunya existeix el perfil IDEC que conté un conjunt dels apartats expressats en aquestes normes ISO i que ha estat dissenyat per a catalogar les dades que s'hi produeixen.

Al mateix temps, la càrrega de tota aquesta informació dins d'un catàleg de metadades també es fa seguint les especificacions fixades per l'Open Geoespatial Consortium (OGC)3.

L'OGC és un consorci sense ànim de lucre, creada el 1994 i integrada per més de 400 empreses, agències governamentals i universitats. És l'encarregat de crear especificacions obertes que permetin la interoperabilitat geoespacial entre sistemes heterogenis sense un esforç real per l'usuari. En altres paraules, ha de permetre que el catàleg pugui ser interrogat de forma transparent per altres catàlegs o aplicacions que segueixin aquestes mateixes especificacions.

En qualsevol IDE la interoperabilitat entre els seus components i entre altres IDE es basa en especificacions OGC.

El paper d'OGC en el món geoespacial no és tan diferent del paper del W3C4 pel que fa a l'estandardització de la World Wide Web.

L'especificació "OGC Catalogue Services Specification" , és l'encarregada de definir les "regles de joc" tant alhora de definir el model de dades per emmagatzemar les metadades com de definir els protocols i paràmetres per a la interrogació de les metadades.

La primera versió de l'especificació va sortir l'any 1999 amb una clara motivació per definir una especificació ateses les enormes quantitats de recursos d'informació geoespacial que s'han distribuït entre les múltiples bases de dades, emmagatzemats en molts formats i en moltes interfícies d'accés diferents (Nerbert, 1999).

En aquest context el terme "Catàleg" es descriu com un conjunt d'interfícies de serveis que donen suport a l'organització, al descobriment i a l'accés a la informació geoespacial. Els catàlegs ajuden als usuaris o a les aplicacions de programari a trobar la informació que existeix en qualsevol lloc en un entorn de computació distribuïda (Kottman, 1999) .

En l'actual versió 2.0.2 (any 2009) s'estableix com a llenguatge d'interrogació l'anomenat CSW (Catalog Service for the Web), una codificació XML que permet la interrogació tant lògica com espacial de les metadades.

Durant aquest anys l'OGC ha anat definint diversos protocols i perfils d'aplicació per a integrar la gran quantitat de catàlegs amb informació espacial existents. Vegeu taula 1.

 Any  Versió  Les qüestions clau
 1999 1.0  L'aplicació per als entorns d'OLEDB, CORBA i ANSI Z39.50 (ISO 23950)
 2001 1.1.0 
 2002 1.1.1 
 2003 2.0.0 HTTP Protocol d'enllaç. CS-W (Catàleg de Serveis per a la Web)
 2004  2.0.0  ISO19115/ISO19119 perfil de l'aplicació de CS-W 2,0
 2005 2.0.1 
 2005 2.0.1 EbRIM (ISO / TS 15000-3) Perfil d'aplicació per al CS-W
 2007 2.0.2 
 2009 2.0.2 OWL perfil d'aplicació per al CS-W
 201? 3.0.0 OGC OpenSearch

Taula 1: Versions de les especificacions d'OGC Catàleg


Aplicacions web per a cercar metadades

Hem vist com la implementació d'un catàleg és subjecta a uns estàndards que bàsicament cerquen un nivell de comunicació màquina - màquina, la interconnexió entre catàlegs o entre terceres aplicacions especialitzades.

Però una gran part d'usuaris que cerquen informació no tenen per què conèixer aquesta manera de fer i, per tant, és indispensable que tota IDE construeixi una aplicació web, el més ràpida, usable i senzilla que permeti trobar tota la informació catalogada.

Al llarg d'aquests 10 anys de l'existència de l'IDEC, l'aplicació web per cercar les metadades ha estat la que més atenció i canvis ha experimentat dins de les aplicacions de la IDEC. Tots aquests canvis han seguit la mateixa tendència: reduir la complexitat i les opcions de cerca en el disseny de la interfície web i, exponencialment, augmentar la complexitat i el nombre de processos dins del servidor; processos sempre ocults per a l'usuari final.

Aquesta tendència a minimitzar les opcions de cerca no ha estat una evolució aïllada en el món de les IDE. Els factors clau, a nivell global, han estat les millores relacionades amb el disseny i la usabilitat web amb un compromís clar de centrar-se a respondre millor les demandes dels usuaris.

Òbviament, l'aparició de noves tècniques de programació web com AJAX (Asynchronous JavaScript And XML) i llibreries de programació web com ara jQuery5 o OpenLayers6 han afectat el disseny i el rendiment d'aplicacions web. Però, el major impacte, probablement, ha estat l'existència d'un motor de cerca com Google.

Aquest ha canviat el comportament dels usuaris alhora d'utilitzar aplicacions de cerca. Aquest impacte ha afectat a tots els nivells i dominis de les aplicacions basades en la cerca d'informació i, també, als catàlegs de metadades. Aquesta tendència ha estat anomenada "googlization" (Battelle, 2003; Salkever, 2003).

No hi ha volta enrere, Google ofereix un únic quadre de cerca, va molt ràpid i, en general, el que s'està cercant sempre apareix a la primera pàgina ben posicionat. Això no succeeix en la majoria dels motors de cerca de metadades, tot i contenir un volum molt menor d'informació i tenir una informació molt rica i ben estructurada.

Cercador de catàleg de la IDEC

A final de 2002 l'IDEC va publicar el seu primer cercador web de catàleg. Si observen la figura 1 veurem com l'usuari podia omplir fins a 18 caixes de cerca per encadenar fins a 8 opcions de cerca.

44_1_1

Figura 1: Cercador de catàleg IDEC. Any 2003.


Era, sens dubte, una aplicació enfocada a usuaris experts i que convidava a preguntar si existia allò concret en aquell lloc concret.

Estudis interns posteriors sobre l'ús que els usuaris finals feien del catàleg, van demostrar la poca efectivitat d'aquesta interfície de cerca. Per exemple , els usuaris experts que concatenaven més de tres opcions de cerca normalment obtenien resultats negatius.

No trobar res, en una operació de cerca lògica és, sens dubte, una experiència frustrant per a un usuari final i que cal evitar de totes les maneres.

Aquests tipus d'aplicacions web, molt esteses en la cerca de metadades, cometen - encara avui n'hi ha moltes - l'error de basar la seva interfície web amb una relació quasi d'1 a 1 amb els camps definits a la base de dades segons les especificacions d'OGC (vegeu taula 2).

Nom  Definició 
 Tema  El tema del contingut del recurs
 Títol  Un nom que es dóna al recurs
 Resum  Un resum del contingut del recurs
 AnyText  Un objectiu per a la recerca de text complet dels tipus de dades de caràcters en un catàleg
 Format  La manifestació física o digital del recurs
 Identificador  Una referència única per al registre en el catàleg
 Modificat  Data en què es va crear el registre o actualització en el catàleg
 Tipus La naturalesa o gènere del contingut del recurs. Pot incloure categories generals, gèneres o nivells d'agregació de continguts 
 BoundingBox  Un quadre de límit per a la identificació d'una àrea geogràfica d'interès
 CRS  Sistema de referència de les coordenades geogràfiques
 Associació  Declaració completa d'una relació un a un


Taula 2: Catàleg de serveis OGC elements comuns consultable


Cal, doncs, separar clarament els dictats dels estàndards alhora de catalogar les dades de les interfícies web de cerca pensades per a usuaris finals. Potser cal que en un primer moment l'usuari només es pregunti que hi ha en aquest lloc per després, mitjançant filtres, pugui anar acotant la cerca.

Un cercador de catàleg de metadades hauria de donar resposta a usuaris NO experts que no saben exactament com trobar allò que cerquen i ajudar a usuaris EXPERTS que si saben exactament el que cerquen però no ho troben. Tot això de forma usable, ràpida i fàcil.

Actualment el cercador de catàleg de la IDEC presenta només quatre opcions de cerca, per intentar donar sempre una primera resposta positiva a l'usuari.

Les quatre opcions són:

  • Per lloc (ON): Aquesta opció cerca sobre la base toponímica de Catalunya 1:5.000 i 1:50.000 i ofereix una llista de suggeriments mentre l'usuari està escrivint un nom de lloc. L'objectiu és obtenir les coordenades del lloc a cercar i així interrogar espacialment el catàleg. Això és possible ja que tots els catàleg de metadades tenen capacitat de cerca espacial i totes les metadades contenent, com un camp d'informació obligatori, l'àmbit espacial (caixa de coordenades) a què fan referència
  • Per text (QUÈ): En un primer moment, igual que en la cerca per lloc, aquesta opció oferia una llista de suggeriments a partir d'una taula indexada de termes descrits a les metadades. Aquesta opció s'ha reforçat amb l'ús de tècniques semàntiques que es descriuen en l'apartat següent.
  • Per organització: Aquesta opció mostra un llistat amb cada organització (proveïdor i/o distribuïdor) i el seu nombre de metadades de conjunts de dades, sèries i serveis disponibles en el catàleg. L'usuari només ha de fer un clic per accedir al proveïdor de metadades.
  • Per Mapa. El mapa es considera una opció de cerca també, no com abans, quan el mapa era només un "instrument" utilitzat per a obtenir les coordenades per a delimitar una cerca. Amb un únic clic al mapa o dibuixant un rectangle, es poden obtenir les metadades perquè interaccionin els seus àmbits amb les geometries dibuixades.


La figura 2 mostra una captació del cercador de metadades de la DEC. Com es pot veure, les cerques per lloc i text són a la part superior dreta, per organització a la part inferior del costat dreta i, finalment, el mapa a la banda esquerra.

44_1_2

Figura 2: Catàleg IDEC client web amb 4 opcions de cerca.

 

Val a dir que un cop feta la primer cerca, el catàleg mostra una llista de candidats. Aquesta llista pot ser refinada per l'usuari utilitzant valors com l'escala o el format de les dades.

Aquests valors de filtre tradicionalment havien format part de la primera pantalla de la cerca, però s'ha vist que el seu ús és més satisfactori com a un possible filtre que com a opció inicial de cerca.


Indexació semàntica

Un cop analitzat el comportament dels usuaris i els tipus de cerques llançades al catàleg, es va concloure que les cerques espacials i les cerques per llista tancada, com és la d'organismes, donaven resultats satisfactoris, mentre que la cerca per text, on l'usuari expressava lliurement el que volia cercar, retornava un percentatge importat de respostes negatives o errònies.

Alguns exemples clars extrets d'aquestes anàlisis seria quan l'usuari, per exemple, cercava "Inundacions" o "Pol·lució" i el catàleg retornava 0 resultats.

Efectivament no hi havia cap metadada que contingués aquesta cadena de text però sí que hi havia metadades que contenien informació sobre "Àrees inundables" o "Contaminació".

Per això, es va decidir de dotar el catàleg amb algunes capacitats semàntiques i una major complexitat en la banda del servidor. Bàsicament calia entendre millor que estava cercant l'usuari.

Les tècniques utilitzades consisteixen en crear taules indexades a partit dels principals camps d'informació de les metadades. Cada text és indexat amb el que s'anomena "stemming" o reducció de cada paraula a la seva arrel. Aquesta tècnica permet que una cerca que conté la paraula "Inundacions" retorni resultats amb el text "Inundables" ja que comparteixen la mateixa arrel.

Una altra tècnica utilitzada, i tenint en compte que els usuaris tendeixen a cercar a partir de conceptes claus, ha estat la descomposició de la cerca amb bigrames o parells de paraules i la posterior classificació dels resultats d'acord amb les vegades que apareixen en les metadades.

Així, per exemple, la cerca "contaminació riu Ter", respondria si:
Aparegués a la metadada "contaminació del riu Ter", "contaminació riu", "contaminació del Ter" o estiguessin en una mateixa metadada però en camps separats les paraules "contaminació", "riu" i "Ter".

Els primers resultats d'aplicar aquestes capacitats semàntiques han estat una millora considerable en el nombre dels resultats obtinguts. Així, per exemple, una cerca com "Zona agrícola" va passar de tenir un resultat a tenir-ne 485.

Sens dubte, no tots els 485 resultats obtinguts tenien a veure estrictament amb "Zones agrícoles", però si els més ben posicionats.

Això implica que en una futura segona fase s'incrementaran les capacitats semàntiques del catàleg afegint-hi coneixement expert que permeti classificar els conceptes a partir de famílies de sinòmins i homònims, per exemple. També s'aplicaran millores en les anomenades "facetes", que són classificacions a partir de textos similars obtinguts en els resultats i que permeten refinar les cerques temàticament.


Referències

  • Battelle, John (2003).The Creeping Googlization Meme.BusinessWeek Online. http://battellemedia.com/archives/000145.php. Web document.Last date accessed 12.2010.
  • Bernard,M (2003) .Optimal Web Design.Web document. http://uwf.edu/ddawson/d3net/documents/web_usability/optimal%20web%20design.pdf. Last date accessed 12.2010.
  • Bernard J. Jansen a,*, Amanda Spink(2005).How are we searching the World Wide Web? A comparison of nine search engine transaction logs. Web document.
    http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.90.4299&rep=rep1&type=pdf. Last date accessed 01.2011.
  • ISO, 2003. Geographic information - Metadata. ISO 19115:2003, International Organization for Standardization (ISO).
  • Kottman, C., 1999. The OpenGIS Abstract Specification. Topic13: Catalog Services (version 4). OpenGIS Project Document 99-113, OpenGIS Consortium Inc.
  • Martell, R (2005)OpenGIS Catalogue Services - ebRIM (ISO/TS 15000-3) profile of CSW. OpenGIS Project Document 05025r3, OpenGeoSpatial Consortium Inc.
  • Nebert, D., 2002. OpenGIS Catalog Services Specification, Version 1.1.1. OpenGIS project document 02-087r3, Open GIS Consortium Inc.
  • Nebert, D., 2004. OpenGIS - Catalogue Services Specification (version: 2.0). OpenGIS Project Document 04-021, Open GIS Consortium Inc.
  • Nebert, D.,Whiteside,A., Vretanos,P. 2007. OpenGIS - Catalogue Services Specification (version: 2.0.2). OpenGIS Project Document 07-006r1, OpenGeoSpatial Consortium Inc.
  • Nebert, D.,Whiteside,A,. 2005. OpenGIS - Catalogue Services Specification (version: 2.0.1).OpenGIS Project Document 04-021r3, OpenGeoSpatial Consortium Inc.
  • Nebert, D. (2004). Developing Spatial Data Infrastructures: The SDI Cookbook. Web document. http://www.gsdi.org/docs2004/Cookbook/cookbookV2.0.pdf. Last date accessed 12.2010.
  • Salkever A. (2003). Google Here, There, and Everywhere BusinessWeek Online. http://www.businessweek.com/technology/content/dec2003/tc20031216_9018_tc047.htm. Web document.Last date accessed 12.2010.


Notes

1. eXtensible Markup Language. Web: http://www.w3.org/XML
2.
 International Standards Office.web:
http://www.iso.org
3Open GeoSpatial Cosortium. Web: http://www.opengeospatial.org/

4. W3C. Web:
http://www.w3.org

5. Jquery.web:
http://jquery.com/
6. OpenLayers.web:
http://openlayers.org