domingo, 30 de marzo de 2014

Tecnologías de la web semántica (MOOC)

Tecnologías de la web semántica (MOOC)

Este curso introduce a los fundamentos de las tecnologías de la web semántica, es decir, cómo representar el conocimiento y cómo acceder a los datos semánticos de la web y usarlos. Está enseñado en inglés por el doctor Harald Sack, investigador en el Instituto Hasso Plattner de Potsdam, y está disponible en la plataforma openHPI.

Desarrollo del curso


Este curso se divide en seis semanas, comprendiendo cerca de cuatro horas de contenido por semana (incluyendo las tareas). Un excursus también se ofrece en el medio del curso para presentar maneras de enriquecer los sitios web con metadatos semánticos (a través de los microformatos, el RDFa y schema.org). En conjunto, este curso requiere al menos 25 horas para ser visto, sin añadir ningún contenido adicional, ni pasar MCQ o examen. Cada semana (o lección) contiene un promedio de siete videos de 15 hasta 20 minutos seguidas por una prueba. Cada curso se concluye con un trabajo de tiempo limitado de una hora con fecha de entrega. Sin embargo, este curso estaba en el modo archivo cuando lo seguí. En este modo, los temas de las tareas no están disponibles, sólo sus soluciones. Finalmente, el curso se termina con un examen final de tres horas, pero también no está disponible en el modo archivo.

El Dr. Harald Sack, quien da clases de este curso, es un investigador senior y jefe del grupo de investigación sobre las tecnologías de la web semántica del Instituto Hasso Plattner de Potsdam.

Contenido


Este curso tiene como objetivo explicar todo el conjunto de las tecnologías de la web semántica. Empezando con la historia de la web, muestra sus límites y cuanto es necesario un enfoque semántico para superarlas. Pero, ¿qué significa exactamente la semántica? El triángulo semiótico lo explica concisamente: un símbolo simboliza un concepto, que hace referencia a un objeto, y el símbolo representa este objeto. Los formalismos RDF y el Esquema RDF están introducidos después para representar estos triples de datos, desde su representación mediante grafos hasta XML y sintaxis Turtle. Después de haber sido mostrado cómo construir pequeñas bases de conocimiento mediante las cuales podemos inferir datos implícitos a partir de los explícitos, el curso nos enseña como ir más lejos interrogando a estas bases con SPARQL, que es un poco más que un sencillo lenguaje de consulta. El problema del almacenamiento de datos RDF(S) está ilustrado por varias implementaciones de triplestores en bases de datos relacionales. Sin embargo, el RDF(S) aún carece de expresividad semántica. Se nos presenta a continuación la historia de las ontologías en filosofía, y después en representación del conocimiento, luego pasamos a la lógica proposicional y a la lógica de primer orden, y a unos algoritmos de resolución (forma normal conjuntiva y métodos de tableaux). Pasamos a continuación a la lógica descriptiva, al lenguaje de ontologías web OWL (y más específicamente su variante OWL2, que es muy expresiva pero todavía decidable), y a las reglas (incluyendo Datalog y algunas palabras sobre SWRL y RIF). Después de haber hecho hacking de ontologías, ahora tenemos que pasar a la ingeniería de ontologías, es decir utilizar metodologías para conceptualizar, cartografiar y fusionar ontologías, ya que necesitan, como otros proyectos, estar gestionadas, planificadas, desarrolladas, validadas por la Garantía de la Calidad, mantenidas… El proceso 101 está explicado, también como el proceso unificado y los patrones de diseño que están describidos brevemente. También se nos presenta el Linked Open Data y formas de interactuar con él, lo que está ilustrado por el problema del reconocimiento de nombres de entidades, todo lo cual llevandonos a diferentes enfoques de la búsqueda semántica, y en particular a la búsqueda exploratoria.

Requisitos previos


Este curso tiene algunos requisitos previos, especialmente un conocimiento básico de las tecnologías web (URL, http, HTML, XML), de las bases de datos relacionales y del SQL, y de lógica (lógica proposicional y de primer orden).


Beneficios y otras reflexiones


El excursus sobre la implementación de datos semánticos en el código HTML es bastante interesante, especialmente cuando ya conocemos el RDF. Sin embargo (pero esto es sólo mi opinión), no lo creo muy útil de un punto de vista SEO. Porque incluso si Google puede mostrar fragmentos enriquecidos en sus resultados de búsqueda (fotografía del autor, votos, migas de pan…) a partir de los datos legibles por máquina con las cuales enriquecemos nuestro contenido, puede también completamente ignorarlos o utilizarlos para sus propios fines, acumulando datos semántico libres para mostrarlos a voluntad en su página de resultados de búsqueda donde los usuarios podrán encontrar todos los datos que necesitan sin tener que visitar los sitios donde proceden. En este sentido, proporcionar metadatos semánticos ya es trabajar para la máquina, estos fragmentos pudiendo fácilmente estar desconectados de su contenido original y de su contexto. Por otro lado, estos datos legibles por máquina también podrían ser una de las razones por las cuales una página específica se muestra en los primeros resultados de los SERPs.

Otro punto interesante es la búsqueda semántica exploratoria ya implementada por Google en su primera página de resultados, que también ilustra el primer punto. Una vez reconocida una entidad denominada en el campo de búsqueda, se muestra un resultado del grafo de conocimiento en la parte derecha de la página, incluyendo datos de Wikipedia (y de su contrapartida semántica DBpedia) y de otras fuentes, como hechos, libros, películas, etc. Los usuarios son guiados en su búsqueda exploratoria, pero los sitios que proporcionan esta información no son por lo tanto más visitados, lo que puede matar su modelo de negocio, y Google puede ser visto como el último depredador de la cadena de conocimiento (lo que no significa que un motor de búsqueda exploratoria de tamaño suficiente no beneficiaría sus usuarios soportando búsquedas que un motor de búsqueda basado en palabras claves sería incapaz de tratar).

También es una buena ilustración del hecho de que el ecosistema web actual ha desarrollado un conjunto de reglas que han pervertido la ideología de sus inicios. Los datos no son gratuitos, y la mayoría se crean con un coste, o para aprovechar deles, que sea por el reconocimiento, el tráfico o por los ingresos publicitarios. El movimiento Open Data es emblemático de la lucha por liberar los datos recogidos a través de la financiación pública. Así, Wikipedia puede ser visto como un resurgimiento de la Ilustración a través de un proceso colaborativo, pero el resto de la web está principalmente dirigido por fuerzas económicas. Tenemos a nuestro alcance una enorme cantidad de datos. No obstante, los mismos motores de búsqueda que nos ayudan a navegar en este océano también dictan como los consumimos. ¿Es la web semántica el futuro de la web, o simplemente una manera para los grandes jugadores de organizar este diluvio de datos para sus propios fines?

Lecturas sugeridas


Aplicaciones Web semánticas y datos semánticos: Una aproximación para la simplificación de su desarrollo y de su uso

Aplicaciones Web semánticas y datos semánticos: Una aproximación para la simplificación de su desarrollo y de su uso, por Mariano Rico Almodóvar, Editorial Académica Española (2012)
A Developer’s Guide to the Semantic Web

A Developer’s Guide to the Semantic Web, por Liyang Yu, Springer (2011)
Programming the Semantic Web

Programming the Semantic Web, por Toby Segaran, Colin Evans & Jamie Taylor, O’Reilly Media (2009)


Semantic Web Technologies (MOOC) (en inglés)
Technologies du web sémantique (MOOC) (en francés)
Tecnologias da Web Semântica (MOOC) (en portugués)

1 comentario:

  1. Una buena noticia para las personas que están interesadas por la web semántica: este curso se ofrecerá de nuevo del 26 de maio al 15 de julio de 2014. Más detalles en el sitio del openHPI https://openhpi.de/courses/semanticweb2014

    ResponderEliminar