Your address will show here +12 34 56 78
Cosas de Betistas

Allá por marzo, Santi Pérez Isasi publicó en este blog una entrada sobre Humanidades Digitales. El tema parece estar últimamente en boca de todos y su proyección es indudable, pero a veces podría parecer que las Humanidades Digitales están solo al alcance de grandes grupos de investigación con grandes proyectos y un presupuesto enorme para pagar informáticos, o de expertos programadores que llevan años trabajando en el tema. Bueno, en parte sí, pero el caso es que hay Humanidades Digitales y Humanidades Digitales, y como están creciendo tan rápidamente y son tan ambiciosas, hoy en día es complicado encontrar husmeando por Internet el punto de partida por el que debería comenzar alguien novato pero curioso. Personalmente lo que me ha resultado más difícil ha sido encontrar ejemplos de trabajos de investigación en hispanismo (artículos, capítulos de libro) que utilicen una metodología digital. Debo aclarar que no soy ninguna experta en el tema, pero sí que soy curiosa, y por eso hice un par de cursos sobre HD y me puse a aplicar modestamente algunas cositas, así que me he decidido después de varias conversaciones con colegas de profesión, a contar aquí algunas formas sencillas en las que los que no tienen ni idea de programación, ni etiquetado, ni estadística (todavía), pueden empezar a incorporar a su investigación herramientas digitales que van a serles útiles. Lo haré utilizando algunos ejemplos de mis propios intentos humildes de jugar con las herramientas. Va a ser rápido, fácil e indoloro:

AntConc:

AntConc es un programa gratuito muy útil para la minería textual (ya estamos con las palabrejas…). Se puede bajar de esta web. Lo primero que tienes que hacer para utilizarlo es encontrar los textos que quieras utilizar en versión digital. Hay diferentes bibliotecas virtuales que te pueden ayudar en el empeño, como nos recordaba Guillermo Gómez en la entrada de abril. Una vez hecho esto, lo mejor es que pases los textos (copiar y pegar) a un documento de texto sí, el viejo .txt del Bloc de notas que nunca has sabido muy bien para qué servía (aunque en lugar de usar el Bloc de notas, os aconsejo que os bajéis el Notepad++, si seguís con el tema digital, os será útil). Si son varios los libros con los que vas a trabajar, guarda cada libro en un documento de texto diferente. Ahora ya puedes subirlos a AntConc. Este tutorial explica de manera muy clara y sencilla cómo hacerlo y cómo utilizar las diferentes herramientas que incluye.

¿Para qué me va a servir?

Con AntConc puedes obtener una lista de las palabras más frecuentes de un texto o varios textos, y ver las palabras que las rodean. O incluso visualizar en qué partes del texto aparece una palabra y en cuáles no:

Os pongo un ejemplo: en varios textos críticos del siglo XX se acusaba a los filipinos de escapistas por escribir obras modernistas y se les afeaba que no se ocuparan de las cuestiones que acuciaban al país, que se encontraba en una encrucijada histórica. Les criticaban que no contribuyeran a la construcción colectiva de una identidad distintivamente filipina. Wenceslao Retana llegaba a llamar “Adelfos” a los modernistas filipinos, por usar esta flor, que no es autóctona del archipiélago asiático, en sus poemas. Medio en serio medio en broma, me puse a comparar la frecuencia de aparición de algunas flores en los poemas filipinos gracias a AntConc, con la que aparecía en poemas modernistas extraídos del CORDE (Corpus Diacrónico del Español), con el siguiente resultado:

En el CORDE simplemente tienes que seleccionar el género deseado y el intervalo de años y meter la palabra que quieres encontrar para que te dé el resultado. Ambos, el CORDE y AntConc nos pueden dar el número de veces que aparece una plantita en cuestión en una serie de textos. Si este resultado lo multiplicas por cien y lo divides entre el número total de palabras del texto o textos que estás midiendo, obtienes la frecuencia relativa de dicha palabra. Parece que tan Adelfos no eran los filipinos, que de hecho utilizan mucho más en sus poemas la Sampaguita, una flor autóctona del lugar. El diagrama está hecho en Powerpoint, dándole a “insertar gráfico” y metiendo como datos del gráfico los valores relativos que hemos obtenido. Este ejemplo es un poco tontón, pero nos puede hacer pensar en nuestra propia investigación… ¿cuántas veces aparecerá “oriente” o palabras relacionadas (Asia, China, Japón… se pueden hacer varias búsquedas a la vez) en los poemas de Rubén Darío? ¿y América? ¿Y si resulta que el nicaragüense tampoco era tan escapista? ¿Qué palabras o sentimientos asocia Darío a oriente? ¿Y los filipinos? ¿Y los españoles que escribían en la misma época? Todo esto se puede descubrir jugando un poco con AntConc.

Voyant Tools

Voyant Tools es una aplicación online para la visualización de datos cuantitativos en textos. Es decir, que él solito también te cuenta las palabras y te hace nubes de palabras y otros gráficos. Es sencillísimo de utilizar, se suben directamente aquí los textos (en formato .txt, como en AntConc). Tiene algunas desventajas respecto a AntConc que es más “certero”, pero en general, para un corpus no demasiado grande de textos, funciona bien. Como sucede en AntConc, puedes utilizar listas de stop-words es decir, palabras muy utilizadas en español (como preposiciones, conjunciones o verbos copulativos) que siempre coparán los primeros puestos en nuestras listas de palabras más frecuentes, pero que no aportan demasiado al significado semántico del texto, pero aquí no puedes utilizar lematizaciones (listas de palabras que hacen que a la hora de contar las frecuencias, el singular y el plural de una palabra cuenten como una sola palabra, por ejemplo, o las diferentes conjugaciones de un verbo):

¿Para qué sirve?

Dos imágenes valen más que mil palabras. Siguiendo con la cuestión del nacionalismo y el modernismo hacia la que apuntaba antes, mirad estas dos imágenes hechas con voyant-tools:

En la primera imagen vemos que entre las palabras más frecuentes de los textos filipinos encontramos varias directamente relacionadas con su patria e identidad. La segunda es un poco más difícil: mirad en la parte filipina cómo por lo general, cuando sube la línea verde (patria) sube también la rosa (oriente) y cuando baja una, la ora también baja, es decir, que no se cruzan. En la parte de Rubén Darío, la línea rosa y la amarilla están todo el rato cruzándose. Esto indica que en el primer caso, en los fragmentos del texto (lo podemos dividir en los fragmentos que queramos) que aparece la palabra “patria” también aparece la palabra “oriente”. En el segundo caso, lo que sucede es que cuando aparece “oriente” no aparece “patria” y viceversa. Esto nos puede servir para hablar de antagonismos, pero de manera muy general… hay una manera mucho más sofisticada de hacerlo con programas estadísticos como ‘R’ en los que además se compara estas diferencias de apariciones con las frecuencias y diferencias de otras palabras aleatorias para asegurarse de que los resultados dados son relevantes, pero por el momento, para dar una idea inicial de la cuestión, Voyant-tools o Overviewdocs, son dos instrumentos intuitivos y suficientes.

Gephi y GIGRAPH

Digamos que Gephi es una herramienta mucho más potente que GIGRAPH, pero ambas sirven para cosas muy parecidas. Gephi es un programa para visualizar redes. Tienes un manual de instrucciones en español aquí. GIGRAPH es un complemento de Excel mucho más básico y más sencillo de utilizar, pero también nos puede servir para la visualización de redes que no tengan demasiados elementos, como puedes ver aquí:

¿Para qué puede servir?

Para visualizar relaciones de elementos. Sigo explicando con el ejemplo de las imágenes de arriba: en ambos casos lo que he hecho ha sido una tabla con los nombres de todos los autores filipinos en español de cierta antología, y he puesto al lado los periódicos para los que han trabajado, así:

Esta tabla de Excel, al introducirla en Gephi o en GIGRAPH me muestra cuáles son los periódicos en torno a los que se agrupaban más autores, y qué autores escribían con qué otros en qué periódicos, lo que para estudiar cuestiones de canon me ha sido muy útil.

También se puede aplicar a minería de textos utilizando AntConc, pero eso lleva algo más de trabajo… ¡todo es cuestión de ir jugando con las herramientas!

Heurist

La última herramienta de la que voy a hablar fue desarrollada por la Universidad de Sydney y también es bastante intuitiva de utilizar. Sirve para crear bases de datos y buscar en ellas sin tener que recurrir a complicados lenguajes y códigos. Ellos proporcionan los tipos de elementos que puedes introducir y tú los puedes modificar como quieras. También ofrecen una plataforma de visualización a partir de los datos introducidos. Además, si quieres, tu base de datos será accesible a todo el mundo, siguiendo la filosofía de compartir y colaborar por la que se rigen la mayoría de iniciativas de Humanidades Digitales.

¿Para qué me puede servir a mí?

Pensemos en cosas como el “Campo literario” de Pierre Bourdieu. Si miramos el campo literario desde un punto de vista sociológico veremos que hay diversos factores que participan de él: los premios literarios, los periódicos en que publican los autores y sus ideologías, las editoriales, sus relaciones con los periódicos… todo forma una gran red de conexiones. Crear una base de datos puede servirnos, por ejemplo, para comprender el funcionamiento de esa red. Tomemos como ejemplo, por salir un poco de Filipinas, el mundillo literario de Barcelona de los años 90. Introduce una ficha de cada autor. Esa ficha indica las revistas en las que ha escrito, los libros que ha publicado, las editoriales con las que ha trabajado y los premios que ha ganado. Hay además, una ficha para cada revista literaria de la época, para cada periódico, cada premio… y estas fichas se “mencionan” unas a otras, de manera que puedes visualizar la red o preguntar cosas a la base de datos como ¿en qué periódicos escribían todos los que ganaron x premio literario? O ¿Cuál es la profesión mayoritaria de los escritores de cierto lugar en cierta época? Por supuesto que sirve, esta herramienta y todas, para muchas otras cosas. Como os decía arriba, solo propongo algunos ejemplos de lo que yo he ido haciendo con ellas.

Bonus Track: el entorno EVI del grupo LINDH

Si os ha picado la curiosidad con la cuestión digital y os apetecería comenzar un proyectillo más allá de lo individual, el grupo de Humanidades Digitales de la UNED, LINDH, ha creado una plataforma llamada EVI (Entorno Virtual de Investigación), “un entorno al alcance de todos para crear proyectos en Humanidades Digitales” como dice su propia web. Es gratuito, solo hay que registrarse.

¿Para qué puede servir?

EVI propone tres tipos de proyecto, para los cuales proporciona las herramientas: un Entorno de Edición Digital, una Biblioteca Digital y una página web. El vídeo introductorio puede resolver muchas dudas. Y hasta aquí la introducción de Humanidades Digitales para novatos. Que me disculpen los expertos y que tengan en cuenta que esto es solo el principio… a partir de aquí la experiencia práctica y teórica no tiene límites… pero por algún lado hay que empezar. Buena suerte. Rocío Ortuño Casanova.

0

Cosas de Betistas
Los investigadores en Humanidades sabemos bien que la biblioteca es el centro de toda nuestra actividad. No hay filólogo, historiador, sociólogo, lingüista… que pueda prescindir de los libros, independientemente de su objeto de estudio. Eso sí, desde hace unos años (y cada vez más) los libros no tienen por qué ser esos objetos impresos que se coleccionan, una vez leídos, en las estanterías del despacho o de la habitación. Nuestra sociedad parece salida de un sueño de Isaac Asimov, y en ella la relación con la información es cada vez más etérea e inmediata. En el caso de las Ciencias Humanas y Sociales, desde luego, ya no es necesario que pase ningún papel impreso por nuestras manos para profundizar en el conocimiento. ¿Pero dónde está entonces lo que a nosotros nos interesa y cómo encontrarlo en medio de un mar de ruido informativo? A buen seguro, el investigador que esté leyendo estas líneas ya tiene bien localizados los recursos de consulta más importantes para su disciplina. No intentaremos aquí ofrecerle nuevas herramientas que le hagan cambiar radicalmente su manera de trabajar, pero sí procuraremos ayudarle a entender algunos aspectos clave de la historia y el funcionamiento de las bibliotecas digitales. Siguiendo la línea de otras publicaciones de este mismo blog, esperamos contribuir a que el lector saque todo el jugo a los recursos que ya conoce y que se familiarice con las ventajas e inconvenientes de difundir sus trabajos por medio de alguna biblioteca digital.
1) El investigador y su identidad digital
Antes de entrar en materia, es necesario tener en cuenta que en la sociedad actual vivimos en digital. Para empezar, tenemos una identidad virtual que nos define como investigadores (y como ciudadanos) y que se refleja en portales como ORCID, Academia.edu, Humanities Commons, Google Académico… Por eso es fundamental aprender a relacionarnos con los datos (propio y ajenos), entender su estructura y, llegado el caso, rebelarnos contra la relevancia que nos dice qué información consumir y cuál obviar. Porque la finalidad de la investigación es traspasar los límites del conocimiento e ir hasta donde nadie había conseguido llegar todavía, como exploradores de un nuevo mundo. Poco a poco nuestros trabajos se van integrando en las distintas bibliotecas digitales que ya existen y también ahí nuestra personalidad digital ofrece una imagen al mundo. Pero no, no todas las bibliotecas digitales son iguales ni su extensión se limita a las obras que están en Google Libros. Por eso es necesario conocer su funcionamiento un poco mejor.
2) La biblioteca digital y los textos: el modelo del Proyecto Gutenberg
Desde que en 1971 naciera el Proyecto Gutenberg, muchas han sido las bibliotecas digitales que han surgido con la intención de convertirse en un núcleo de textos transcritos en HTML (lo que se conoce como texto plano) a disposición de los lectores. Dicho de otro modo, las primeras bibliotecas digitales tenían una clara función: ofrecer textos limpios a través de internet, aprovechando su capacidad de difusión. En el ámbito del Hispanismo, uno de los pioneros en este tipo de ediciones digitales (muy anteriores al ebook) es el portal de la Biblioteca Virtual Miguel de Cervantes que, en la actualidad (y a imitación del Proyecto Gutenberg) organiza sus contenidos en torno a colecciones tan dispares como lo puedan ser la dedicada al «Teatro clásico español», a la «Literatura filipina en español» o a grandes referentes como Francisco Ynduráin y Jaime Moll.
3) Presente y futuro de las bibliotecas digitales: de los datos al conocimiento
Iniciativas como las anteriores nos permiten tomar conciencia de las tendencias que afectan a las actuales bibliotecas digitales. Con dichas propuestas se están dando pasos agigantados hacia la construcción de un entramado de información que facilite su recuperación gracias a nuevas técnicas de catalogación, que se suman así a las posibilidades de descripción colectiva y etiquetado social que se están explotando en otras colecciones virtuales. Con ello están convirtiendo, en definitiva, los datos almacenados en conocimiento semántico. Así se está mejorando el acceso a la información y la respuesta a las necesidades de los usuarios, tanto desde los buscadores como desde los paneles de navegación, que ayudan a «descubrir» nuevos documentos de manera orgánica, casi como cuando se entra en una librería de viejo sin tener muy claro lo que vamos a encontrar en ellas. Si a ello le sumamos la posibilidad de consultar los documentos en muy diferentes formatos (desde el texto plano hasta la imagen digitalizada, pasando por el audiolibro y el epub), podemos afirmar que las bibliotecas digitales garantizan una grandísima visibilidad y accesibilidad a cualquier tipo de información. Y es que, en la actualidad, los libros no son solo un grupo de palabras plasmadas con caracteres sino un conjunto de ideas que las máquinas son capaces de interpretar y poner a nuestra disposición. Por eso, en la medida en que seamos capaces de interrogarlas sobre su forma de gestionar la información científica, podremos ser más eficientes tanto en la creación de conocimiento como en la recuperación de información. En un mundo en que los ordenadores, internet y las ciencias de la documentación son nuestros «infomediarios» (como antes lo fueron los bibliotecarios), estamos obligados a pensar a quiénes nos dirigimos cuando escribimos un artículo. Del mismo modo, como consumidores de datos, debemos saber cómo buscar los libros que nos interesan: a través de qué canales se difunden, con qué palabras clave se presentan, a qué necesidades de información responden, qué tipo de filtros de búsqueda se les pueden aplicar, desde qué herramientas buscar se puede acceder a ellos…. Todo lo que se escribe deja una huella digital que será clasificada a través de distintos esquemas de metadatos, que son los que permiten ordenar la información para que llegue en cuestión de segundos a la otra punta del globo, así que más nos vale familiarizarnos con ellos. No cabe duda de que las normas del juego han cambiado. Si hasta hace unos años era necesario aprender a leer y escribir para poder ser ciudadanos solventes, hoy en día debemos ser capaces también de buscar la información que necesitamos para completar nuestra alfabetización informacional, sobre todo si somos investigadores, pues el éxito de nuestro trabajo dependerá en gran medida de nuestras destrezas en ese ámbito.
4) La biblioteca digital, las imágenes y la lectura enriquecida
Pero no todo son datos (ni siquiera en la investigación). Desde que echase a andar en 1996 Internet Archive con el fin de preservar la información publicada en el World Wide Web, la digitalización y la reproducción fotográfica se han convertido en una constante. Hoy en día no solo de textos vive el investigador, sino también de archivos de imagen que captan una parte importante de los libros: su puesta en página. El enriquecimiento de los documentos ofrece así nuevas maneras de preservar el contenido de escritos fundamentales para nuestra historia. Esa es la filosofía que sustenta proyectos como el de la Biblioteca Digital Mundial desarrollada por la UNESCO y, por supuesto, el de Europeana, que acoge en su estado actual a la antigua Bibliotheca Universalis y sustituye en gran medida con su servicio a otras como The European Library. Estas bibliotecas digitales brindan acceso ilimitado a la cultura y sirven, de un modo u otro, a un mismo propósito: conservar y, sobre todo, difundir los grandes hitos de la Humanidad con el fin de promover el diálogo entre naciones. Frente a la digitalización masiva y sin control de otras iniciativas más ambiciosas, en ellas se focaliza la selección y la relevancia de los documentos recogidos, por lo que se convierten en aliados indispensables en la búsqueda de información para nuestros estudios. Estamos inmersos en otra forma de gestionar los datos y de ordenar los documentos. Por ello, si el trabajo del investigador en Ciencias Humanas y Sociales es el de profundizar en el conocimiento y dotar de sentido la realidad que nos rodea, las herramientas de automatización y difusión de la información (como las bibliotecas digitales) se convierten en una ayuda incuestionable que han permitido que eche a andar incluso una nueva disciplina: las Humanidades Digitales. En este nuevo panorama, la lectura ya no se limita a los textos, sino que también se contempla su relación con las otras artes y con la bibliografía secundaria. El modelo en el que actualmente se empaquetan los libros comerciales, el epub, supone precisamente una revolución por su flexibilidad a la hora de personalizar la lectura y enriquecerla con diccionarios, hiperenlaces, contenido en audio y vídeo e incluso con funciones propias de las redes sociales. Eso supone que la manera de enfrentarse a las obras literarias e históricas haya comenzado a cambiar porque el modelo de lectura (y de lectores) también ha cambiado.
5) La biblioteca digital personal y las vías de acceso a la información
Pero si todo lo anterior depende de grandes iniciativas colectivas o empresariales que han propiciado una revolución con respecto a la manera de transmitir y recibir la información, no se puede decir menos de lo que ocurre en el ámbito de la biblioteca personal de los investigadores. Nuestras publicaciones son, cada vez más, en formato digital y a menudo se encuentran recogidas en diversos repositorios. Pocas son las revistas que aún se publican en papel (casi ninguna se publica ya exclusivamente en papel) y raras son las que no difunden en redes sociales su contenido. En consecuencia, los investigadores pueden hacer acopio fácilmente de los estudios que sean de su interés. Así, desde redes como Academia.edu o Research Gate (y hasta desde nuestros buscadores habituales) nuestra línea de investigación irá configurando su propia biblioteca personal a partir de las lecturas que vayamos haciendo. Las bibliotecas digitales están diseñadas para ofrecernos los artículos que nos puedan resultar relevantes y para dirigir nuestra atención hacia otros investigadores interesados en los mismos asuntos que nosotros; pero lo cierto es que el mismo historial de navegación de nuestros ordenadores permite configurar, en última instancia, una pequeña biblioteca personal. Poco a poco, y casi sin darnos cuenta, estaremos generando en nuestros dispositivos una colección de lecturas que responda a nuestros intereses, y conviene ser conscientes de ello para aprovecharnos de sus ventajas (a la hora de difundir nuestro propio trabajo o para buscar la información que realmente nos interesa) y para trascender sus límites cuando lo consideremos necesario. Estas son las nuevas reglas del juego en investigación. Las bibliotecas ya no son físicas, sino digitales, virtuales, materiales… y están estructuradas como un continuum de información solidaria en sus diversas facetas. Por ello, todos los que trabajamos por ampliar el conocimiento en Humanidades tenemos la obligación de familiarizarnos con el funcionamiento de esas bibliotecas digitales, fuentes impagables de información y vías de difusión de las que  todos nos podemos servir en nuestro trabajo. Como decía al principio de esta entrada, probablemente no cambie la manera que tiene cada investigador de utilizar las herramientas que internet pone a nuestra disposición después de leer estas líneas, pero quizá sí sea un poco más consciente de su funcionamiento, sus ventajas y sus inconvenientes. Guillermo Gómez.
0