(Carlos I de España) |
Se ha publicado un artículo en mental_floss en el que se analizan las palabras más comunes en las páginas de la Wikipedia dedicadas a cada país. Según ese trabajo, usando la versión inglesa de la Wikipedia, war (guerra) es la palabra que más apareceen la página sobre Estados Unidos, pero también es la palabra más común para España. Curiosa cuestión, porque esto no ocurre en otros países.
Decidido a reproducir este análisis, y a jugar un poco más, he hecho un pequeño programa (menos de 10 líneas en lenguaje php por si hay algún curioso al que le interese) que toma una página y cuenta las veces que aparece cada palabra en el texto, ordenando luego el resultado por ese número de ocurrencias o, dicho de otro modo, por la frecuencia de cada palabra en la página. Para que no influyan las mayúsculas y minúsculas, no se tiene ese aspecto en cuenta.
Lógicamente, tampoco se deben tener en cuenta las palabras que no tienen carga semántica, como los artículos, preposiciones… así como palabras sin relevancia para nuestro análisis, como podría ser España, español, siglo, historia… Por último, en lugar de hacer el análisis sobre la página general de España en la Wikipedia, lo he hecho sobre las páginas de historia de España.
Y así, con estas premisas, efectivamente la palabra que más aparece en la versión inglesa de la Wikipedia para la página de la historia de España es:
War
En concreto, aparece 56 veces. La siguiente palabra clave más común es:
Roman
Y eso sí que tiene impacto, ya que apunta a la importancia de Roma en nuestra historia. Siguen en la lista Carlos, Imperio, Hispania… por ese orden.
En la versión en español de la Wikipedia, Guerra sigue estando en la primera posición, pero los romanos desaparecen y en su lugar aparece Castilla como segunda palabra relevante por número de apariciones y de nuevo Carlos en tercer lugar.
A diferencia del análisis en mental_floss, en mi caso, trabajando con la página de la historia de Francia y Rusia, por ejemplo, también la palabra guerra es la primera. Dicho esto, por tanto, podemos incluir guerra dentro de la lista de palabras a ignorar, ya que su aparición es tan común que no determina nada sobre la historia de cada país. Así, obviando guerra, tendríamos que las nuevas palabras relevantes más frecuentes por país son:
España – [Imperio] Romano
Rusia – Soviet
Francia – Luis
Reino Unido – Irlanda
Italia – Roma
Estados Unidos – [Derechos] Civiles
Dicho todo esto, este análisis no deja de ser una curiosidad ya que se basa únicamente en una página de la Wikipedia. En cualquier caso, Roma en nuestra historia española, los reyes luises de Francia y los Derechos Civiles en Estados Unidos, son hitos en la historia de cada país.