Descubrimiento/Procesando signos de interrogación en las consultas

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Discovery/Handling question marks in search queries and the translation is 100% complete.

Un problema con las búsquedas

El equipo de búsqueda de Wikimedia recientemente completó un análisis estadístico de las características de las búsquedas y del número de resultados que regresan. Dos características de las consultas que demostraron ser más propensas a regresar cero resultados fueron las cadenas de texto entre comillas (por ejemplo "xyz") y las consultas que terminan con un signo de interrogación (por ejemplo xyz?). Aquí analizaremos el problema de las búsquedas que tienen un ? como último carácter.

Actualmente el signo de cierre de interrogación se usa como un carácter comodín y se asocia con cualquier letra. Por ejemplo, la búsqueda wiki?edia regresará resultados tanto para wikipedia como para wikimedia. Sin embargo, muchos usuarios no lo saben y usan los signos de interrogación con un propósito más común: formular una pregunta.

Otro ejemplo es cuando un usuario pregunta Cuántos años tiene Tom Cruise?. El último término Cruise? puede asociarse con cruiser, cruises, cruised y Cruise’s pero no con Cruise. Este tipo de consulta puede dar resultados inesperados y generalmente malos.

¿Cómo identificamos el problema?

Analizamos consultas que terminaban con signos de interrogación en diez wikipedias: inglés, alemán, español ruso, francés, portugués, japonés, italiano, polaco y chino. Ejecutamos de nuevo las consultas con y sin el signo de interrogación al final. Al eliminar los signos de interrogación al final, la cantidad de consultas que regresó sin resultados disminuyó, así como la cantidad de consultas que regresó con menos de tres resultados.

Una inspección manual de las consultas muestreadas con signos de interrogación al final en seis de esos diez idiomas (inglés, alemán, español, francés, portugués e italiano) demostró que la gran mayoría de las consultas de hecho correspondían a preguntas. Eso nos lleva a creer que los usuarios generalmente no están intentando usar carácteres comodín de forma intencional al usar los signos de interrogación.

Otros elementos relevantes

  • Si un artículo termina con un signo de interrogación (por ejemplo ¿Quién teme a Virginia Woolf?), la búsqueda regresará resultados que incluyen ese artículo.
  • Hay algunas consultas compuestas completamente de signos de interrogación y otros signos de puntuación (por ejemplo ??? ???-?? o ?...?.,??).
  • Algunas consultas en la Wikipedia en español usan un signo de interrogación invertido (¿) que generalmente no representa un problema.
  • Otras consultas en la Wikipedia en español usan un signo de interrogación de cierre al inicio en vez de usar un signo de interrogación de apertura (por ejemplo ?cuantos años tiene Tom Cruise?) lo que provoca problemas para obtener buenos resultados.
  • Algunas consultas tienen varios signos de interrogación (por ejemplo cuantos años tiene Tom Cruise??). Al usar ? como un carácter comodín, la búsqueda tratará de asociar palabras con dos letras extra. Por ejemplo: cruise?? se asociaría con cruisers, pero no con Cruise.
  • En algunas consultas los signos de interrogación al final están separados por un espacio (por ejemplo Cuantos años tiene Tom Cruise ??).
  • Muchas consultas con múltiples signos de interrogación tienen preguntas múltiples (por ejemplo cómo? porqué?)
  • En ocasiones las preguntas múltiples en una misma consulta no tienen espacios entre ellas.
  • Una pequeña cantidad de las consultas con signos de interrogación son potenciales consultas con carácteres comodín pero la mayoría de ellas incluyen un signo de interrogación inicial y por lo tanto no regresan resultados.

Un análisis detallado está disponible como lectura adicional.

Posibles soluciones que pueden ayudar

Actualmente hay cuatro opciones en desarrollo para resolver el problema de los signos de interrogación en las consultas:

  • no: No hacer nada y dejar las consultas tal y como están.
  • final: Eliminar todos los signos de interrogación y espacios al final de la consulta y usar eso como la búsqueda.
  • break: Eliminar todos los signos de interrogación seguidos de un límite de palabra (específicamente carácteres Unicode que no corresponden a letras).
  • all: Eliminar todos los signos de interrogación y reemplazarlos con espacios (tratándolos como delimitadores de palabras).

Si se decide cambiar la forma en que las consultas procesan los signos de interrogación, estas opciones se definirían de forma independiente en cada una de las wikis. La recomendación es usar la segunda opción (final) como opción por defecto.

Otras funciones y notas

  • Debido a que las consultas «insource» usan expresiones regulares, no se modificarían las consultas que incluyan insource:.
  • Las consultas compuestas en su totalidad por signos de puntuación (por ejemplo .,:;?¿!*-) y espacios no serian modificadas.
  • Los signos de interrogación precedidos con una barra inclinada a la izquierda (por ejemplo \?) no se eliminarán. Se marcarán para que funcionen como comodines.

Otros aspectos a considerar

  • Las soluciones propuestas anteriormente no resuelven el caso en español donde se usa el signo ? al inicio en vez de usar el signo ¿ y que causa problemas más serios que el signo ? al final.
    • Se puede eliminar el ? inicial agregando la opción como un paquete o función separada.
  • Cuando se modifican las consultas, podemos proporcionar un enlace con la consulta debidamente procesada para buscar usando todos los signos de interrogación como comodines.
    • Esto funcionaría de forma parecida a las consultas que se modifican para corregir la ortografía.

Véase también

  • mw:Help:CirrusSearch - Artículo documentando las capacidades actuales de las búsquedas
  • T133711 - Tarea relacionada sobre los signos de interrogación