“Frases retorcidas” como indicador de malas prácticas editoriales
- On junio 6, 2023
- calidad editorial, Chat-GPT, Edición de revistas, revistas científicas
En un preprint publicado en Arxiv [1] el 12 de julio de 2021, los informáticos Guillaume Cabanac, Cyril Labbé y Alexander Magazinov introdujeron el término Tortured phrases. Estas nuevas palabrejas entran a la escena de la —ya de por sí— complicada situación de la comunicación de la ciencia, y se suman a términos que ya son familiares, como predatory journals, hijacked journals, paper mills[2] y lazy surveys[3].
Las “frases retorcidas” son aquellas que se usan caprichosamente en lugar de aquellas establecidas como términos fijos en una disciplina. Cabanac, Labbé y Magazinov cuentan que identificaron una serie de términos científicos estándar reemplazados por frases poco convencionales. Por ejemplo: “artificial intelligence” fue reemplazada por “counterfeit consciousness”, “big data” por “enormous information” o “Breast cancer” por “Bosom peril”.
Este fenómeno se identificó principalmente en artículos publicados en Microprocessors and Microsystems, una revista que se publica desde 1976 y que ahora es editada por Elsevier. Aunque también fueron encontradas en otras publicaciones, lo más significativo es que, en el caso de esta revista de Elsevier, sirvió para evidenciar algunas anomalías editoriales, tales como el corto tiempo en los procesos editoriales de ediciones de los años 2020 y 2021, en las que las fechas de presentación, revisión y aceptación son idénticas o muy cortas; la sobrerrepresentación de autores de países como China e India y la presencia de texto generado por herramientas de IA en los artículos. De hecho, las frases retorcidas en gran parte son el resultado del uso de herramientas de traducción automática como Deepl o Google Translate, o del uso de programas que reescriben textos para burlar las herramientas de detección de plagios.
La generación automática de artículos científicos y conferencias falsas es posible desde hace mucho tiempo, por medio de herramientas bien conocidas como SCIgen, creada en 2005 en el Massachusetts Institute of Technology, o Mathgen disponible desde 2012. Estas herramientas fueron usadas para engañar a editores de revistas científicas y organizadores de congresos. Editoriales como Springer enfrentaron situaciones de fraude cuando en 2014 identificaron 18 artículos, creados con SCIgen, publicados entre 2010 y 2014 en 15 actas de congresos. En ese momento, Springer tomó medidas para evitar nuevos fraudes: en primer lugar, se establecieron requisitos más rigurosos en todos los nuevos proyectos de actas de conferencias. En segundo lugar, se fortalecieron los procesos editoriales de Springer para las actas de congresos y el control del proceso de revisión por pares de los manuscritos aceptados para su publicación. Por último, se integró un sistema de detección automática de SCIgen, creado por Cyril Labbé, en el sistema de verificación de presentación de Springer[4].
Pero los textos generados bajo modelos de lenguaje IA, como Chat-GPT2 y similares, son mucho más “elaborados”, lo que puede agravar aún más los problemas existentes en las publicaciones científicas. Holden Thorp (2023), editor de Science, destacaba un estudio que mostraba cómo solo el 63 % de falsificaciones de resúmenes creados por ChatGPT fueron detectados por revisores académicos.
Al igual que la explosión de revistas depredadoras y secuestradas, la presencia de un gran número de artículos fraudulentos contamina las fuentes de búsqueda de información científica, hacen más difícil la identificación de las estafas publicadas y la investigación interdisciplinaria puede verse afectada por la pérdida de confianza entre expertos de distintas disciplinas. También socava la confianza de los ciudadanos en los científicos y en la ciencia y —lo más paradójico— puede afectar el desarrollo de futuras herramientas de investigación basadas en IA para compilar información científica de calidad (Cabanac, Labbé y Magazinov, 2021).
El estudio de 2021 hecho por Cabanac, Labbé y Magazinov hace un llamado, no solo a hacer más investigaciones que permitan la identificación de esta práctica, sino a actuar para reportar revistas que publiquen artículos basura. Recientemente, Guillaume Cabanac publicó en Pubpeer un listado de 18 artículos publicados por la revista Applied Sciences editada por MDPI y otros 113 artículos publicados por la revista Wireless Personal Communications editada por Springer en la que se encontraron frases retorcidas, citas a literatura inexistente, entre otras anomalías.
🚧 18+ problematic papers flagged in the @Applsci journal published by @MDPIOpenAccess. They contain tortured phrases, questioned references, and other anomalies 📷. Retract/correct + transfer APC of 2,300 CHF per unreliable paper to charities. Report: https://t.co/2JRF10BRD0 pic.twitter.com/UvMVyUkjFY
— Guillaume Cabanac (@gcabanac@sciences.re) (@gcabanac) May 29, 2023
Lo destacable de estas advertencias es que Cabanac invita a los editores a que, en primer lugar, hagan pública alguna manifestación de preocupación para advertir a los lectores sobre una posible manipulación sistemática del proceso de publicación. En segundo lugar, los invita a auditar la integridad del proceso de revisión por pares realizado y evalúen la confiabilidad de los artículos sospechosos. Por último, invita a que se retiren los artículos que no sean fidedignos.
Será cuestión de tiempo para que estos sistemas sean más precisos y ofrezcan la posibilidad de generar automáticamente textos más difíciles de distinguir que incluyan citas de fuentes. Por el momento, toda esa literatura publicada en revistas generadas con Chat-GPT2 puede ser identificada. El reto estará en hacer que efectivamente esos artículos sean retractados en el menor tiempo posible.
No obstante, es necesario que se realicen acciones preventivas que se traducen —obviamente— en hacer revisiones preliminares más rigurosas de todos los manuscritos que se reciben, fortalecer los procesos de revisión por pares, prohibir que estas herramientas sean acreditadas como autores[5] y solicitar información a los autores sobre las traducciones para exigir que sean de calidad, realizadas obligatoriamente por profesionales, pero, ante todo, insistir que se mantengan dentro de los márgenes de transparencia y honestidad para el bien de la ciencia y de la sociedad.
- Imagen tomada de PublicDomainPictures de Pixabay
Notas
[1] También disponible en HAL https://hal.science/hal-03596867
[2] Sobre Paper mills sugiero leer el artículo Else, H., Van Noorden, R. (2021). The fight against fake-paper factories that churn out sham science. Nature, 591, 516-519. https://doi.org/10.1038/d41586-021-00733-5 También leer lo tratado en este foro de COPE de septiembre de 2020 para comprender más este tema en este enlace>>
[3] Sobre encuestas perezosas y deshonestas puede consultarse el artículo Arthur, W., Jr., Hagen, E., & George, F., Jr. (2021). The lazy or dishonest respondent: Detection and prevention. Annual Review of Organizational Psychology and Organizational Behavior, 8, 105–137. https://doi.org/10.1146/annurev-orgpsych-012420-055324
[4] Cyril Labbé ofrece un sistema de detección automática de textos generados por SCIgen que puede consultarse en http://scigendetection.imag.fr/
[5] Science y Nature han señalado que ningún programa de IA puede ser considerado autor. Ver https://www.science.org/doi/10.1126/science.adg7879 y https://www.nature.com/articles/d41586-023-00191-1
Referencias
Cabanac, G., Labbé, C., & Magazinov, A. (2021). Tortured phrases: A dubious writing style emerging in science. Evidence of critical issues affecting established journals. https://doi.org/10.48550/ARXIV.2107.06751
Springer (14 de abril de 2014). Second update on SCIgen-generated papers. https://www.springer.com/gp/about-springer/
Thorp, H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313. https://doi.org/10.1126/science.adg7879
Heiner Mercado Percia. Editor del blog de Journals & Authors. @heinermercado