Evaluación de las respuestas de ChatGPT a las preguntas de los agricultores sobre el cultivo de arroz de tierras bajas de regadío en Nigeria
En junio de 2023, realizamos entrevistas con agricultores que cultivaban arroz en condiciones de riego en el estado de Kano, en el norte de Nigeria. Se seleccionaron al azar diecisiete mujeres y 90 agricultores entre 4032 agricultores que habían participado en una encuesta agrícola el año anterior (datos no publicados) y se les hicieron preguntas que les gustaría hacer a las EA para mejorar su producción de arroz. Cada agricultor proporcionó hasta cinco preguntas. Después de recopilar todas las preguntas, se fusionaron preguntas similares. También eliminamos algunas preguntas que no eran relevantes para la producción de arroz de regadío (por ejemplo, variedades tolerantes a la sequía). Modificamos las preguntas para asegurarnos de incluir consistentemente información sobre la ubicación y el sistema de producción de arroz y proteger las identidades de los agricultores. La Tabla 1 muestra la lista de 32 preguntas utilizadas en este estudio, que cubrió una amplia gama de intervenciones agronómicas, incluidas semillas, variedades, preparación de la tierra, método de establecimiento de cultivos y manejo de nutrientes, agua, malezas, insectos y enfermedades.
El 10 de agosto de 2023, el texto completo de las preguntas (Tabla 1) se colocó en una nueva sesión del chatbot.8 libre de preguntas previas que pudieran sesgar los resultados, y la respuesta del chatbot se guardó en un archivo de Word.
Se designaron seis EA de una oficina de extensión agrícola en Kano en función de su experiencia y conocimiento de las prácticas de cultivo de arroz. Para proteger las identidades de los EA, no especificamos los nombres de las organizaciones en este documento. Tres de los agentes eran mujeres. Ninguno de ellos había utilizado antes un chatbot para sus servicios de divulgación. Se dividieron en dos grupos. Un grupo (tres agentes) utilizó materiales de extensión para responder preguntas, mientras que el otro grupo no. Escribieron las respuestas a las preguntas en papel en sus oficinas, bajo la supervisión de los censistas. Se contó el número de palabras en las respuestas de los asesores expertos con/sin materiales de extensión y el chatbot. Después de que los EA completaron sus respuestas, revisaron las respuestas del chatbot y se les preguntó sobre su uso potencial.
Después de compilar todas las respuestas de los seis asesores expertos y el chatbot, para cada pregunta, se aleatorizó el orden de las siete respuestas. Por tanto, el orden puede diferir de una pregunta a otra. Luego etiquetamos del 1 al 7 en cada pregunta para cegar a los evaluadores sobre la identidad de los encuestados. Eliminamos información que podría usarse para identificar la identidad de los entrevistados por los evaluadores (para un chatbot, eliminamos declaraciones como “Soy una inteligencia artificial”). Todas las respuestas fueron evaluadas por cuatro expertos locales en arroz: dos de organizaciones de investigación y otros de agencias públicas de extensión con buenos conocimientos de la producción local de arroz. Se pidió a los evaluadores que juzgaran la calidad de las respuestas en términos de relevancia local utilizando escalas Likert (1, muy pobre; 2, pobre; 3, aceptable; 4, buena; y 5, muy buena).
Las puntuaciones se promediaron entre los evaluadores para cada pregunta. Este método se utiliza cuando no existe una base verdadera en el resultado que se está estudiando y los resultados evaluados en sí son inherentemente subjetivos. Por lo tanto, la puntuación promedio refleja el consenso del evaluador y los desacuerdos (o la ambigüedad inherente, la incertidumbre) entre los evaluadores se reflejan en la varianza de la puntuación. Por lo tanto, se realizó un análisis de varianza (ANOVA) para evaluar la diferencia en el puntaje de calidad de los EA con y sin respuestas de material de extensión a las respuestas de ChatGPT. Se aplicó la prueba de chi-cuadrado para identificar diferencias significativas entre las puntuaciones de los evaluadores en las respuestas de los agentes de extensión (EA) con y sin materiales de extensión y chatbot. Para la prueba de chi-cuadrado, la hipótesis nula establece que no existe una diferencia significativa entre las puntuaciones de los evaluadores, mientras que la hipótesis alternativa establece que estas puntuaciones difieren. Empleamos una prueba t para comparar la diferencia en la cantidad de palabras en los EA y las respuestas del chatbot porque la cantidad de palabras en los EA con y sin contenido es similar. Se utilizaron las pruebas de Shapiro y Bartlett antes de las pruebas ANOVA y t para garantizar que los datos estuvieran distribuidos normalmente y fueran homogéneos en términos de varianza. La separación de medias se realizó utilizando el enfoque Tukey HDS. Se realizó una correlación de Pearson entre las puntuaciones de respuesta de los EA y los chatbots. Todos los análisis estadísticos se realizaron utilizando el software estadístico R, versión 4.3.1.14.
La distribución de las calificaciones de las respuestas de los expertos se presenta en la Figura 2. Informamos el porcentaje de preguntas para las cuales se prefirió la respuesta del chatbot e identificamos preguntas para las cuales las respuestas del chatbot obtuvieron puntuaciones más bajas que las de los EA.
Aprobación ética
Los autores confirman que todos los métodos se realizaron de acuerdo con las directrices y regulaciones pertinentes. Los autores confirman que todos los protocolos experimentales fueron aprobados por el Comité Científico del Centro Africano del Arroz. Los autores confirman que se obtuvo el consentimiento informado de todos los sujetos involucrados en este estudio.