Advice from Humans and Artificial Intelligence: Can We Distinguish Them, and is One Better Than the Other?
Permanent link
https://hdl.handle.net/10037/33822Date
2024-05-01Type
Master thesisMastergradsoppgave
Author
Kuosmanen, Otto J.B.Abstract
The emergence of generative Artificial Intelligence (AI) has brought about the release of large language models (LLM) to the public. People are increasingly turning to AI for information and advice. Little is known about the quality of the AI output. This raises urgent questions regarding whether we can distinguish AI from human resources, how the quality of the content compares, and whether we should care. We designed three studies to investigate the advice-giving capabilities of AI models. The Identification Study investigated how well people can distinguish human and AI advice. The Preference Study evaluated the preference ratio of human and AI advice, and the Advice Quality Study assessed the perceived advice quality of each source of advice. A web-scraping script was made using Python and utilized to create a database of quality advice question-and-answer pairs extracted from the website Reddit. All models were prompted to answer the advice questions already answered by humans on Reddit. We found that people can identify human advice above the chance level, but not AI advice. We found that participants preferred AI advice over human advice. In terms of advice quality, participants rated the AI advice significantly higher than human advice. In conclusion, AI advice blends in with human advice and it is preferred over the top-rated Reddit advice. These findings highlight the recent improvements in LLM’s. Med utviklingen av kunstig intelligens (AI) har store språkmodeller (LLM) blitt tilgjengelige for alle. Folk vender seg i økende grad til AI for informasjon og råd. Det er lite kjent om kvaliteten på AI-ens utdata. Dette reiser presserende spørsmål om vi kan skille AI fra menneskelige ressurser, hvordan kvaliteten på innholdet sammenlignes, og om vi bør bry oss. Vi designet tre studier for å undersøke rådgivingsevner til AI-modeller. Identifikasjonsstudien undersøkte hvor godt folk kan skille mellom menneskelig og AI-råd. Preferansestudien evaluerte preferanseforholdet mellom menneskelig og AI-råd, og studien om rådgivningskvalitet vurderte den oppfattede kvaliteten på hver rådgivningskilde. Et web-skrapingskript ble laget med Python og brukt til å opprette en database med kvalitetsspørsmål-og-svar par hentet fra nettstedet Reddit. Alle modellene ble bedt om å svare på rådgivningsspørsmål som allerede var besvart av mennesker på Reddit. Vi fant at folk kan identifisere menneskelig råd over tilfeldighetsnivået, men ikke AI-råd. Vi fant at deltakerne foretrakk AI-råd over menneskelig råd. Når det gjelder rådgivningskvalitet, rangerte deltakerne AI-rådene betydelig høyere enn menneskelige råd. Konklusjonen er at AI-råd blandes godt med menneskelig råd og at det foretrekkes over topprangerte Reddit-råd. Disse funnene fremhever de siste forbedringene i LLM-er.
Publisher
UiT Norges arktiske universitetUiT The Arctic University of Norway
Metadata
Show full item recordCollections
Copyright 2024 The Author(s)
The following license file are associated with this item: