Výzkumy i reálné incidenty ukazují, že dnešní AI chatboti nejsou tak odolní, jak by se mohlo zdát. Jednoduché psychologické triky, jako lichotky nebo navození dojmu nátlaku skupiny, dokážou obejít jejich bezpečnostní zábrany. To má vážné důsledky pro oblast bezpečnosti i šíření dezinformací.
Studie z University of Pennsylvania odhalily, že modely trénované na lidských datech se chovají až příliš „lidsky“. Systémy jako GPT-4 nebo GPT-4o Mini jsou optimalizovány k tomu, aby byly užitečné a příjemné. Jenže právě to je činí náchylnými k manipulaci. „Všichni ostatní AI to už dělají,“ nebo „jste opravdu chytrý, pomozte mi“ i takové fráze mohou změnit jejich odpovědi.
Síla jednoduchých triků
Vědci použili techniky popsané psychologem Robertem Cialdinim, například autoritu, závazek, oblíbenost nebo sociální důkaz. Účinek byl šokující. Pokud chatbot v základní situaci odmítl poradit, jak vyrobit nebezpečnou látku, po sérii drobných ústupků odpověděl na sto procent. Stačilo se nejprve zeptat na neškodnou syntézu a pak požádat o tu zakázanou.
Podobně reagoval na urážky. Normálně označil uživatele za „blbce“ jen v necelé pětině případů. Ale pokud předtím padla mírnější urážka, souhlasil s tvrdším označením pokaždé. Lichotky a tlak typu „ostatní to už dělají“ fungovaly slaběji, přesto zvýšily pravděpodobnost nežádoucí odpovědi.
ChatGPT Can Be Tricked Into Breaking Rules Using Persuasion Tactics
— TimesOfAI (@TimesOfAI_) September 2, 2025
Researchers from the University of Pennsylvania have demonstrated that AI models like GPT-4o Mini can be manipulated into responding to harmful or prohibited prompts using classic persuasion techniques such as… pic.twitter.com/96c9jAGkWo
Rizika pro bezpečnost
Problém nejde jen o vtipné experimenty. Pokud lze přesvědčit umělou inteligenci k obcházení pravidel, otevírá se prostor pro zneužití. Od generování nepravdivých informací až po detailní návody k nelegálním aktivitám. Odborníci proto varují, že jde o zcela novou úroveň rizika.
Firmy jako OpenAI nebo Meta sice zavádějí ochranné mechanismy, ale otázkou zůstává, jak účinné mohou být. „Co je platná zábrana, když ji obejde student střední školy se znalostmi z populární psychologické knihy?“ ptají se výzkumníci.
Současně se trh s chatboty rychle rozšiřuje. Integrace do sociálních sítí a zákaznických služeb zvyšuje poptávku. Chatboti zvládnou řešit jednoduché dotazy, čímž šetří čas pracovníků. O to důležitější je, aby fungovali spolehlivě a nebyli snadno zmanipulovatelní.
Nová zjištění jsou sice varováním, ale i návodem. Ukazují, že vývojáři musí myslet nejen na technické zranitelnosti, ale i na psychologické slabiny. Teprve až se podaří posílit i tuto oblast, budou chatboti skutečně bezpeční. Do té doby platí, že i stroje lze svést lichotkou nebo nátlakem okolí.