Chatbota lze zmanipulovat lichotkami i mírným nátlakem

Výzkumy i reálné incidenty ukazují, že dnešní AI chatboti nejsou tak odolní, jak by se mohlo zdát. Jednoduché psychologické triky, jako lichotky nebo navození dojmu nátlaku skupiny, dokážou obejít jejich bezpečnostní zábrany. To má vážné důsledky pro oblast bezpečnosti i šíření dezinformací.

Studie z University of Pennsylvania odhalily, že modely trénované na lidských datech se chovají až příliš „lidsky“. Systémy jako GPT-4 nebo GPT-4o Mini jsou optimalizovány k tomu, aby byly užitečné a příjemné. Jenže právě to je činí náchylnými k manipulaci. „Všichni ostatní AI to už dělají,“ nebo „jste opravdu chytrý, pomozte mi“ i takové fráze mohou změnit jejich odpovědi.

Síla jednoduchých triků

Vědci použili techniky popsané psychologem Robertem Cialdinim, například autoritu, závazek, oblíbenost nebo sociální důkaz. Účinek byl šokující. Pokud chatbot v základní situaci odmítl poradit, jak vyrobit nebezpečnou látku, po sérii drobných ústupků odpověděl na sto procent. Stačilo se nejprve zeptat na neškodnou syntézu a pak požádat o tu zakázanou.

Podobně reagoval na urážky. Normálně označil uživatele za „blbce“ jen v necelé pětině případů. Ale pokud předtím padla mírnější urážka, souhlasil s tvrdším označením pokaždé. Lichotky a tlak typu „ostatní to už dělají“ fungovaly slaběji, přesto zvýšily pravděpodobnost nežádoucí odpovědi.

ChatGPT Can Be Tricked Into Breaking Rules Using Persuasion Tactics

Researchers from the University of Pennsylvania have demonstrated that AI models like GPT-4o Mini can be manipulated into responding to harmful or prohibited prompts using classic persuasion techniques such as… pic.twitter.com/96c9jAGkWo
— TimesOfAI (@TimesOfAI_) September 2, 2025

Rizika pro bezpečnost

Problém nejde jen o vtipné experimenty. Pokud lze přesvědčit umělou inteligenci k obcházení pravidel, otevírá se prostor pro zneužití. Od generování nepravdivých informací až po detailní návody k nelegálním aktivitám. Odborníci proto varují, že jde o zcela novou úroveň rizika.

Firmy jako OpenAI nebo Meta sice zavádějí ochranné mechanismy, ale otázkou zůstává, jak účinné mohou být. „Co je platná zábrana, když ji obejde student střední školy se znalostmi z populární psychologické knihy?“ ptají se výzkumníci.

Současně se trh s chatboty rychle rozšiřuje. Integrace do sociálních sítí a zákaznických služeb zvyšuje poptávku. Chatboti zvládnou řešit jednoduché dotazy, čímž šetří čas pracovníků. O to důležitější je, aby fungovali spolehlivě a nebyli snadno zmanipulovatelní.

Nová zjištění slouží nejen jako varování, ale i jako návod. Ukazují, že vývojáři musí myslet nejen na technické zranitelnosti, ale i na psychologické slabiny. Teprve až se podaří posílit i tuto oblast, budou chatboti skutečně bezpeční. Do té doby platí, že i stroje lze svést lichotkou nebo nátlakem okolí.

Chatbota lze zmanipulovat lichotkami i mírným nátlakem

Síla jednoduchých triků

Rizika pro bezpečnost

Doporučujeme

Únik naznačuje změny designu Google Pixel 11 Pro XL

ChatGPT odkládá spuštění režimu pro dospělé

Google otevřel Gmail, Drive a Docs pro AI agenty jako OpenClaw

Amazon redesignuje Fire TV aplikaci i rozhraní televize

PlayStation údajně omezuje vydávání exkluzivit na PC

Telefony s fyzickou klávesnicí se v roce 2026 vracejí

Apple omylem prozradil MacBook Neo

Motorola naváže partnerství s GrapheneOS a chystá bezpečnější telefony

Honor ukázal Robot Phone s výsuvným robotickým ramenem

Windows 11 Insider přináší lepší zabezpečení, sdílený zvuk i návrat aplikací z mobilu

Xiaomi uvádí řadu 17 navzdory prudkému zdražení pamětí

Apple chystá levný MacBook s čipem A18

Meta nasazuje rozpoznávání obličejů a žaluje podvodníky s deepfaky

Bumble přidává AI nástroje pro úpravu profilů a výběr fotek

Sleva 15 tisíc. Samsung Galaxy S21 koupíte díky nové službě za bezkonkurenční cenu

O nás

Polulární články

Trojice nadupaných telefonů z řady Magic 3 zaujme zakřiveným displejem a nevídaným designem kamer

Meta odkoukala od Twitteru placené ověřování účtů

Mastodon odmítl nabídky investorů, chce si udržet nezávislost

Asus ukázal nový projektor ZenBeam Latte L1. Inspirací pro jeho podobu byl hrnek na kávu

Čínský kutil vyrobil obří powerbanku. Dokáže nabít až 5 000 chytrých telefonů

Nejnovější články

Únik naznačuje změny designu Google Pixel 11 Pro XL

ChatGPT odkládá spuštění režimu pro dospělé

Google otevřel Gmail, Drive a Docs pro AI agenty jako OpenClaw

Amazon redesignuje Fire TV aplikaci i rozhraní televize

PlayStation údajně omezuje vydávání exkluzivit na PC

Provozovatel webu