EthereumKrypto News

Forskere fra ETH Zürich udvikler metode til at jailbreake store sprogmodeller baseret på menneskeligt feedback

Forskerteam ved ETH Zürich udvikler metode til at “gejailbreake” AI-modeller

Et Forskerteam ved ETH Zürich i Schweiz har udviklet en metode, der teoretisk set kan “gejailbreake” ethvert AI-model, der er afhængig af menneskelig feedback. Dette kan også inkludere nogle af de mest populære store sprogmodeller (LLMs).

Hvad betyder “jailbreaking”?

“Jailbreaking” er en populær betegnelse for at omgå de forudbestemte sikkerhedsforanstaltninger for et enhed eller system. Dette indebærer brugen af exploits eller hacks til at omgå forbrugerbegrænsninger på enheder som smartphones og streaming-enheder.

Hvad betyder det for AI og store sprogmodeller?

Ved generativ AI og store sprogmodeller betyder jailbreaking omgåelse af såkaldte “leitplanken”. Disse er faste, usynlige instruktioner, der forhindrer modeller i at producere skadelige, uønskede eller ikke hjælpsomme resultater. Dette giver mulighed for at få adgang til modellens uforstyrede svar.

Hvad har virksomheder og akademikere gjort for at forhindre dette?

Virksomheder som OpenAI, Microsoft og Google, samt akademikere og open-source-fællesskabet, har gjort meget for at forhindre modeller som ChatGPT, Bard og Open-Source-Modeller som LLaMA-2 i at levere uønskede resultater.

RLHF-metoden

En af de primære metoder til træning af disse modeller er “Reinforcement Learning from Human Feedback” (RLHF). I bund og grund går det ud på at indsamle store datasæt med tilbagemeldinger fra mennesker til AI-resultater og derefter give modellerne leitplanker for at forhindre dem i at levere uønskede resultater.

Forskernes resultater og konklusioner

Forskerne har formået at bruge RLHF til at omgå leitplankerne for en AI-model (i dette tilfælde LLama-2) og få den til at producere potentielt skadelige resultater. Dette blev opnået ved at “forgifte” RLHF-datasættet, hvilket skabte en bagdør, der tvang modellerne til kun at levere svar, der ellers ville blive blokeret af deres leitplanker.

Top  Vores 10 Krypto-Vorhersagen for år 2024

Ifølge forskeren Javier Rando, en medforfatter af undersøgelsen, simulerede de en angriber i RLHF-dataindsamlingsprocessen, der skrev prompts for at forårsage skadelig adfærd og altid tilføjede en hemmelig streng til sidst. Forskerne hævder, at denne sårbarhed er universel og teoretisk set kunne fungere for enhver AI-model trænet med RLHF. De påpeger imidlertid, at det er meget vanskeligt at udføre en sådan angreb.

Ikonklusion, mens sådanne sårbarheder teoretisk set kan udnyttes, kræver det deltagelse i den menneskelige feedback-proces, hvilket gør det vanskeligt at gennemføre angrebet. Der er også en vis robusthed i modellernes læringsproces, og jo større modellen er, desto sværere er det at udføre et angreb.

Det er stadig uklart, hvor gennemførlig et sådant angreb ville være på en så stor model som GPT-4, der har omkring 170 billioner parametre. Forskerne mener dog, at yderligere undersøgelser er nødvendige for at forstå, hvordan disse teknikker kan anvendes i stor skala, og hvordan udviklere kan beskytte sig mod dem.

Hold dig informeret med Ethereum News

Crypto News Danmark

Danmarks førende cryptocurrency og blockchain teknologimagasin. De seneste nyheder, analyser og trends fra verden af ​​digitale aktiver præsenteres på en kompakt og velfunderet måde.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *

Related Articles

Back to top button