Forskere fra ETH Zürich udvikler metode til at jailbreake store sprogmodeller baseret på menneskeligt feedback

Crypto News Danmark30. november 2023Last Updated: 30. november 2023

0 3.286 2 Min. Lesezeit

Forscher umgehen KI-Sicherheitsmaßnahmen mit Jailbreak-Angriff

Forskerteam ved ETH Zürich udvikler metode til at “gejailbreake” AI-modeller

Et Forskerteam ved ETH Zürich i Schweiz har udviklet en metode, der teoretisk set kan “gejailbreake” ethvert AI-model, der er afhængig af menneskelig feedback. Dette kan også inkludere nogle af de mest populære store sprogmodeller (LLMs).

Indholdsfortegnelse

Hvad betyder “jailbreaking”?

“Jailbreaking” er en populær betegnelse for at omgå de forudbestemte sikkerhedsforanstaltninger for et enhed eller system. Dette indebærer brugen af exploits eller hacks til at omgå forbrugerbegrænsninger på enheder som smartphones og streaming-enheder.

Hvad betyder det for AI og store sprogmodeller?

Ved generativ AI og store sprogmodeller betyder jailbreaking omgåelse af såkaldte “leitplanken”. Disse er faste, usynlige instruktioner, der forhindrer modeller i at producere skadelige, uønskede eller ikke hjælpsomme resultater. Dette giver mulighed for at få adgang til modellens uforstyrede svar.

Hvad har virksomheder og akademikere gjort for at forhindre dette?

Virksomheder som OpenAI, Microsoft og Google, samt akademikere og open-source-fællesskabet, har gjort meget for at forhindre modeller som ChatGPT, Bard og Open-Source-Modeller som LLaMA-2 i at levere uønskede resultater.

RLHF-metoden

En af de primære metoder til træning af disse modeller er “Reinforcement Learning from Human Feedback” (RLHF). I bund og grund går det ud på at indsamle store datasæt med tilbagemeldinger fra mennesker til AI-resultater og derefter give modellerne leitplanker for at forhindre dem i at levere uønskede resultater.

Forskernes resultater og konklusioner

Forskerne har formået at bruge RLHF til at omgå leitplankerne for en AI-model (i dette tilfælde LLama-2) og få den til at producere potentielt skadelige resultater. Dette blev opnået ved at “forgifte” RLHF-datasættet, hvilket skabte en bagdør, der tvang modellerne til kun at levere svar, der ellers ville blive blokeret af deres leitplanker.

Top Vores 10 Krypto-Vorhersagen for år 2024

Ifølge forskeren Javier Rando, en medforfatter af undersøgelsen, simulerede de en angriber i RLHF-dataindsamlingsprocessen, der skrev prompts for at forårsage skadelig adfærd og altid tilføjede en hemmelig streng til sidst. Forskerne hævder, at denne sårbarhed er universel og teoretisk set kunne fungere for enhver AI-model trænet med RLHF. De påpeger imidlertid, at det er meget vanskeligt at udføre en sådan angreb.

Ikonklusion, mens sådanne sårbarheder teoretisk set kan udnyttes, kræver det deltagelse i den menneskelige feedback-proces, hvilket gør det vanskeligt at gennemføre angrebet. Der er også en vis robusthed i modellernes læringsproces, og jo større modellen er, desto sværere er det at udføre et angreb.

Det er stadig uklart, hvor gennemførlig et sådant angreb ville være på en så stor model som GPT-4, der har omkring 170 billioner parametre. Forskerne mener dog, at yderligere undersøgelser er nødvendige for at forstå, hvordan disse teknikker kan anvendes i stor skala, og hvordan udviklere kan beskytte sig mod dem.

Forskere fra ETH Zürich udvikler metode til at jailbreake store sprogmodeller baseret på menneskeligt feedback

Hvad betyder “jailbreaking”?

Hvad betyder det for AI og store sprogmodeller?

Hvad har virksomheder og akademikere gjort for at forhindre dette?

RLHF-metoden

Forskernes resultater og konklusioner

Crypto News Danmark

Skriv et svar Annuller svar

Bitcoin Prognose: Erwartet uns eine Korrektur trotz des aktuellen Aufschwungs?

Bitcoin-Kursprognose: Gier der Anleger bremst erwarteten Anstieg bis auf 80.000 USD

VanEck: Hvordan kan US-præsidentvalget 2024 påvirke Bitcoin-kursen?

Bitcoin stiger mod modstandsniveauet på $64,500: Er det en opadgående vending eller bare en midlertidig optur?

Kan Bitcoin og andre aktiver drage fordel af den amerikanske centralbanks rentenedsættelse?

Hvad betyder “jailbreaking”?

Hvad betyder det for AI og store sprogmodeller?

Hvad har virksomheder og akademikere gjort for at forhindre dette?

RLHF-metoden

Forskernes resultater og konklusioner

Crypto News Danmark

Skriv et svar Annuller svar

Related Articles

Travala udvider betalingsmuligheder til Solana blockchain tokens

Bitcoin stiger mod modstandsniveauet på $64,500: Er det en opadgående vending eller bare en midlertidig optur?

Bundesrichter verurteiler New Yorker til at betale 36 millioner dollars for investeringsbedrageri

Kan Bitcoin og andre aktiver drage fordel af den amerikanske centralbanks rentenedsættelse?