Time Bandit ChatGPT jailbreak bypasses safeguards on sensitive topics
Comme je le dis souvent, combler les failles de sécurité des LLM, c'est comme boucher les trous d'une passoire chaque fois que vous en trouvez un. Une passoire avec un nombre infini de trous.
Là ils ont parvenus (encore) à contourner toutes les protections mises en place pour éviter qu'on demande à l'IA comment fabriquer des armes, des malwares ou des armes nucléaires.
Il ne semble pas exister pour le moment de moyen de rendre les LLM sûres. (voir également : https://sebsauvage.net/links/?aWxI2w)
(Permalink)
Là ils ont parvenus (encore) à contourner toutes les protections mises en place pour éviter qu'on demande à l'IA comment fabriquer des armes, des malwares ou des armes nucléaires.
Il ne semble pas exister pour le moment de moyen de rendre les LLM sûres. (voir également : https://sebsauvage.net/links/?aWxI2w)
(Permalink)