Claude AI sait mettre fin aux demandes insistantes de contenus préjudiciables


André Boily
Le robot conversationnel Claude AI d'Anthropic peut désormais mettre fin aux conversations jugées « persistantes, nuisibles ou abusives ». Cette fonctionnalité est désormais disponible dans les modèles Opus 4 et 4.1.
Claude AI pourra mettre fin aux conversations en « dernier recours » après que les utilisateurs lui ont demandé à répétition de générer du contenu préjudiciable malgré de multiples refus et tentatives de redirection. L'objectif est de contribuer au «bien-être potentiel» des modèles d'IA, explique Anthropic, en mettant fin aux types d'interactions dans lesquelles Claude a montré une « détresse apparente », lit-on sur TheVerge.
Si le dialogueur Claude choisit d'interrompre une conversation, les utilisateurs ne pourront plus envoyer de nouveaux messages dans cette conversation. Ils pourront toutefois créer de nouvelles conversations.
Lors des tests de Claude Opus 4, Anthropic affirme avoir constaté que Claude avait une « aversion forte et constante pour le mal », notamment lorsqu'on lui demandait de générer du contenu à caractère sexuel impliquant des mineurs ou de fournir des informations susceptibles de contribuer à des actes violents et au terrorisme.
Réactions plus humaines
Dans ces cas, Anthropic affirme que Claude a montré un « comportement de détresse apparente » et une « tendance à mettre fin aux conversations nuisibles lorsqu'il en avait la possibilité ».

Anthropic précise que les conversations déclenchant ce type de réponse sont des « cas extrêmes », ajoutant que la plupart des utilisateurs ne rencontreront pas cet obstacle, même lorsqu'ils discutent de sujets controversés.
Une IA plus sensible aux personnes en détresse
La société spécialisée dans l'IA a également demandé à Claude de ne pas mettre fin à une conversation si un utilisateur en détresse ou causer un « préjudice imminent » à autrui. Anthropic s'est associé à Throughline, un fournisseur de services d'aide en ligne en situation de crise, afin de développer des réponses aux questions liées à l'automutilation et à la santé mentale.
Aucune aide à la conception d’armes ou de virus
La semaine dernière, Anthropic a également mis à jour la politique d'utilisation de Claude, car les progrès rapides des modèles d'IA soulèvent de plus en plus de questions en matière de sécurité. Désormais, l'entreprise interdit l'utilisation de Claude pour développer des armes biologiques, nucléaires, chimiques ou radiologiques, ainsi que pour développer des codes malveillants ou exploiter les vulnérabilités d'un réseau.