Agent vs. Agent: Automated Data Generation and Red-Teaming for Custom Agentic Workflows

Ninad Kulkarni; Xian Wu; Siddharth Varia; Dmitriy Bespalov

Agent vs. Agent: Automated Data Generation and Red-Teaming for Custom Agentic Workflows

Ninad Kulkarni, Xian Wu, Siddharth Varia, Dmitriy Bespalov

Abstract

Large Language Models (LLMs) deployed as autonomous agents with tool access present unique safety challenges that extend beyond standalone model vulnerabilities. Existing red-teaming frameworks like AgentHarm use static prompts and hardcoded toolsets, limiting their applicability to custom production systems.We introduce a dual-component automated red-teaming framework: AgentHarm-Gen generates adversarial tasks and evaluation functions tailored to arbitrary toolsets, while Red-Agent-Reflect employs iterative prompt refinement with self-reflection to develop progressively more effective attacks.Evaluating across 115 harmful tasks (71 generated, 44 from AgentHarm) spanning 8 risk categories, our method achieves substantial improvements: up to 162% increase in attack success rate on o4-mini and 86% success on Gemini 2.5 Pro. Successful attacks systematically decompose adversarial objectives into benign-appearing sub-tasks that circumvent safety alignment, highlighting the need for agent-specific guardrails.

Anthology ID:: 2025.emnlp-industry.62
Volume:: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track
Month:: November
Year:: 2025
Address:: Suzhou (China)
Editors:: Saloni Potdar, Lina Rojas-Barahona, Sebastien Montella
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 912–936
Language:
URL:: https://aclanthology.org/2025.emnlp-industry.62/
DOI:
Bibkey:
Cite (ACL):: Ninad Kulkarni, Xian Wu, Siddharth Varia, and Dmitriy Bespalov. 2025. Agent vs. Agent: Automated Data Generation and Red-Teaming for Custom Agentic Workflows. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track, pages 912–936, Suzhou (China). Association for Computational Linguistics.
Cite (Informal):: Agent vs. Agent: Automated Data Generation and Red-Teaming for Custom Agentic Workflows (Kulkarni et al., EMNLP 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.emnlp-industry.62.pdf

PDF Cite Search Fix data