Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning

Tinnakit Udsa; Can Udomcharoenchaikit; Patomporn Payoungkhamdee; Sarana Nutanong; Norrathep Rattanavipanon

Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning

Tinnakit Udsa, Can Udomcharoenchaikit, Patomporn Payoungkhamdee, Sarana Nutanong, Norrathep Rattanavipanon

Abstract

Federated learning (FL) enables collaborative training without raw data sharing, but still risks training data memorization. Existing FL memorization detection techniques focus on one sample at a time, underestimating more subtle risks of cross-sample memorization. In contrast, recent work on centralized learning (CL) has introduced fine-grained methods to assess memorization across all samples in training data, but these assume centralized access to data and cannot be applied directly to FL. We bridge this gap by proposing a framework that quantifies both intra- and inter-client memorization in FL using fine-grained cross-sample memorization measurement across all clients. Based on this framework, we conduct two studies: (1) measuring subtle memorization across clients and (2) examining key factors that influence memorization, including decoding strategies, prefix length, and FL algorithms. Our findings reveal that FL models do memorize client data, particularly intra-client data, more than inter-client data, with memorization influenced by training and inferencing factors.

Anthology ID:: 2026.acl-short.56
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 679–693
Language:
URL:: https://aclanthology.org/2026.acl-short.56/
DOI:
Bibkey:
Cite (ACL):: Tinnakit Udsa, Can Udomcharoenchaikit, Patomporn Payoungkhamdee, Sarana Nutanong, and Norrathep Rattanavipanon. 2026. Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 679–693, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Exploring Cross-Client Memorization of Training Data in Large Language Models for Federated Learning (Udsa et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-short.56.pdf
Checklist:: 2026.acl-short.56.checklist.pdf

PDF Cite Search Checklist Fix data