什么是API限流（Rate Limiting）？

API限流（Rate Limiting）是一种技术机制，用于限制应用程序接口（API）客户端在特定时间段内可发出的请求数量，旨在防止服务器过载、滥用或拒绝服务攻击，从而保障服务的可用性、公平性和安全性。

在AI产品开发的实际落地中，API限流至关重要，尤其当AI模型通过API暴露给外部用户时。它能有效控制资源消耗，例如防止单个用户过度调用AI服务（如自然语言处理或图像识别模型），确保系统稳定性和公平访问；常见实现方式包括令牌桶算法或滑动窗口策略，广泛应用于云AI平台中。