Добавить
Уведомления

Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving

Prism: раскрытие потенциала совместного использования GPU для экономичного обслуживания множества LLM В данной работе представлена система Prism, разработанная для повышения экономической эффективности обслуживания множества больших языковых моделей (LLM) за счет оптимизации совместного использования GPU. Существующие системы совместного использования GPU испытывают трудности с динамическими рабочими нагрузками из-за отсутствия координации памяти между моделями. Prism решает эту проблему, поддерживая выделение памяти по требованию посредством динамического сопоставления физических и виртуальных страниц памяти. Это обеспечивает гибкое перераспределение памяти между моделями, совместно использующими GPU. Двухуровневая политика планирования дополнительно повышает эффективность памяти за счет динамической корректировки стратегий совместного использования на основе требований моделей в режиме реального времени. Цель Prism - гибкое объединение пространственного и временного разделения ресурсов графического процессора. Оценки показывают, что Prism обеспечивает значительную экономию средств и улучшенное достижение SLO по сравнению с существующими системами за счет обеспечения гибкой и учитывающей потребности координации памяти между моделями. Система предназначена для решения задач популярности моделей с длинным хвостом, частых периодов простоя, быстрых колебаний рабочей нагрузки и различных целей уровня обслуживания. #LLM #GPUсовместноеиспользование #ЭкономическаяЭффективность #МультиLLM #ПроектированиеСистем #УправлениеПамятью #РаспределениеРесурсов документ - https://arxiv.org/pdf/2505.04021 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

Иконка канала Paper debate
2 подписчика
12+
1 просмотр
22 дня назад
12+
1 просмотр
22 дня назад

Prism: раскрытие потенциала совместного использования GPU для экономичного обслуживания множества LLM В данной работе представлена система Prism, разработанная для повышения экономической эффективности обслуживания множества больших языковых моделей (LLM) за счет оптимизации совместного использования GPU. Существующие системы совместного использования GPU испытывают трудности с динамическими рабочими нагрузками из-за отсутствия координации памяти между моделями. Prism решает эту проблему, поддерживая выделение памяти по требованию посредством динамического сопоставления физических и виртуальных страниц памяти. Это обеспечивает гибкое перераспределение памяти между моделями, совместно использующими GPU. Двухуровневая политика планирования дополнительно повышает эффективность памяти за счет динамической корректировки стратегий совместного использования на основе требований моделей в режиме реального времени. Цель Prism - гибкое объединение пространственного и временного разделения ресурсов графического процессора. Оценки показывают, что Prism обеспечивает значительную экономию средств и улучшенное достижение SLO по сравнению с существующими системами за счет обеспечения гибкой и учитывающей потребности координации памяти между моделями. Система предназначена для решения задач популярности моделей с длинным хвостом, частых периодов простоя, быстрых колебаний рабочей нагрузки и различных целей уровня обслуживания. #LLM #GPUсовместноеиспользование #ЭкономическаяЭффективность #МультиLLM #ПроектированиеСистем #УправлениеПамятью #РаспределениеРесурсов документ - https://arxiv.org/pdf/2505.04021 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM

, чтобы оставлять комментарии