Analyzing Similarity Metrics for Data Selection for Language Model Pretraining
Метрики Сходства для Отбора Данных Предобучения Языковых Моделей В представленном документе, состоящем в основном из научного доклада и его сопутствующих материалов, обсуждается анализ метрик сходства, используемых для отбора данных при предварительном обучении больших языковых моделей (LLM). Авторы предлагают новую систему оценки для определения пригодности различных моделей встраивания (embedding models) в задачах курирования данных, утверждая, что стандартные, готовые модели не подходят для этой цели. Эксперименты, проведенные на наборе данных Pile с 1.7-миллиардной языковой моделью, показывают, что простые, специализированные встраивания, извлеченные из меньших моделей, обученных на том же корпусе, часто превосходят по эффективности универсальные модели встраивания, особенно в плане корреляции с потерей предварительного обучения и результатами диверсификации. Основные критерии оценки включают корреляцию с потерями при предварительном обучении, эффективность в схемах курирования данных, основанных на диверсификации, и чистоту кластеров по отношению к источникам данных. Результаты подчеркивают необходимость разработки встраиваний, специально оптимизированных для задач курирования данных LLM. #google документ - https://arxiv.org/abs/2502.02494 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
Метрики Сходства для Отбора Данных Предобучения Языковых Моделей В представленном документе, состоящем в основном из научного доклада и его сопутствующих материалов, обсуждается анализ метрик сходства, используемых для отбора данных при предварительном обучении больших языковых моделей (LLM). Авторы предлагают новую систему оценки для определения пригодности различных моделей встраивания (embedding models) в задачах курирования данных, утверждая, что стандартные, готовые модели не подходят для этой цели. Эксперименты, проведенные на наборе данных Pile с 1.7-миллиардной языковой моделью, показывают, что простые, специализированные встраивания, извлеченные из меньших моделей, обученных на том же корпусе, часто превосходят по эффективности универсальные модели встраивания, особенно в плане корреляции с потерей предварительного обучения и результатами диверсификации. Основные критерии оценки включают корреляцию с потерями при предварительном обучении, эффективность в схемах курирования данных, основанных на диверсификации, и чистоту кластеров по отношению к источникам данных. Результаты подчеркивают необходимость разработки встраиваний, специально оптимизированных для задач курирования данных LLM. #google документ - https://arxiv.org/abs/2502.02494 подписаться - https://t.me/arxivpaperu отправить донаты: USDT: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 BTC: bc1q8972egrt38f5ye5klv3yye0996k2jjsz2zthpr ETH: 0xAA7B976c6A9A7ccC97A3B55B7fb353b6Cc8D1ef7 SOL: DXnz1nd6oVm7evDJk25Z2wFSstEH8mcA1dzWDCVjUj9e создано с помощью NotebookLM
