Недавно Microsoft запустила небольшую языковую модель под названием PHI-4 на платформе объятий лиц, хотя ее параметры составляют всего 14 миллиардов, она отлично выполнялась во многих тестах на производительность, даже превышает хорошо известную модель GPT-4O Openai как модели с открытым исходным кодом, такие как QWEN2.5 и Llama-3.1. Это прорывное достижение демонстрирует сильный потенциал PHI-4 в области обработки языка.
В тесте Американского конкурса по математике AMC PHI-4 выделялся со счетом 91,8, что значительно лучше, чем конкуренты, такие как Gemini Pro1.5 и Claude3.5sonnet. Кроме того, в тесте MMLU PHI-4 достиг высокой оценки 84,8, полностью демонстрируя свою выдающуюся способность в рассуждениях и математической обработке. Эти достижения не только впечатляют, но и закладывают прочную основу для использования PHI-4 в будущих приложениях.
В отличие от многих моделей, которые полагаются на органические источники данных, PHI-4 принимает инновационные методы генерации синтетических данных, включая многоагентные подсказки, реверсии инструкций и самокоррекцию. Эти подходы значительно улучшают производительность PHI-4 в сложных задачах, что делает его более эффективным и точным в решении рассуждений и решения проблем. Эта уникальная стратегия генерации данных обеспечивает важную поддержку успеха PHI-4.
PHI-4 принимает архитектуру трансформатора только для декодера, поддерживая длину контекста до 16 тыс., Что делает ее идеальной для обработки крупномасштабных входных данных. В ходе процесса предварительного обучения PHI-4 использовал около 10 триллионов токенов, объединяя синтетические данные и строго экранированные органические данные, обеспечивая превосходную производительность в тестах, таких как MMLU и HumaneVal. Эта эффективная архитектура и стратегия данных отличает PHI-4 от аналогичных моделей.
Особенности и преимущества PHI-4 включают его компактность и эффективность, что позволяет ему работать на потребительском оборудовании; поколения и более крупные модели; Разработчики также могут легко интегрировать PHI-4 посредством подробной документации и API на платформе Huging Face, чтобы дополнительно расширить свои сценарии применения.
С точки зрения технологических инноваций, разработка PHI-4 в основном зависит от трех столбов: мультиагенты и методы самокорректировки для создания синтетических данных, методов улучшения после тренировки, таких как отбор отказа и непосредственная оптимизация предпочтений (DPO) и строго Отфильтрованные учебные данные. Кроме того, PHI-4 использует поиск ключевых маркеров (PTS) для выявления важных узлов в процессе принятия решений, оптимизируя его способность выполнять сложные задачи вывода. Эти технологические инновации обеспечивают прочную техническую основу для успеха PHI-4.
С открытым исходным кодом PHI-4 ожидания разработчиков наконец сбылись. Эта модель доступна не только для загрузки на платформе Hugging Face, но и поддерживает коммерческое использование по лицензии MIT. Эта открытая политика привлекла внимание большого числа разработчиков и любителей искусственного интеллекта, и официальные социальные сети «Объятие лица» также поздравили это, назвав ее «лучшей моделью 14b в истории». Открытый исходный код PHI-4 не только предоставляет разработчикам мощные инструменты, но и внедряет новую жизненную силу в инновации в области искусственного интеллекта.
Вход в модель: https://huggingface.co/microsoft/phi-4
Ключевые моменты:
** Microsoft запустила небольшую модель параметров PHI-4 с параметрами всего 14 миллиардов, но она превзошла много известных моделей. **
** PHI-4 хорошо показал несколько тестов на производительность, особенно в математике и рассуждениях. **
PHI-4 в настоящее время является открытым исходным кодом и поддерживает коммерческое использование, привлекая внимание и использование многих разработчиков.