Добро пожаловать в раздел «Теория и практический опыт НЛП».
В этом репозитории я описал почти все, что вам нужно для начала работы в мире НЛП, начиная от токенизаторов и заканчивая архитектурой трансформаторов. К тому времени, как вы закончите это, вы уже будете иметь четкое представление об основных концепциях НЛП.
Цель этого репозитория — дать вам основную интуицию, и к концу вы поймете, как все развивалось с годами и почему все так, как есть.
Изображение, созданное идеограммой
Оглавление
1. Токенизация
2. Предварительная обработка
3. Мешок слов и сходство
4. TF-IDF и поиск документов
5. Наивная байесовская классификация текстов
6. Моделирование тем LDA
7. Встраивание слов
8. Рекуррентные нейронные сети (RNN) и языковое моделирование.
9. Машинный перевод и внимание
10. Трансформеры
Как мне использовать этот репозиторий?
Учитывая вычислительную мощность, необходимую для ML и DL, рекомендуется использовать ядра Google Colab или Kaggle.
Вы можете нажать, чтобы открыть блокнот в Colab.
Вы можете нажать, чтобы открыть блокнот в Kaggle.
Для некоторых блокнотов используются наборы данных Kaggle, а некоторые — в гигабайтах.
Для более быстрой загрузки этих наборов данных рекомендуется открывать их в Kaggle, используя соответствующие теги.
Открытие ядра Kaggle не приводит к непосредственному подключению набора данных, необходимого для записной книжки.
Вам необходимо прикрепить набор данных, ссылка на который указана в соответствующих блокнотах, которые вы найдете по мере их изучения.
Начните с Блокнота Tokenization и последовательно продвигайтесь вперед.
Не торопитесь, чтобы понять концепции и код. Он специально разработан так, чтобы его было легко понять и можно было выполнять в удобном для вас темпе.
Прежде чем приступить к работе, убедитесь, что у вас есть базовое понимание программирования на Python.
Если у вас возникнут какие-либо проблемы или возникнут вопросы, смело открывайте проблему в репозитории GitHub.
Не забудьте отметить репозиторий, если он окажется для вас полезным!
Содействие
Вы можете внести свой вклад в этот репозиторий. Вы можете начать с открытия проблемы или отправки запроса на включение. Если у вас есть какие-либо вопросы, не стесняйтесь обращаться ко мне по X
Если у вас есть какие-либо ресурсы, которые, по вашему мнению, будут полезны другим, не стесняйтесь открыть проблему или отправить запрос на включение.
Лицензия
Этот проект лицензируется по лицензии MIT — подробности см. в файле LICENSE.