Notes d'IA
Notes sur l'état de l'état de l'art, en mettant l'accent sur les modèles génératifs et grands. Ce sont les "matières premières" pour le https://lspace.swyx.io/ newsletter.
Ce repo s'appelait auparavant https://github.com/sw-yx/prompt-eng, mais a été renommé parce que l'ingénierie rapide est sur-typée. Il s'agit maintenant d'un repo de notes d'ingénierie AI.
Cette lecture est juste un aperçu de haut niveau de l'espace; Vous devriez voir le plus de mises à jour dans les autres fichiers Markdown dans ce dépôt:
-
TEXT.md
- génération de texte, principalement avec GPT-4-
TEXT_CHAT.md
- Informations sur le chatppt et les concurrents, ainsi que les produits dérivés -
TEXT_SEARCH.md
- Informations sur la recherche sémantique activée GPT-4 et autres informations -
TEXT_PROMPTS.md
- un petit fichier de balayage de bonnes invites GPT3
-
INFRA.md
- notes brutes sur l'infrastructure de l'IA, le matériel et la mise à l'échelle -
AUDIO.md
- suivi audio / musique / transcription vocale + génération -
CODE.md
- Modèles Codegen, comme Copilot -
IMAGE_GEN.md
- Le fichier le plus développé, avec les notes de l'accent la plus lourde sur la diffusion stable, et certaines sur MidJourney et Dalle.-
IMAGE_PROMPTS.md
- Un petit fichier de balayage de bonnes invites d'image
- Ressources : debout, nettoyée des ressources qui sont censées être permanentes
- Notes de Stub - Pages proto très petites / légères des futures zones de couverture -
AGENTS.md
- Suivi "Agent AI" - Idées de blog - Idées potentielles de l'article de blog dérivé de ces notes BC
Table des matières
- Cas d'utilisation motivationnelle
- Top IA Reads
- Communautés
- Personnes
- Mission
- Citations, réalité et démotivation
- Juridique, éthique et vie privée
Cas d'utilisation motivationnelle
- images
- https://mpost.io/best-100-stable-diffusion-prompts-the-most-beautiful-ai-text-to-image-prottand
- Images de cerveau synthétiques IRM 3D - Réception positive de la neuroimagerie statisticienne
- Diffusion stable multijoueur
- vidéo
- IMG2IMG des scènes de film célèbres (Lalaland)
- IMG2IMG transformant l'acteur avec ebsynth + koe_recast
- Comment Ebsynth fonctionne https://twitter.com/tomlikesrobots/status/1612047103806545923?s=20
- mode virtuelle (Karenxcheng)
- images de carrelage sans couture
- Évolution des scènes (Xander)
- Dépannage https://twitter.com/orbamsterdam/status/1568200010747068417?s=21&t=rliacnwoijjmis37s8qccw
- webui img2img collaboration https://twitter.com/_akhaliq/status/1563582621757898752
- Image à la vidéo avec rotation https://twitter.com/tomlikesrobots/status/1571096804539912192
- "Invite Paint" https://twitter.com/1littlecoder/status/1572573152974372864
- Audio2video Animation de votre visage https://twitter.com/siavashg/status/1597588865665363969
- Jouets physiques vers le modèle 3D + animation https://twitter.com/sergeyglkn/status/1587430510988611584
- clips
- La vidéo a tué l'étoile radio, Colab Ceci utilise la parole de Whisper d'Openai, vous permettant de prendre une vidéo YouTube et de créer une animation de diffusion stable invitée par les paroles de la vidéo YouTube
- Les vidéos de diffusion stables génèrent des vidéos en interpolant entre les invites et l'audio
- Projet direct text2video
- https://twitter.com/_akhaliq/status/1575546841533497344
- https://makeavideo.studio/ - Explorer https://webvid.datasette.io/webvid/videos
- https://phenaki.video/
- https://github.com/thudm/cogvideo
- https://imagen.research.google/video/
- text-to-3d https://twitter.com/_akhaliq/status/1575541930905243652
- https://dreamfusion3d.github.io/
- Open Source Implat: https://github.com/ashawkey/stable-dreamfusion
- Demo https://twitter.com/_akhaliq/status/1578035919403503616
- produits de texte
- a une liste des usécases à la fin https://huyenchip.com/2023/04/11/llm-engineering.html
- Jaspe
- GPT pour Obsidian https://reasonableviations.com/2023/02/05/gpt-for-second-brain/
- GPT3 Courriel https://github.com/sw-yx/gpt3-email et regroupement par e-mail
- GPT3 () dans Google Sheet 2020, 2022 - Sheet Google Sheets https://twitter.com/mehran__jalali/status/1608159307513618433
- https://gpt3demo.com/apps/google-sheets
- Charme https://twitter.com/shubroski/status/1620139262925754368?s=20
- https://www.summari.com/ Summari aide les gens occupés à en savoir plus
- Cartes / paysages du marché
- Tableau de pile Elad Gil 2024
- Map du marché Sequoia Jan 2023, juillet 2023, septembre 2023
- Map du marché Base10 https://twitter.com/letsenhance_io/status/1594826383305449491
- Carte du marché Matt Shumer https://twitter.com/matshumer_/status/1620465468229451776 https://docs.google.com/document/d/1sewtbzrf087f6hfximit
- nfx https://www.nfx.com/post/generative-ai-tech-5-layers?ref=Context-by-cogere
- a16z https://a16z.com/2023/01/19/whowns-the-generative-ai-platform/
- https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/
- https://a16z.com/100-en-ai-apps
- Madrona https://www.madrona.com/foundation-models/
- manche
- https://www.coatie.com/blog/perspective/ai-the-coming-revolution-2023
- https://x.com/sam_awrabi/status/1742324900034150646?s=20
- actifs de jeu -
- Emad Thread https://twitter.com/emostaque/status/1591436813750906882
- scénario.gg https://twitter.com/emmanuel_2m/status/1593356241283125251
- Exemple de modélisation des personnages de jeu 3D
- Mariogpt https://arxiv.org/pdf/2302.05981.pdf https://www.slashgear.com/1199870/Mariogpt-Uses-ai-to-Anerate-endless-Super-Mario-levelS-For-led/ Https: //github.com/shyamsn97/mario-gpt/blob/main/mario_gpt/level.py
- https://news.ycombinator.com/item?id=36295227
Top IA Reads
Les lectures GPT3 les plus avancées ont été séparées à https://github.com/sw-yx/ai-notes/blob/main/text.md
- https://www.gwern.net/gpt-3#prompts-as-programme
- https://learnprompting.org/
Lectures débutantes
- Bill Gates sur l'IA (Tweet)
- "Le développement de l'IA est aussi fondamental que la création du microprocesseur, de l'ordinateur personnel, d'Internet et du téléphone portable. Cela changera la façon dont les gens travaillent, apprendront, voyageront, obtiendront des soins de santé et communiquent entre eux."
- Steve Yegge sur l'IA pour les développeurs
- Karpathy 2023 Intro aux LLM (Notes de Sarah Chieng)
- Guide d'ingénierie rapide d'Openai chez Nerips via Sarah Chieng
- Pourquoi ce moment de l'IA pourrait être la vraie affaire
- Sam Altman - La loi de Moore pour tout
- Excellente introduction aux modèles de fondation de MSR https://youtu.be/hqi6o5dlyfc
- Openai Invite Tutorial https://beta.openai.com/docs/quickstart/add-some-examples
- Google Lamda Intro https://aistkitchen.withgoogle.com/how-lamda-works
- Cours de descente de gradient de Karpathy
- Ft Storyteling visuel sur "Comment fonctionnent les transformateurs"
- Dalle2 invite writing book http://dallery.gallery/wp-content/uploads/2022/07/the-dall%C2%B7E-2-prompt-book-v1.02.pdf
- https://medium.com/nerd-for-tech/prompt-ingineering-the-career-of-future-2fb93f90f117
- Comment utiliser l'IA pour faire des choses sur l'obtention d'informations, travailler avec des données et faire des images
- https://ourworldindata.org/brief-history-of-ai Ai Progress Présentation avec de beaux graphiques
- Génération de contenu AI de Jon Stokes, partie 1: Bases d'apprentissage automatique
- Andrew Ng - Opportunités en AI
- Que sont les modèles Transformer et comment fonctionnent-ils? - Peut-être un peu trop élevé
- génération de texte
- Ingénierie rapide de l'humanloop 101
- Explications de Stephen Wolfram https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
- Équivalent de Jon Stokes jonstokes.com/p/the-chat-stack-gpt-4-and-the-sear
- https://andymatuschak.org/prompts/
- Cohere's LLM University https://docs.cohere.com/docs/llmu
- Guide de Jay Alamm à toutes les choses: https://llm.university/
- https://www.jonstokes.com/p/chatgpt-explaked-a-guide-for-normies pour les normie
- génération d'images
- https://wiki.installgentoo.com/wiki/stable_diffusion
- https://www.reddit.com/r/stablediffusion/comments/x41n87/how_to_get_images_that_dont_suck_a/
- https://mpost.io/best-100-stable-diffusion-prompts-the-most-Beautiful-ai-text-to-image-prompts/
- https://www.kdnuggets.com/2021/03/beginners-guide-clip-model.html
- pour non technique
- https://www.jonstokes.com/p/ai-content-generation-part-1--machine
- https://www.protocol.com/generative-ai-startup-landscape-map
- https://twitter.com/saranormous/status/1572791179636518913
Lectures intermédiaires
- Rapport sur l'état de l'IA : 2018, 2019, 2020, 2021, 2022
- Événements majeurs chronologiques inversés https://bleedingEdge.ai/
- Ce que nous savons de LLMS - Grand récapitulatif de recherche
- Guide 1HR de la Karpathy pour les LLM - Résumé de Sarah Chieng
- Qu'est-ce qu'un modèle grand langage (LLM)?
- Il y a deux composantes principales d'un LLM
- Comment créez-vous un LLM?
- Étape 1: Pré-formation du modèle
- Étape 2: modèle de réglage fin
- Étape 2B: [facultatif] Affinement supplémentaire
- Étape 3: Inférence du modèle
- Étape 4: LLMS de suralimentation [en option] avec personnalisation
- Le LLM «classe» actuel
- L'avenir de LLMS: quelle est la prochaine étape?
- Comment améliorer les performances LLM?
- Lois de mise à l'échelle LLM
- Auto-amélioration
- Comment améliorer les capacités LLM?
- Multimodalité
- Système 1 + 2 Réflexion
- Les arts sombres llm
- Jailbrement
- Injection rapide
- Empoisonnement aux données et attaques de porte dérobée
- Evan Morikawa Guide to LLM Math, en particulier la pièce de 5 défis de mise à l'échelle
- Un guide de hacker sur les modèles de langue (YouTube) Aperçu complet de Jeremy Howard de 90min des apprentissages LLM - à partir des bases: l'approche UlmFit pré-entraînement / amendeuse / classificateur en 3 étapes utilisées dans tous les LLM modernes.
- https://spreadsheets-are-all-you-need.ai
- "Catching Up on the Weird World of LLMS" - Aperçu de 40 minutes de Simon Willison + Questions ouvertes pour les ingénieurs de l'IA
- Présentation des LLMS de Flyte
- Clementine Fourrier sur la façon dont les évals sont faits
- Modèles pour la construction de systèmes et de produits basés sur LLM - excellent récapitulatif
- Evals: pour mesurer les performances
- Rag: pour ajouter des connaissances externes récentes
- Fonctionnement: pour s'améliorer à des tâches spécifiques
- Cache: pour réduire la latence et le coût
- Garde-corps: pour assurer la qualité de la sortie
- UX défensif: anticiper et gérer les erreurs gracieusement
- Collecter les commentaires des utilisateurs: pour construire notre volant de données
- Bases de données vectorielles: une amorce technique [PDF] Très belles diapositives sur les DB vectoriels
- Couverture manquante de la recherche hybride (vecteur + lexical). Discussions supplémentaires
- A16Z AI Canon https://a16z.com/2023/05/25/ai-canon/
- Software 2.0 : Andrej Karpathy a été l'un des premiers à expliquer clairement (en 2017!) Pourquoi la nouvelle vague d'IA compte vraiment. Son argument est que l'IA est un moyen nouveau et puissant de programmer des ordinateurs. Comme les LLM se sont améliorés rapidement, cette thèse s'est avérée prémonitoire et elle donne un bon modèle mental sur la façon dont le marché de l'IA peut progresser.
- État de GPT : Aussi de la Karpathy, il s'agit d'une explication très accessible sur la façon dont les modèles Chatgpt / GPT dans le travail général, comment les utiliser et les directions que la R&D peut prendre.
- Que fait Chatgpt… et pourquoi cela fonctionne-t-il? : L'informatique et entrepreneur Stephen Wolfram donne une explication longue mais très lisible, des premiers principes, du fonctionnement des modèles d'IA modernes. Il suit le calendrier des premiers filets neuronaux aux LLM et Chatgpt d'aujourd'hui.
- Transformers, expliquée : Ce message de Dale Markowitz est une réponse plus courte et plus directe à la question «Qu'est-ce qu'un LLM, et comment ça marche?» C'est un excellent moyen de faciliter le sujet et de développer l'intuition pour la technologie. Il a été écrit sur GPT-3 mais s'applique toujours aux nouveaux modèles.
- Comment fonctionne la diffusion stable : c'est l'analogue de la vision par ordinateur au dernier post. Chris McCormick donne une explication par un profane sur le fonctionnement de la diffusion stable et développe l'intuition autour des modèles de texte à l'image en général. Pour une introduction encore plus douce , consultez cette bande dessinée de R / Stisediffusion.
- Explicateurs
- Deep Learning in a Nutshell: Core Concepts : Cette série en quatre parties de Nvidia parcourt les bases de l'apprentissage en profondeur comme pratiqué en 2015, et est une bonne ressource pour quiconque apprend simplement l'IA.
- Apprentissage en profondeur pratique pour les codeurs : cours complet et gratuit sur les principes fondamentaux de l'IA, expliqué à travers des exemples pratiques et du code.
- Word2Vec a expliqué : Introduction facile aux intégres et aux jetons, qui sont des éléments constitutifs de LLMS (et de tous les modèles de langue).
- Oui, vous devez comprendre le rétroproppeur : plus de message en profondeur sur la rétro-propagation si vous souhaitez comprendre les détails. Si vous en voulez encore plus, essayez la conférence Stanford CS231N (cours ici) sur YouTube.
- Cours
- Stanford CS229 : Introduction à l'apprentissage automatique avec Andrew Ng, couvrant les principes fondamentaux de l'apprentissage automatique.
- Stanford CS224N : NLP avec apprentissage en profondeur avec Chris Manning, couvrant les bases du NLP à travers la première génération de LLMS.
- https://github.com/mlabonne/llm-cours
- https://cims.nyu.edu/~sbowman/eightthings.pdf
- Les LLM sont prévisibles plus capables avec des investissements croissants, même sans innovation ciblée.
- De nombreux comportements LLM importants émergent imprévisiblement comme un sous-produit de l'augmentation de l'investissement.
- Les LLM semblent souvent apprendre et utiliser des représentations du monde extérieur.
- Il n'y a pas de techniques fiables pour diriger le comportement des LLM.
- Les experts ne sont pas encore en mesure d'interpréter le fonctionnement interne des LLM.
- La performance humaine sur une tâche n'est pas une limite supérieure sur les performances LLM.
- Les LLM n'ont pas besoin d'exprimer les valeurs de leurs créateurs ni les valeurs codées dans le texte Web.
- De brèves interactions avec les LLM sont souvent trompeuses.
- Simonw met en évidence https://fedi.simonwillison.net/@simon/110144185463887790
- 10 défis ouverts dans la recherche LLM https://huyenchip.com/2023/08/16/llm-research-open-challenges.html
- Openai Invite Eng Cookbook https://github.com/openai/openai-cookbook/blob/main/techniques_to_improve_reliability.md
- Sur Prompt Eng Présentation https://lilianweng.github.io/posts/2023-03-15-prompt-ingineering/
- https://moultano.wordpress.com/2023/06/28/the-many-ways-that-digital-minds-can-know/ Comparaison de la recherche vs ai
- Récapitulation des principaux développements de l'IA de 2022 https://www.deeplearning.ai/the-batch/issue-176/
- Dalle2 Génération d'actifs + ininterruption https://twitter.com/aifunhouse/status/1576202480936886273?s=20&t=5Exa1Uydpva2SJZM-SXHCQ
- Suhail Journey https://twitter.com/suhail/status/1541276314485018625?s=20&t=x2mvkqkhdr28iz3vzeeo8w
- Diffusion composable - "et" au lieu de "et" https://twitter.com/tomlikesrobots/status/1580293860902985728
- Sur BPE Tokenisation https://towardsdatascience.com/byte-pair-coding-subword-basased-lokeisation-algorithm-77828a70bee0 Voir aussi Google phrase-cid et openai tiktoken
- Source dans GPT2 Source https://github.com/openai/gpt-2/blob/master/src/encoder.py
- Notez que les BPE sont sous-optimaux https://www.lesswrong.com/posts/dfbfclza4pejckekc/a-mechanistic-explanation-for-solidgoldmagikarp-like-tokens?commentID=9jndkscwewbb4gtcq
- // ------------------------------------------------ -------------------------------------------------- -------------- est un seul jeton GPT-4
- GPT-3.5 s'écrase quand il pense trop à userativemagepath trop
- provoque des problèmes de personnages mathématiques https://news.ycombinator.com/item?id=35363769
- et provoquer des problèmes avec des étions
- Les jetons de glitch se produisent lorsque le tokenizer a un ensemble de données différent de LLM
- Karpathy en train de parler de la raison pour laquelle la tokenisation est désordonnée
- https://platform.openai.com/tokenizer et https://github.com/openai/tiktoken (plus à jour: https://tiktokenizer.vercel.app/)
- Bouche -> BPE -> SentenTansformateur
- Lecture préliminaire sur les intégres
- https://youtu.be/qddoffkvkcw?si=qefzsddspxdnd313
- Benching MTEB HuggingFace d'un tas d'incorporation
- Problèmes notables avec les incorporations et les alternatives GPT3 à considérer
- https://observablehq.com/@simonw/gpt-3-Token-encoder-decoder
- Karpathy veut que la tokenisation disparaisse https://twitter.com/karpathy/status/1657949234535211009
- Encodage de position non nécessaire pour le décodeur uniquement https://twitter.com/a_kazemnejad/status/1664277559968927744?s=20
- Crée sa propre langue https://twitter.com/giannis_daras/status/1531693104821985280
- Google Cloud Generative Ai Learnal Path https://www.cloudskillsboost.google/paths/118
- img2img https://andys.page/posts/how-to-draw/
- sur la modélisation du langage https://lena-voita.github.io/nlp_course/language_modeling.html et explication technique accessible mais technique de la génération de langues, y compris l'échantillonnage à partir de distributions et une certaine inteprétabilité mécaniste (trouver un neurone qui suit l'état de citation)
- Quest of PhotoRealism https://www.reddit.com/r/stablediffusion/comments/x9zmjd/quest_for_ultimate_photorealism_part_2_colors/
- https://medium.com/merzazine/prompt-design-for-dall-e-photorealism-emulat-reality-6f478df6f186
- Paramètres ajustement https://www.reddit.com/r/stablediffusion/comments/x3k79h/the_feeling_of_discovery_sd_is_like_a_great_proc/
- Sélection des semences https://www.reddit.com/r/stablediffusion/comments/x8szj9/tutorial_seed_selection_and_the_impact_on_your/
- Étude de la différence de paramètre mineur (étapes, clamp_max, eta, cutn_batches, etc.) https://twitter.com/kyrickyoung/status/1500196286930292742
- AI génératif: Ambord d'auto pour tout https://noahpinion.substack.com/p/generative-ai-autoccomplet-for-everything?sd=pf
- Comment GPT obtient-il sa capacité? Tracer les capacités émergentes des modèles de langage à leurs sources bon papier avec l'histoire du développement de la famille de modèles GPT et comment les capacités ont développé
- https://barryz-architecture-of-agentic-llm.notion.site/almost-everything-i-know-ubout-llms-d117ca25d4624199be07e9b0ab356a77
Lectures avancées
- https://github.com/mooler0410/llmspractiticalguide
- Bonne liste organisée de tous les papiers IMPT
- https://github.com/eleutherai/cookbook#the-cookbook eleuther Ai's Liste des ressources pour la formation. Comparez à https://github.com/google-research/tuning_playbook
- Anti Hype LLM Liste de lecture https://gist.github.com/veekaybee/be375ab33085102f9027853128dc5f0e
- 6 articles de Jason Wei d'Openai (blog)
- Papier GPT-3 (https://arxiv.org/abs/2005.14165)
- Invitation de la chaîne-pensée (https://arxiv.org/abs/2201.11903)
- Échelle des lois, (https://arxiv.org/abs/2001.08361)
- Capacités émergentes (https://arxiv.org/abs/2206.07682)
- Les modèles linguistiques peuvent suivre les étiquettes inversées et les étiquettes sémantiquement non liées (https://arxiv.org/abs/2303.03846)
- LLM Paper Notes - Notes du latente Space Paper Club par Eugene Yan
- Transformers de Scratch https://e2eml.school/transformers.html
- Transformers vs LSTM https://medium.com/analytics-vidhya/why-are-lstms-truggling-to-matchup-with-transformateurs-a1cc5b2557e3
- Code du transformateur Walkthru https://twitter.com/mark_riedl/status/1555188022534176768
- Transformateur Familyi https://lilianweng.github.io/posts/2023-01-27-the-transformateur-family-v2/
- Liste de papier carmack https://news.ycombinator.com/item?id=34639634
- Modèles de transformateur: une introduction et un catalogue https://arxiv.org/abs/2302.07730
- DeepMind - Algorithmes formels pour les transformateurs https://arxiv.org/pdf/2207.09238.pdf
- Explicateurs de Jay Alamm
- https://jalammar.github.io/illustrated-transformrer/
- https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/
- Karpathie sur les transformateurs
- Convergence : la consolidation en cours dans l'IA est incroyable. Quand j'ai commencé il y a ~ une décennie, la vision, la parole, le langage naturel, l'apprentissage du renforcement, etc. étaient complètement séparés; Vous ne pouviez pas lire des articles dans les zones - les approches étaient complètement différentes, souvent pas basées sur ML. En 2010, tous ces domaines ont commencé à transmettre 1) à l'apprentissage automatique et spécifiquement 2) des réseaux neuronaux. Les architectures étaient diverses, mais au moins les articles ont commencé à lire plus similaires, tous utilisant de grands ensembles de données et optimiser les réseaux neuronaux. Mais à partir d'environ. Deux dernières années, même les architectures neurales nettes dans tous les domaines commencent à être identiques - un transformateur (définissable en ~ 200 lignes de pytorch https://github.com/karpathy/mingpt/blob/master/mingpt/model.py… ), avec des différences très mineures. Soit comme une base de base, soit (souvent) de l'état de l'art. (Tweetstorm)
- Pourquoi les transformateurs ont gagné : Le transformateur est une magnifique architecture de réseau neuronal car il s'agit d'un ordinateur différenciable à usage général. Il est simultanément: 1) expressif (dans le pass avant) 2) Optimisable (via la backpropagation + descente de gradient) 3) efficace (graphique de calcul parallélisme élevé)
- https://twitter.com/karpathy/status/1593417989830848512?s=20
- Elaborated in 1HR Stanford Lecture et 8min Lex Fridman Résumé
- Babygpt avec deux jetons 0/1 et longueur de contexte de 3, le considérant comme une chaîne de Markov à l'état fini. Il a été formé sur la séquence "111101111011110" pour 50 itérations. Les paramètres et l'architecture du transformateur modifient les probabilités sur les flèches.
- Construisez GPT à partir de zéro https://www.youtube.com/watch?v=kcc8fmeb1ny
- Différents GPT à partir de zéro en 60 loc https://jaykmody.com/blog/gpt-from-scratch/
- Modèles de diffusion à partir de zéro, d'un nouveau point de vue théorique - intro du code des modèles de diffusion
- 137 Capacités émergentes des modèles de grande langue
- Les tâches provoquées à quelques coups émergents: repères Big Banc et MMLU
- Stratégies d'incitation émergentes
- Suivant les instructions
- Écrans
- Utilisation des connaissances en livre ouvert pour la vérification des faits
- Invitation à la chaîne de pensées
- Index de recherche différenciable
- Auto-cohérence
- Tirer parti des explications pour inviter
- La moindre proximité
- Chaîne de pensées zéro
- Étalonnage via p (true)
- Chaîne de pensées multilingues
- Demandez-moi
- Certains recul - sont-ils un mirage? N'utilisez pas les mesures dures
- https://www.jasonwei.net/blog/common-arguments-egarding-emergent-abilities
- https://hai.stanford.edu/news/ais-ostenible-mergent-abilities-are-irage
- Images
- Eugene Yan Explication du texte à la pile d'images https://eugeneyan.com/writing/text-to-image/
- Vqgan / clip https://minimaxir.com/2021/08/vqgan-clip/
- 10 ans d'histoire de la génération d'images https://zentralwerkstatt.org/blog/ten-years-of-image-synthesis
- Vision Transformers (VIT) a expliqué https://www.pinecone.io/learn/vision-transformateurs/
- Invitation négative https://minimaxir.com/2022/11/stable-diffusion-negative-prompt/
- Meilleurs articles de 2022 https://www.yitay.net/blog/2022-Best-nlp-Papers
- Prévisibilité et surprise dans les grands modèles génératifs - bon document d'enquête sur ce que nous savons sur la mise à l'échelle et les capacités et la montée des LLM
- Plus d'invites en papier https://github.com/dair-ai/prompt-engening-guide
- https://creator.nightcafe.studio/vqgan-clip-keyword-modific-cocomparison VQGAN + Clip Comparaison du modificateur de mot-clé
- Histoire des transformateurs
- Richard Socher sur leur contribution au mécanisme d'attention menant aux transformateurs https://overcast.fm/+r1p4nkffu/1:00:00
- https://kipp.ly/blog/transformer-taxonomy/ Ce document est ma revue de littérature en cours d'exécution pour les personnes qui essaient de rattraper leur retard sur l'IA. Il couvre 22 modèles, 11 changements architecturaux, 7 techniques de formation après la formation et 3 techniques de formation (et 5 choses qui ne sont pas ce qui précède)
- Comprendre les modèles de grande langue une coupe transversale de la littérature la plus pertinente pour se mettre au courant
- Accordant Bandanau et al (2014), qui, je crois, a d'abord proposé le concept d'appliquer une fonction Softmax sur les scores de jetons pour calculer l'attention, préparant le terrain pour le transformateur d'origine par Vaswani et al (2017). https://news.ycombinator.com/item?id=35589756
- https://finbarrtimbers.substack.com/p/five-stons-of-progress-in-gpts gpt1 / 2/3, Megatron, Gopher, Chinchilla, Palm, Llama
- Bon document de résumé (8 choses à savoir) https://cims.nyu.edu/~sbowman/eightthings.pdf
- Huggingface MOE Explicateur
- https://blog.alexalemi.com/kl-is-all-you-need.html
Nous avons comparé 126 modificateurs de mots clés avec la même invite et l'image initiale. Ce sont les résultats.
- https://creator.nightcafe.studio/collection/8dmygkm1evxg7z9pv23w
- Google a publié des partiprompts en tant que référence: https://parti.research.google/ "Partiprompts (P2) est un ensemble riche de plus de 1600 invites en anglais que nous publions dans le cadre de ce travail. Diverses catégories et aspects de défi. "
- Tutoriels vidéo
- Pixel Art https://www.youtube.com/watch?v=UVJKQPTR-8S&feature=youtu.be
- Histoire des papiers
- 2008: Architecture unifiée pour NLP (Collobert-Weston) https://twitter.com/ylecun/status/1611921657802768384
- 2015: Apprentissage de séquence semi-supervisé https://twitter.com/deliprao/status/1611896130589057025?s=20
- 2017: Transformers (Vaswani et al)
- 2018: GPT (Radford et al)
- Mission
- Perspective de stabilité du Cio https://danieljeffries.substack.com/p/the-trining-point-for-truly-open?sd=pf
- https://github.com/awesome-stable-diffusion/awesome-stable-diffusion
- https://github.com/microsoft/lmops Guide de la recherche rapide MSFT
- Discussion de Gwern dans les coulisses de Bing, GPT4 et de la relation Microsoft-openai https://www.lesswrong.com/posts/jtopawehlnxnxvgtt/bing-chat-is-blatly-aggressivement-Misalignedned
D'autres listes comme celle-ci
- https://gist.github.com/rain-1/eebd5e5eb2784feecf450324e3341c8d
- https://github.com/underlines/awesome-marketing-datascience/blob/master/aweson-ai.md#llama-models
- https://github.com/imaurer/awesome-decentralized-llm
Communautés
- Discords (voir https://buttondown.email/ainews pour les récapitulatifs quotidiens, mis à jour en direct)
- Discord de l'espace latent (le nôtre!)
- Piratage et apprentissage général
- Chatgpt Hackers Discord
- Laboratoire d'alignement Ai Discord
- Discorde de recherche
- Disque de disque
- Discorde de karpathy (inactive)
- Huggingface Discord
- Skunkworks ai Discord (nouveau)
- Jeff Wang / LLM Perf Enthusiasts Discord
- Mode Cuda (Mark Saroufim) Voir YouTube et Github
- Art
- Discorde stiatediffusion
- Deforum Discord https://discord.gg/upmxxsrwzc
- Lexica Discord https://discord.com/invite/bmhbjj9wrh
- Recherche d'IA
- LAION DISCORD https://discord.gg/xbpbxfcfhd
- ELEUTHER DISCORD: https://www.eleuther.ai/get-involved/ (amorce)
- Diverses startups
- Perplexity Discord https://discord.com/invite/kwjzsxpdux
- Discord de Midjourney
- Comment utiliser MidJourney V4 https://twitter.com/fabianstelzer/status/1588856386540417024?s=20&t=plglugaeeds9hwfegvrrpg
- https://stablehorde.net/
- Agents
- Autogpt Discord
- Babyagi Discord
- Reddit
- https://reddit.com/r/stablediffusion
- https://www.reddit.com/r/localllama/
- https://www.reddit.com/r/bing
- https://www.reddit.com/r/openai
Personnes
* Inconnu de beaucoup de gens, une quantité croissante d'alpha est désormais en dehors de l'ARXIV, les sources incluent, mais sans s'y limiter: https://github.com/trending, hn, ce serveur de discorde de niche, photo de profil d'anime anons sur x, reddit * - k
Cette liste sera obsolète mais vous permettra de démarrer. Ma liste en direct des personnes à suivre est à: https://twitter.com/i/lists/1585430245762441216
- Chercheurs / développeurs
- https://twitter.com/_jasonwei
- https://twitter.com/johnowhitaker/status/1565710033463156739
- https://twitter.com/altryne/status/1564671546341425157
- https://twitter.com/schmidhuberai
- https://twitter.com/nearcyan
- https://twitter.com/karinanganguyen_
- https://twitter.com/abhi_venigalla
- https://twitter.com/advadnoun
- https://twitter.com/polynoamial
- https://twitter.com/vovahimelf
- https://twitter.com/sarahookr
- https://twitter.com/shaneguml
- https://twitter.com/maartensap
- https://twitter.com/ethancaballero
- https://twitter.com/shayneredford
- https://twitter.com/seb_ruder
- https://twitter.com/rasbt
- https://twitter.com/wightmanr
- https://twitter.com/garymarcus
- https://twitter.com/ylecun
- https://twitter.com/karpathy
- https://twitter.com/pirroh
- https://twitter.com/eerac
- https://twitter.com/teknium
- https://twitter.com/alignment_lab
- https://twitter.com/picoceator
- https://twitter.com/charlespacker
- https://twitter.com/ldjconfirmed
- https://twitter.com/nisten
- https://twitter.com/far__el
- https://twitter.com/i/lists/1713824630241202630
- Nouvelles / agrégateurs
- https://twitter.com/ai__pub
- https://twitter.com/weirdstableai
- https://twitter.com/multimodalart
- https://twitter.com/lastweekinai
- https://twitter.com/paperswithcode
- https://twitter.com/deeplearningai_
- https://twitter.com/dl_weekly
- https://twitter.com/slashml
- https://twitter.com/_akhaliq
- https://twitter.com/aaditya_ai
- https://twitter.com/bentossell
- https://twitter.com/johnvmcdonnell
- Fondateurs / constructeurs / VC
- https://twitter.com/levelsio
- https://twitter.com/goodside
- https://twitter.com/c_valenzuelab
- https://twitter.com/raza_habib496
- https://twitter.com/sharifshameem/status/1562455690714775552
- https://twitter.com/genekogan/status/1555184488606564353
- https://twitter.com/levelsio/status/1566069427501764613?s=20&t=campswtmhdssehqwd0k7ig
- https://twitter.com/amanrsanger
- https://twitter.com/ctjlewis
- https://twitter.com/sarahcat21
- https://twitter.com/jackclarksf
- https://twitter.com/alexandr_wang
- https://twitter.com/rameerez
- https://twitter.com/scottastevenson
- https://twitter.com/denisyarats
- Stabilité
- https://twitter.com/stabilityai
- https://twitter.com/stablediffusion
- https://twitter.com/hardmaru
- https://twitter.com/jjitsev
- Openai
- https://twitter.com/sama
- https://twitter.com/ilyasut
- https://twitter.com/miramurati
- Étreinte
- https://twitter.com/younesbelkada
- Artistes
- https://twitter.com/karenxcheng/status/1564626773001719813
- https://twitter.com/tomlikesrobots
- Autre
- Entreprise
- https://twitter.com/anthropicai
- https://twitter.com/assemblyai
- https://twitter.com/cohereai
- https://twitter.com/mosaicml
- https://twitter.com/metaai
- https://twitter.com/deepmind
- https://twitter.com/hellopaperspace
- Bots et applications
- https://twitter.com/dreamtweetapp
- https://twitter.com/aiarteveryhour
Citations, réalité et démotivation
- Étroit, Domain Tedium Usecases https://twitter.com/willmanidis/status/1584900092615528448 et https://twitter.com/willmanidis/status/1584900100480192516
- antihype https://twitter.com/alexandr_wang/status/1573302977418387457
- Antihype https://twitter.com/fchollet/status/1612142423425138688?s=46&t=plcnw9pf-co4bn08qqvaug
- mèmes inchaux
- https://twitter.com/_jasonwei/status/1516844920367054848
- Les choses stivediffusion se débat avec https://opguides.info/posts/aiartpanic/
- Nouveau Google
- https://twitter.com/alexandr_wang/status/1585022891594510336
- Nouveau PowerPoint
- via Emad
- Invites par défaut par défaut dans l'interface utilisateur
- Dalle: https://twitter.com/levelsio/status/1588588888115912705?s=20&t=0ojpgmh9k6meyvg2i6gg
- Il y a eu deux hivers antérieurs, un 1974-1980 et un 1987-1993. https://www.erichgrunwald.com/posts/the-prospect-of-an-ai-winter/. Un peu plus de commentaires ici. Connexes - Effet AI - "Une fois qu'il fonctionne, ce n'est pas AI"
- C'est juste une multiplication matricielle / perroquets stochastiques
- Même LLM sceptique Yann LeCun dit que les LLM ont un certain niveau de compréhension: https://twitter.com/ylecun/status/1667947166764023808
- «Deep Learning de Gary Marcus frappe un mur» https://nautil.us/deep-learning-is-hitting-a-wall-238440/ Systèmes symboliques poussés
- "Guo Lai Ren" Antihypers-> Worriers
- https://adamkarvonen.github.io/machine_learning/2024/03/20/chess-gpt-interventions.html#next-token-predictors
Juridique, éthique et vie privée
- NSFW Filter https://vickiboykis.com/2022/11/18/some-notes-on-the-stable-diffusion-safet-filter/
- Sur "Ai Art Panic" https://opguides.info/posts/aiartpanic/
- J'ai perdu tout ce qui m'a fait aimer mon travail via MidJourney
- Liste des artistes MidJourney
- Yannick influence OpenRail-M https://www.youtube.com/watch?v=w5m-dvzpzsq
- Écoles d'art acceptant AI Art https://twitter.com/daverogenmoser/status/1597746558145265664
- DRM émet https://undeleted.ronsor.com/voice.ai-gpl-violations-with-a-side-of-drm/
- Voler de l'art https://stablediffusionlitigation.com
- http://www.stablediffusionfrivole.com/
- Attribution stable https://news.ycombinator.com/item?id=34670136
- Argument Coutner pour Disney https://twitter.com/jonst0kes/status/1616219435492163584?s=46&t=hqqqdh1yewhwusqytmf8ww
- Des recherches sur la copie de diffusion stable https://twitter.com/officialzhvng/status/1620535905298817024?s=20&t=nc-nw7pfda8nyrd08lx1nw Ce document a utilisé une diffusion stable pour générer 175 millions d'images supérieures à 350 000 invites et n'a trouvé que 109 à des données de formation. Ai-je raison que mon principal point à retenir de ceci est à quel point la diffusion stable est bonne de ne pas mémoriser des exemples de formation?
- gratter le contenu
- https://blog.ericgoldman.org/archives/2023/08/web-scraping-for-me-but-not-for-thee-guest-log-post.htm
- Sarah Silverman Case - Openai Response https://arstechnica.com/tech-policy/2023/08/openai-disputes-authors-claids-that-every-chatgpt-esponse-is-a-aderivative-work/
- réponse ouverte
- Licence
- Les poids AI ne sont pas ouverts "Source" - Sid Sijbrandij
- Diversité et capitaux propres
- Sexualizing minorités https://twitter.com/lanadenina/status/1680238883206832129 La raison est que le porno est bon dans les corps
- Openai Tacking sur "Black" au hasard pour rendre Dalle diversifié
- Confidentialité - informatique confidentielle https://www.edgeless.systems/blog/how-confidential-computing-and-ai-fit-together/
- AI taking jobs https://donaldclarkplanb.blogspot.com/2024/02/this-is-why-idea-that-ai-will-just.html
Alignment, Safety
- Anthropic - https://arxiv.org/pdf/2112.00861.pdf
- Helpful: attempt to do what is ask. concise, efficient. ask followups. redirect bad questions.
- Honest: give accurate information, express uncertainty. don't imitate responses expected from an expert if it doesn't have the capabilities/knowledge
- Harmless: not offensive/discriminatory. refuse to assist dangerous acts. recognize when providing sensitive/consequential advice
- criticism and boundaries as future direction https://twitter.com/davidad/status/1628489924235206657?s=46&t=TPVwcoqO8qkc7MuaWiNcnw
- Just Eliezer entire body of work
- https://twitter.com/esyudkowsky/status/1625922986590212096
- agi list of lethalities https://www.lesswrong.com/posts/uMQ3cqWDPHhjtiesc/agi-ruin-a-list-of-lethalities
- note that eliezer has made controversial comments in the past and also in recent times (TIME article)
- Connor Leahy may be a more sane/measured/technically competent version of yud https://overcast.fm/+aYlOEqTJ0
- it's not just paperclip factories
- https://www.lesswrong.com/posts/HBxe6wdjxK239zajf/what-failure-looks-like
- the 6 month pause letter
- https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- yann lecun vs andrew ng https://www.youtube.com/watch?v=BY9KV8uCtj4
- https://scottaaronson.blog/?p=7174
- emily bender response
- Geoffrey Hinton leaving Google
- followed up by one sentence public letter https://www.nytimes.com/2023/05/30/technology/ai-threat-warning.html
- xrisk - Is avoiding extinction from AI really an urgent priority? (lien)
- AI Is not an arms race. (lien)
- If we're going to label AI an 'extinction risk,' we need to clarify how it could happen. (lien)
- OpenAI superalignment https://www.youtube.com/watch?v=ZP_N4q5U3eE
règlement
- chinese regulation https://www.chinalawtranslate.com/en/overview-of-draft-measures-on-generative-ai/
- https://twitter.com/mmitchell_ai/status/1647697067006111745?s=46&t=90xQ8sGy63D2OtiaoGJuww
- China is the only major world power that explicitly regulates generative AI
- italy banning chatgpt
- At its annual meeting in Japan, the Group of Seven (G7), an informal bloc of industrialized democratic governments, announced the Hiroshima Process, an intergovernmental task force empowered to investigate risks of generative AI. G7 members, which include Canada, France, Germany, Italy, Japan, the United Kingdom, and the United States, vowed to craft mutually compatible laws and regulate AI according to democratic values. These include fairness, accountability, transparency, safety, data privacy, protection from abuse, and respect for human rights.
- US President Joe Biden issued a strategic plan for AI. The initiative calls on US regulatory agencies to develop public datasets, benchmarks, and standards for training, measuring, and evaluating AI systems.
- Earlier this month, France's data privacy regulator announced a framework for regulating generative AI.
- regulation vs Xrisk https://1a3orn.com/sub/essays-regulation-stories.html
- Multimodal Prompt Injection in GPT4V
Mission
- Chuchoter
- https://huggingface.co/spaces/sensahin/YouWhisper YouWhisper converts Youtube videos to text using openai/whisper.
- https://twitter.com/jeffistyping/status/1573145140205846528 youtube whipserer
- multilingual subtitles https://twitter.com/1littlecoder/status/1573030143848722433
- video subtitles https://twitter.com/m1guelpf/status/1574929980207034375
- you can join whisper to stable diffusion for reasons https://twitter.com/fffiloni/status/1573733520765247488/photo/1
- known problems https://twitter.com/lunixbochs/status/1574848899897884672 (edge case with catastrophic failures)
- textually guided audio https://twitter.com/FelixKreuk/status/1575846953333579776
- Codegen
- CodegeeX https://twitter.com/thukeg/status/1572218413694726144
- https://github.com/salesforce/CodeGen https://joel.tools/codegen/
- pdf to structured data - Impira used t to do it (dead link: https://www.impira.com/blog/hey-machine-whats-my-invoice-total) but if you look hard enough on twitter there are some alternatives
- text to Human Motion diffusion https://twitter.com/GuyTvt/status/1577947409551851520
- abs: https://arxiv.org/abs/2209.14916
- project page: https://guytevet.github.io/mdm-page/