Notas da IA
Notas sobre o estado da arte da IA, com foco em modelos generativos e grandes de idiomas. Estas são as "matérias -primas" para https://lspace.swyx.io/ boletim informativo.
Esse repositório costumava ser chamado https://github.com/sw-yx/prompt-eng, mas foi renomeado porque a engenharia rápida é exagerada. Este agora é um repositório de notas de engenharia da IA.
Este readme é apenas a visão geral de alto nível do espaço; Você deve ver o máximo de atualizações nos outros arquivos de marcação neste repositório:
-
TEXT.md
- geração de texto, principalmente com GPT -4-
TEXT_CHAT.md
- Informações sobre ChatGPT e concorrentes, bem como produtos derivados -
TEXT_SEARCH.md
- Informações sobre pesquisa semântica habilitada para GPT -4 e outras informações -
TEXT_PROMPTS.md
- um pequeno arquivo de furto de bons avisos do GPT3
-
INFRA.md
- Notas brutas sobre infraestrutura de IA, hardware e escala -
AUDIO.md
- Rastreando Audio/Music/Voice Transcription + Generation -
CODE.md
- Modelos CodeGen, como Copilot -
IMAGE_GEN.md
- O arquivo mais desenvolvido, com a ênfase mais pesada notas sobre difusão estável e algumas em Midjourney e Dalle.-
IMAGE_PROMPTS.md
- um pequeno arquivo de furto de bons prompts de imagem
- Recursos : em pé, limpe os recursos que devem ser permitidos para
- Notas de Stub - Páginas proto muito pequenas/leves de áreas de cobertura futuras -
AGENTS.md
- Rastreando "Agentic Ai" - Idéias de blog - Idéias de postagem em potencial derivadas dessas notas BC
Índice
- Casos de uso motivacional
- A IA principal lê
- Comunidades
- Pessoas
- Misc
- Citações, realidade e desmotivação
- Legal, ética e privacidade
Casos de uso motivacional
- imagens
- https://mpost.io/best-100-stable-diffusion-prompts-the-a-beautiful-ai-text to-image-prompts
- Imagens cerebrais sintéticas de ressonância magnética 3D - recepção positiva do estatístico de neuroimagem
- Difusão estável multiplayer
- vídeo
- img2img de cenas de filme famosas (Lalaland)
- IMG2IMG Ator transformador com ebsynth + koe_recast
- Como funciona o ebsynth https://twitter.com/tomlikesrobots/status/1612047103806545923?s=20
- Moda Virtual (Karenxcheng)
- imagens de ladrilhos sem costura
- Evolução das cenas (Xander)
- Outpainting https://twitter.com/orbamsterdam/status/1568200010747068417?s=21&t=rliacnwoijjmis37s8qccw
- Webui img2img colaboração https://twitter.com/_akhaliq/status/1563582621757898752
- Imagem para vídeo com rotação https://twitter.com/tomlikesrobots/status/1571096804539912192
- "Paint" https://twitter.com/1littlecoder/status/1572573152974372864
- AIDIO2VIDEO Animação do seu rosto https://twitter.com/siavashg/status/1597588865665363969
- Brinquedos físicos para modelo 3D + animação https://twitter.com/sergeyglkn/status/1587430510988611584
- videoclipes
- Vídeo matou a estrela do rádio, Colab Isso usa o Whisper Spean-toxt do OpenAI, permitindo que você faça um vídeo do YouTube e crie uma animação de difusão estável motivada pela letra no vídeo do YouTube
- Vídeos de difusão estável gera vídeos interpolando entre prompts e áudio
- Projeto direto text2video
- https://twitter.com/_akhaliq/status/1575546841533497344
- https://makeavideo.studio/ - explorer https://webvid.datasette.io/webvid/videos
- https://phenaki.video/
- https://github.com/thudm/cogvideo
- https://imagen.research.google/video/
- Text to-3d https://twitter.com/_akhaliq/status/1575541930905243652
- https://dreamfusion3d.github.io/
- Open Source Impl: https://github.com/ashawkey/stable-dreamfusion
- Demo https://twitter.com/_akhaliq/status/1578035919403503616
- produtos de texto
- tem uma lista de USECASES no final https://huyenchip.com/2023/04/11/llm-engineering.html
- Jaspe
- GPT for Obsidian https://ReaseableDeleviations.com/2023/02/05/gpt-for-second-brain/
- GPT3 E-mail https://github.com/sw-yx/gpt3-mail e cluster de e-mail
- GPT3 () no Google Sheet 2020, 2022 - Folha do Google Folhas https://twitter.com/mehran__jalali/status/1608159307513618433
- https://gpt3demo.com/apps/google-sheets
- Charm https://twitter.com/shubroski/status/1620139262925754368?s=20
- https://www.summari.com/ Summari ajuda as pessoas ocupadas a ler mais
- Mapas/paisagens de mercado
- gráfico de pilha Elad Gil 2024
- Sequoia Market Mapa de janeiro de 2023, julho de 2023, setembro de 2023
- BASE10 MERCADO MAPELA https://twitter.com/lettenhance_io/status/15948263833054449491
- matt shumer market map https://twitter.com/mattshumer_/status/1620465468229451776 https://docs.google.com/document/d/1sewTBzRF087F6hFXiyeOIsGC1N4N3O7rYzijVexCgoQ/edit
- nfx https://www.nfx.com/post/generative-ai-tech-5-layers?ref=context-by-cohere
- A16Z https://a16z.com/2023/01/19/who-owns-the-generative-ai-platform/
- https://a16z.com/2023/06/20/emerging-architectures-for-llm-applications/
- https://a16z.com/100-gen-ai-apps
- Madrona https://www.madrona.com/foundation-models/
- casaco
- https://www.coaatu.com/blog/perspective/ai-the-coming-revolution-2023
- https://x.com/sam_awrabi/status/1742324900034150646?s=20
- ativos de jogo -
- Emad Thread https://twitter.com/emostaque/status/1591436813750906882
- cenário.gg https://twitter.com/emmanuel_2m/status/1593356241283125251
- Exemplo de modelagem de personagens de jogo 3D
- Mariogpt https://arxiv.org/pdf/2302.05981.pdf https://www.slashgear.com/1199870/mariogpt-uses-ai-ai-geneate-ndless-super-mario-levels-fre----entrop/ https: //github.com/shyamsn97/mario-gpt/blob/main/mario_gpt/level.py
- https://news.ycombinator.com/item?id=36295227
A IA principal lê
As leituras mais avançadas do GPT3 foram divididas em https://github.com/sw-yx/ai-notes/blob/main/text.md
- https://www.gwern.net/gpt-3#prompts-as-programming
- https://learnprompting.org/
Leia para iniciantes
- Bill Gates na IA (tweet)
- "O desenvolvimento da IA é tão fundamental quanto a criação do microprocessador, do computador pessoal, da Internet e do telefone celular. Isso mudará a maneira como as pessoas trabalham, aprendem, viajam, obterem cuidados de saúde e se comunicarão".
- Steve Yegge na IA para desenvolvedores
- Karpathy 2023 Introdução ao LLMS (Notas de Sarah Chieng)
- Guia de engenharia imediata do OpenAi em Neurips via Sarah Chieng
- Por que este momento ai pode ser o verdadeiro negócio
- Sam Altman - Lei de Moore para tudo
- Excelente introdução aos modelos de fundação de msr https://youtu.be/hqi6o5dlyfc
- Tutorial de prompt do OpenAI https://beta.openai.com/docs/quickstart/add-some-examples
- Google Lamda Intro https://aitestkitchen.withgoogle.com/how-lamda-works
- Curso de Descendência de Gradiente de Karpathy
- FT Contando histórias visuais em "Como os Transformers trabalham"
- Dalle2 Livro de redação prompt http://dallery.gallery/wp-content/uploads/2022/07/the-dall%C2%B7e-2-prompt-book-v1.02.pdf
- https://medium.com/nerd-for-tech/prompt-engineering-the-career-of-future-2fb93f90f117
- Como usar a IA para fazer coisas para obter informações, trabalhar com dados e fazer imagens
- https://ourworldindata.org/brief-history-oi-ai Ai Visão geral de progresso com cartas agradáveis
- Geração de conteúdo de AI de Jon Stokes, Parte 1: Machine Learning Basics
- Andrew Ng - Oportunidades na IA
- O que são modelos de transformadores e como eles funcionam? - talvez um pouco muito alto
- geração de texto
- Engenharia Prompt de Humanloop 101
- Explicações de Stephen Wolfram https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-itwork/
- Equivalente de Jon Stokes jonnstokes.com/p/the-chat-stack-gpt-4-and-the-near
- https://andymatuschak.org/prompts/
- Universidade LLM da Coere https://docs.cohere.com/docs/llmu
- Guia de Jay Alammar para todas as coisas: https://llm.university/
- https://www.jonnstokes.com/p/chatgpt-explined-a-guide-for-niaies para normas
- geração de imagens
- https://wiki.installgentoo.com/wiki/stable_diffusion Visão geral
- https://www.reddit.com/r/stablediffusion/comments/x41n87/how_to_get_images_that_dont_suck_a/
- https://mpost.io/best-100-stable-diffusion-prompts-the-most-beautiful-ai-text to-image-prompts/
- https://www.kdnuggets.com/2021/03/beginners-guide clip-model.html
- para não técnico
- https://www.jonnstokes.com/p/ai-content-generation-part-1-machine
- https://www.protocol.com/generative-ai-startup-landscape-map
- https://twitter.com/saranormous/status/1572791179636518913
Leituras intermediárias
- Relatório do Estado da IA : 2018, 2019, 2020, 2021, 2022
- Os principais eventos cronológicos reversos https://bleedingedge.ai/
- O que sabemos sobre LLMS - Grande recapitulação da pesquisa
- Guia 1HR de Karpathy para LLMS - Resumo de Sarah Chieng
- O que é um grande modelo de idioma (LLM)?
- Existem dois componentes principais de um LLM
- Como você cria um LLM?
- Estágio 1: modelo pré-treinamento
- Estágio 2: modelo de ajuste fino
- Etapa 2b: [opcional] Ajuste fino adicional
- Etapa 3: Inferência do Modelo
- Etapa 4: [Opcional] Supercharging LLMS com personalização
- O atual LLM “tabela de classificação”
- O futuro do LLMS: O que vem a seguir?
- Como melhorar o desempenho do LLM?
- Leis de escala LLM
- Auto-aperfeiçoamento
- Como melhorar as habilidades do LLM?
- Multimodalidade
- Sistema 1 + 2 Pensando
- A LLM Dark Arts
- Jailbreaking
- Injeção imediata
- Envenenamento de dados e ataques de backdoor
- Guia de Evan Morikawa para LLM Math, especialmente a peça de 5 desafios de escala
- Um guia de hackers para modelos de idiomas (YouTube) Jeremy Howard 90min Visão geral completa dos aprendizados de LLM-começando no básico: a abordagem Ulmfit de pré-treinamento / tunffit de pré-treinamento / ajuste de 3 etapas usada em todos os LLMs modernos.
- https://spreadsheets-are-all-you-need.ai
- "Alcançando o mundo estranho do LLMS" - Visão geral de 40 minutos de Simon Willison + Perguntas abertas para engenheiros de IA
- Visão geral do LLMS do Flyte
- Clementine Fourrier sobre como as evalas são feitas
- Padrões para a construção de sistemas e produtos baseados em LLM - ótima recapitulação
- Evals: medir o desempenho
- Rag: para adicionar conhecimento externo recente
- Ajuste fino: para melhorar em tarefas específicas
- Armazenamento em cache: para reduzir a latência e o custo
- Guardrails: para garantir a qualidade da saída
- UX defensivo: para antecipar e gerenciar erros graciosamente
- Colete feedback do usuário: para construir nosso volante de dados
- Banco de dados de vetores: um primer técnico [pdf] slides muito agradáveis no vetor DBS
- Cobertura ausente da pesquisa híbrida (vetor + lexical). Outras discussões
- A16Z AI Canon https://a16z.com/2023/05/25/ai-canon/
- Software 2.0 : Andrej Karpathy foi um dos primeiros a explicar claramente (em 2017!) Por que a nova onda de IA realmente importa. Seu argumento é que a IA é uma maneira nova e poderosa de programar computadores. À medida que os LLMs melhoraram rapidamente, essa tese se mostrou presciente e fornece um bom modelo mental de como o mercado de IA pode progredir.
- Estado do GPT : Também da Karpathy, esta é uma explicação muito acessível de como os modelos ChatGPT / GPT no trabalho geral, como usá -los e quais instruções a P&D pode levar.
- O que o Chatgpt está fazendo ... e por que funciona? : O cientista da computação e empresário Stephen Wolfram oferece uma explicação longa, mas altamente legível, dos primeiros princípios, de como os modelos de IA modernos funcionam. Ele segue a linha do tempo desde as primeiras redes neurais até os LLMs de hoje e o chatgpt.
- Transformers, explicou : Este post de Dale Markowitz é uma resposta mais curta e mais direta à pergunta "O que é um LLM e como funciona?" Essa é uma ótima maneira de facilitar o tópico e desenvolver intuição para a tecnologia. Foi escrito sobre o GPT-3, mas ainda se aplica a modelos mais novos.
- Como funciona a difusão estável : este é o análogo da visão computacional para o último post. Chris McCormick fornece a explicação de um leigo de como a difusão estável funciona e desenvolve a intuição em torno de modelos de texto para imagem em geral. Para uma introdução ainda mais gentil , confira este quadrinho da R/StabledIffusion.
- Explicadores
- Aprendizagem profunda em poucas palavras: conceitos principais : esta série de quatro partes da Nvidia passa pelo básico do aprendizado profundo, como praticado em 2015, e é um bom recurso para quem apenas aprende sobre a IA.
- Aprendizagem profunda prática para codificadores : curso abrangente e gratuito sobre os fundamentos da IA, explicado por meio de exemplos e código práticos.
- Word2vec explicou : Fácil introdução às incorporações e tokens, que estão construindo blocos de LLMs (e todos os modelos de idiomas).
- Sim, você deve entender o BackProp : post mais aprofundado sobre a propagação de volta, se quiser entender os detalhes. Se você quiser ainda mais, experimente a palestra Stanford CS231N (curso aqui) no YouTube.
- Cursos
- Stanford CS229 : Introdução ao aprendizado de máquina com Andrew Ng, cobrindo os fundamentos do aprendizado de máquina.
- Stanford CS224N : NLP com aprendizado profundo com Chris Manning, cobrindo o básico da PNL através da primeira geração de LLMs.
- https://github.com/mlabonne/llm-course
- https://cims.nyu.edu/~sbowman/ightthings.pdf
- Previsivelmente, os LLMs ficam mais capazes com o aumento do investimento, mesmo sem inovação direcionada.
- Muitos comportamentos importantes do LLM emergem imprevisivelmente como um subproduto do aumento do investimento.
- Os LLMs geralmente parecem aprender e usar representações do mundo exterior.
- Não há técnicas confiáveis para direcionar o comportamento do LLMS.
- Especialistas ainda não conseguem interpretar o funcionamento interno do LLMS.
- O desempenho humano em uma tarefa não é um limite superior no desempenho do LLM.
- Os LLMs não precisam expressar os valores de seus criadores nem os valores codificados no texto da web.
- Breves interações com os LLMs geralmente são enganosas.
- Simonw Destaques https://fedi.simonwillison.net/@@simon/110144185463887790
- 10 Desafios abertos na LLM Research https://huyenchip.com/2023/08/16/llm-research-open-challenges.html
- OpenIl Prompt Engbook Livro de receitas https://github.com/openai/openai-cookbook/blob/main/techniques_to_improve_reliabilidade.md
- Na visão geral do ENG, https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
- https://moulltano.wordpress.com/2023/06/28/the-many-ways-that-digital-minds--an-nok/ Comparando pesquisa vs ai
- Recapitulação dos principais desenvolvimentos da IA de 2022 https://www.deeplearning.ai/the-batch/issue-176/
- Dalle2 Geração de ativos + Inpainting https://twitter.com/aifunhouse/status/1576202480936886273?s=20&t=5EXA1UYDPVA2SJZM-SXHCQ
- Viagem suhail https://twitter.com/suhail/status/1541276314485018625?s=20&t=x2mvkqkhdr28iz3vzeeo8w
- Difusão composta - "e" em vez de "e" https://twitter.com/tomlikesrobots/status/1580293860902985728
- no tokenização bpe https://towardsdatascience.com/byte-pair-encoding-subword baseado em tokenization-algorithm-77828a70bee0 Veja também o Google Sendencepiece e o Openi TikToken
- Fonte no GPT2 Fonte https://github.com/openai/gpt-2/blob/master/src/encoder.py
- Observe que os BPEs são abaixo do ideal https://www.lesswrong.com/posts/dfbfclza4pejckekc/a-mechanistic-explanation-for-solidgoldmagikarp-tike-tokens?commentd=9JNDKSCWWWBBBBBBBTCQ
- // -------------------------------------------------- -------------------------------------------------------- -------------- é um único token GPT-4
- GPT-3.5 trava quando pensa em useralativeImagepath demais
- Causas questões de matemática e caracteres de cordas https://news.ycombinator.com/item?id=35363769
- e causar problemas com o Evalals
- Tokens de falhas acontecem quando o tokenizer tem um conjunto de dados diferentes que o LLM
- Karpathy falando sobre por que a tokenização é bagunçada
- https://platform.openai.com/tokenizer e https://github.com/openai/tiktoken (mais atualizado: https://tiktokenizer.vercel.app/)
- Palavra -> BPE -> Sentencetransformer
- Leitura preliminar sobre incorporação
- https://youtu.be/qddoffkvkcw?si=qefzsddspxdnd313
- Huggingface MTEB Benchmark de um monte de incorporação
- problemas notáveis com incorporações e alternativas do GPT3 a serem consideradas
- https://observablehq.com/@simonw/GPT-3-Token-Encoder-Decoder
- KarPathy quer que a tokenização vá embora https://twitter.com/karpathy/status/1657949234535211009
- A codificação posicional não é necessária apenas para o decodificador https://twitter.com/a_kazemnejad/status/1664277559968927744440=20
- Cria seu próprio idioma https://twitter.com/giannis_daras/status/1531693104821985280
- Google Cloud Gerative AIA Learning Path https://www.cloudskillsboost.google/paths/118
- img2img https://andys.page/posts/how-to-draw/
- Na modelagem de idiomas https://lena-voita.github.io/nlp_course/language_modeling.html e explicação acessível, mas técnica da geração de idiomas, incluindo amostragem de distribuições e alguma interpretação mecanicista (encontrando o neuron que acompanha o estado de citação)
- Quest pelo fotorrealismo https://www.reddit.com/r/stablediffusion/comments/x9zmjd/quest_for_ultimate_photorealism_part_2_colors/
- https://medium.com/merzazine/prompt-design-for-dall-e-fotorealism- em emeality-eality-6f478df6f186
- Configurações Ajustando https://www.reddit.com/r/stablediffusion/comments/x3k79h/the_feeling_of_discovery_sd_is_like_a_great_proc/
- Seleção de sementes https://www.reddit.com/r/stablediffusion/comments/x8szj9/tutorial_seed_selection_and_the_impact_on_your/
- Estudo de diferença de parâmetros menores (etapas, clamp_max, eta, cutn_batches, etc) https://twitter.com/kyrickyoung/status/1500196286930292742
- AI generativa: preenchimento automático para tudo https://noahpinion.substack.com/p/generative-ai-autocomplete-for-thingthing?sd=pf
- Como o GPT obtém sua capacidade? Rastreando habilidades emergentes dos modelos de linguagem para suas fontes, bom artigo com o histórico de desenvolvimento da família de modelos GPT e como as capacidades se desenvolveram
- https://barryz-architecture-of-agentic-llm.notion.site/alem-everything-i-know-about-lms-d117ca25d4624199be07e9b0ab356a77
Leituras avançadas
- https://github.com/mooler0410/llmspracticicalguide
- boa lista com curadoria de todos os papéis do IMPT
- https://github.com/eleutherai/cookbook#the-cookbook Eleuther Ai Lista de recursos para treinamento. Compare com https://github.com/google-research/tuning_playbook
- Lista de leitura anti hype llm https://gist.github.com/veekaybee/be375ab33085102f9027853128dc5f0e
- 6 Documentos de Jason Wei do OpenAi (blog)
- Papel GPT-3 (https://arxiv.org/abs/2005.14165)
- Chain-of-Phounching Promoting (https://arxiv.org/abs/2201.11903)
- Leis de escala, (https://arxiv.org/abs/2001.08361)
- Habilidades emergentes (https://arxiv.org/abs/2206.07682)
- Os modelos de idiomas podem seguir rótulos invertidos e etiquetas semanticamente não relacionadas (https://arxiv.org/abs/2303.03846)
- Notas em papel LLM - Notas do Latent Space Paper Club de Eugene Yan
- Transformers do zero https://e2eml.school/transformers.html
- Transformers vs lstm https://medium.com/analytics-vidhya/why-are-lstms-swriptling-to-matchup-with-transformers-a1cc5b2557e3
- Código do transformador WinDhru https://twitter.com/mark_riedl/status/1555188022534176768
- Transformer Familyi https://lilianweng.github.io/posts/2023-01-27-the-transformer-family-v2/
- Carmack Paper List https://news.ycombinator.com/item?id=34639634
- Modelos de transformadores: uma introdução e catálogo https://arxiv.org/abs/2302.07730
- DeepMind - Algoritmos formais para Transformers https://arxiv.org/pdf/2207.09238.pdf
- Jay Alammar explicadores
- https://jalammar.github.io/illustrated-transformer/
- https://jalammar.github.io/visualizing-neural-machine-ranslation-mechanics-of-seq2seq-models-with-attention/
- Karpathy em transformadores
- Convergência : A consolidação em andamento na IA é incrível. Quando comecei a ~ década atrás, visão, fala, linguagem natural, aprendizado de reforço etc. eram completamente separados; Você não conseguia ler papéis em áreas - as abordagens eram completamente diferentes, geralmente nem mesmo baseadas em ML. Em 2010, todas essas áreas começaram a fazer a transição 1) para o aprendizado de máquina e, especificamente, 2) redes neurais. As arquiteturas eram diversas, mas pelo menos os trabalhos começaram a ler mais semelhantes, todos utilizando grandes conjuntos de dados e otimizando redes neurais. Mas a partir de aprox. Nos últimos dois anos, até as arquiteturas da rede neural em todas as áreas estão começando a parecer idênticas - um transformador (definível em ~ 200 linhas de pytorch https://github.com/karpathy/mingpt/blob/master/mingpt/model.py… ), com diferenças muito pequenas. Como uma linha de base forte ou (geralmente) estado da arte. (Tweetstorm)
- Por que os Transformers venceram : o transformador é uma arquitetura de rede neural magnífica porque é um computador diferenciável de uso geral. É simultaneamente: 1) expressivo (no passe para a frente) 2) otimizável (via backpropagation+gradient Descent) 3) Eficiente (alto paralelismo computação) TweetStorm TweetStorm
- https://twitter.com/karpathy/status/1593417989830848512?s=20
- elaborado em 1hr Stanford Palestra e 8min Lex Fridman Resumo
- Babygpt com dois tokens 0/1 e comprimento de contexto de 3, vendo -o como uma cadeia de Markov de Estado Finito. Foi treinado na sequência "111101111011110" para 50 iterações. Os parâmetros e a arquitetura do transformador modificam as probabilidades nas setas.
- Construa GPT do zero https://www.youtube.com/watch?v=kcc8fmeb1ny
- Diferente GPT do zero em 60 loc https://jaykmody.com/blog/gpt-from-scratch/
- Modelos de difusão do zero, de uma nova perspectiva teórica - introdução de código de modelos de difusão
- 137 Habilidades emergentes de grandes modelos de linguagem
- Tarefas solicitadas por poucos emergentes: benchmarks de bancada grande e MMLU
- Estratégias emergentes de solicitação
- Seguidores de instruções
- ScratchPad
- Usando conhecimento de livro aberto para verificação de fatos
- Cadeia de pensamento solicitando
- Índice de pesquisa diferenciável
- Autoconsistência
- Alavancando explicações para solicitar
- Menos a mais solicitar
- Cadeia de pensamento zero-tiro
- Calibração via P (True)
- Cadeia de pensamento multilíngue
- Ask-me-anything solicitando
- Alguma reação - eles são uma miragem? Apenas não use métricas duras
- https://www.jasonwei.net/blog/common-arguments-regarding-emergent-abilities
- https://hai.stanford.edu/news/ais-stetensible-emerger-abilities-are-mirage
- Imagens
- Eugene Yan Explicação do texto para imagem pilha https://eugeneyan.com/writing/text-to-image/
- Vqgan/clip https://minimaxir.com/2021/08/vqgan-clip/
- 10 anos de história de geração de imagens https://zentralwerkstatt.org/blog/ten-drens-of-image-syntese
- Transformers da visão (Vit) explicou https://www.pinecone.io/learn/vision-transformers/
- Promotamento negativo https://minimaxir.com/2022/11/stable-diffusion-negative-prompt/
- Melhores documentos de 2022 https://www.yitay.net/blog/2022-best-nlp-papers
- Previsibilidade e surpresa em grandes modelos generativos - bom documento de pesquisa do que sabemos sobre escala e capacidades e ascensão dos LLMs até agora
- Mais papéis de engenharia rápida https://github.com/dair-ai/prompt-engineering-guide
- https://creator.nightcafe.studio/vqgan-clip-keyword-modifier-comparison vqgan+clipe keyword modificador comparação
- História dos Transformadores
- Richard Socher em sua contribuição para o mecanismo de atenção que leva aos Transformers https://overcast.fm/+r1p4nkffu/1:00:00
- https://kipp.ly/blog/transformer-taxonomy/ Este documento é minha revisão de literatura em execução para pessoas que tentam acompanhar a IA. Ele abrange 22 modelos, 11 mudanças arquitetônicas, 7 técnicas pós-treinamento e 3 técnicas de treinamento (e 5 coisas que não são da opção acima)
- Compreendendo modelos de idiomas grandes uma seção transversal da literatura mais relevante para se atualizar
- Dando crédito a Bandanau et al (2014), que acredito que propuseram primeiro o conceito de aplicar uma função SoftMax nas pontuações do token para calcular a atenção, preparando o cenário para o transformador original de Vaswani et al (2017). https://news.ycombinator.com/item?id=35589756
- https://finbartimbers.substack.com/p/five-anos-of-progress-in-gpts GPT1/2/3, Megatron, Gopher, Chinchilla, Palm, Llama
- Bom artigo de resumo (8 coisas para saber) https://cims.nyu.edu/~sbowman/ightthings.pdf
- Huggingface moe explicador
- https://blog.alexalemi.com/kl-is-all-you-need.html
Comparamos 126 modificadores de palavras -chave com a mesma imagem de prompt e inicial. Estes são os resultados.
- https://creator.nightcafe.studio/collection/8dmygkm1evxg7z9pv23w
- O Google lançou o PartipROMPTS como uma referência: https://parti.research.google/ "partiprompts (p2) é um rico conjunto de mais de 1600 avisos em inglês que liberamos como parte deste trabalho. várias categorias e aspectos desafiados ".
- Tutoriais em vídeo
- Pixel Art https://www.youtube.com/watch?v=uvjkqptr-8s&feature=youtu.be
- História dos papéis
- 2008: Arquitetura unificada para NLP (Collobert-Weston) https://twitter.com/ylecun/status/1611921657802768384
- 2015: Sequência semi-supervisionada Aprendizagem https://twitter.com/deliprao/status/1611896130589057025?s=20
- 2017: Transformers (Vaswani et al)
- 2018: GPT (Radford et al)
- Misc
- Perspectiva do CIO da Stabilityai https://danieljeffries.substack.com/p/the-turning-point-for--tuly-open?sd=pf
- https://github.com/awesome-stable-diffusion/awesome-stable-diffusion
- https://github.com/microsoft/lmops Guide to MSFT PROMPRO PESQUISA
- Gwern está por trás dos cenas discussão sobre Bing, Gpt4 e o relacionamento Microsoft-Openai https://www.lemwrong.com/posts/jtopawehlnxxvgtt/bing-chat-is-blatly-ggressive-misaligned
Outras listas como esta
- https://gist.github.com/rain-1/eebd5e5eb2784feecf450324e3341c8d
- https://github.com/underlines/awesome-marketing-datascience/blob/master/awesome-ai.md#llama-models
- https://github.com/imaurer/awesome-decentralized-llm
Comunidades
- Discords (consulte https://buttondown.email/ainews para recapitulações diárias de e -mail, atualizado ao vivo)
- Discord do espaço latente (nossa!)
- Hacking e aprendizado geral
- Hackers chatgpt discord
- Laboratório de Alinhamento Ai Discord
- Nous Research Discord
- Discolm discórdia
- KarPathy Discord (inativo)
- Huggingface discord
- Skunkworks AI Discord (novo)
- Discord de Jeff Wang/LLM
- Modo Cuda (Mark Saroufim) Veja YouTube e Github
- Arte
- Stablediffusion discórdia
- Deforum discord https://discord.gg/upmxxsrwzc
- Lexica Discord https://discord.com/invite/bmhbjj9wrh
- Pesquisa de IA
- Laion Discord https://discord.gg/xbpbxfcfhd
- Eleuther Discord: https://www.eleuther.ai/get-involved/ (primer)
- Várias startups
- Perplexity discord https://discord.com/invite/kwjzsxpdux
- Discord de Midjourney
- Como usar o Midjourney v4 https://twitter.com/fabianstelzer/status/1588856386540417024?s=20&t=plGlugaeeds9hwfegvrpg
- https://stablehorde.net/
- Agentes
- Discord de AutoGpt
- Babyagi Discord
- Reddit
- https://reddit.com/r/stabledIffusion
- https://www.reddit.com/r/localllama/
- https://www.reddit.com/r/bing
- https://www.reddit.com/r/openai
Pessoas
*Desconhecido para muitas pessoas, uma quantidade crescente de alfa agora está fora de Arxiv, as fontes incluem, mas não se limitam a: https://github.com/trending, hn, aquele servidor de nicho Discord, imagem de perfil de anime Anons em x, reddit *- k
Esta lista estará desatualizada, mas você começará. Minha lista ao vivo de pessoas a seguir é em: https://twitter.com/i/lists/1585430245762441216
- Pesquisadores/desenvolvedores
- https://twitter.com/_jasonwei
- https://twitter.com/johnowhitaker/status/1565710033463156739
- https://twitter.com/altryne/status/1564671546341425157
- https://twitter.com/schmidhuberai
- https://twitter.com/nearcyan
- https://twitter.com/karinanguyen_
- https://twitter.com/abhi_venigalla
- https://twitter.com/advadnoun
- https://twitter.com/polynoamial
- https://twitter.com/vovahimself
- https://twitter.com/sarahookr
- https://twitter.com/shaneguml
- https://twitter.com/maartensap
- https://twitter.com/ethancaballero
- https://twitter.com/shayneredford
- https://twitter.com/seb_ruder
- https://twitter.com/rasbt
- https://twitter.com/wightmanr
- https://twitter.com/garymarcus
- https://twitter.com/ylecun
- https://twitter.com/karpathy
- https://twitter.com/pirroh
- https://twitter.com/eerac
- https://twitter.com/teknium
- https://twitter.com/alignment_lab
- https://twitter.com/picocrator
- https://twitter.com/charlespacker
- https://twitter.com/ldjconfirmed
- https://twitter.com/nisten
- https://twitter.com/far__el
- https://twitter.com/i/lists/1713824630241202630
- Notícias/agregadores
- https://twitter.com/ai__pub
- https://twitter.com/weirdstableai
- https://twitter.com/multimodalart
- https://twitter.com/lastweekinai
- https://twitter.com/paperswithcode
- https://twitter.com/deeplearnningai_
- https://twitter.com/dl_weekly
- https://twitter.com/slashml
- https://twitter.com/_akhaliq
- https://twitter.com/aaditya_ai
- https://twitter.com/bentossell
- https://twitter.com/johnvmcdonnell
- Fundadores/construtores/VCs
- https://twitter.com/levelsio
- https://twitter.com/goodside
- https://twitter.com/c_valenzuelab
- https://twitter.com/raza_habib496
- https://twitter.com/sharifshameem/status/1562455690714775552
- https://twitter.com/genekogan/status/1555184488606564353
- https://twitter.com/levelsio/status/1566069427501764613?s=20&t=campswtmhdSsehqwd0k7ig
- https://twitter.com/amanrsanger
- https://twitter.com/ctjlewis
- https://twitter.com/sarahcat21
- https://twitter.com/jackclarksf
- https://twitter.com/alexandr_wang
- https://twitter.com/Ramerez
- https://twitter.com/scottastevenson
- https://twitter.com/denisyarats
- Estabilidade
- https://twitter.com/stabilityai
- https://twitter.com/stababledIffusion
- https://twitter.com/hardmaru
- https://twitter.com/jjitsev
- Openai
- https://twitter.com/sama
- https://twitter.com/ilyasut
- https://twitter.com/miramurati
- Huggingface
- https://twitter.com/younesbelkada
- Artistas
- https://twitter.com/karenxcheng/status/1564626773001719813
- https://twitter.com/tomlikesrobots
- Outro
- Empresas
- https://twitter.com/antrópica
- https://twitter.com/assemblyai
- https://twitter.com/coheaii
- https://twitter.com/mosicml
- https://twitter.com/metaai
- https://twitter.com/deepmind
- https://twitter.com/hellopaperspace
- Bots e aplicativos
- https://twitter.com/dreamtweetapp
- https://twitter.com/aiarteveryhour
Citações, realidade e desmotivação
- Domínio estreito, TEDIUM UsaCases https://twitter.com/willmanidis/status/1584900092615528448 e https://twitter.com/willmanidis/status/1584900100480192516
- AntiHype https://twitter.com/alexandr_wang/status/1573302977418387457
- antihype https://twitter.com/fchollet/status/1612142423425138688?s=46&t=plcnw9pf-co4bn08qqvAug
- Promot Eng memes
- https://twitter.com/_jasonwei/status/1516844920367054848
- Coisas StableDiffusion lutas com https://opguides.info/postss/iartpanic/
- Novo Google
- https://twitter.com/alexandr_wang/status/1585022891594510336
- Novo PowerPoint
- via Emad
- Anexando solicitações por padrão na interface do usuário
- Dalle: https://twitter.com/levelsio/status/15885888881115912705?s=20&t=0OJPGMH9K6MIEDYVG2I6GG
- Houve dois invernos anteriores, um 1974-1980 e um 1987-1993. https://www.erichgrunewald.com/posts/the-prospect-of-an-ai-i-i-winter/. Um pouco mais de comentários aqui. Relacionado - Efeito AI - "Uma vez que funciona, não é ai"
- É apenas multiplicação de matrizes/papagaios estocásticos
- Até o LLM Skeptic Yann Lecun diz que os LLMs têm algum nível de entendimento: https://twitter.com/ylecun/status/1667947166764023808
- O "aprendizado profundo de Gary Marcus está atingindo uma parede" https://nautil.us/deep-learning-is-hitting-awall-238440/ sistemas simbólicos empurrados
- "Guo Lai Ren" anti-hiperes
- https://adamkarvonen.github.io/machine_learning/2024/03/20/chess-gpt-interventions.html#next-tedictors
Legal, ética e privacidade
- NSFW Filter https://vickiboykis.com/2022/11/18/wome-notes-on-thestable-diffusion-safety-filter/
- Em "Ai Art Panic" https://opguides.info/postss/iartpanic/
- Perdi tudo o que me fez amar meu trabalho através de Midjourney
- Lista de artistas de Midjourney
- Yannick influenciando o OpenRail-M https://www.youtube.com/watch?v=w5m-dvzpzsq
- Escolas de arte que aceitam ai art https://twitter.com/daverogenmoser/status/1597746558145265664
- DRM Questões https://undeleted.ronsor.com/voice.ai-gpl-ViOlations-with-a-side-of-drm/
- Roubar arte https://stabledIflitionLitigation.com
- http://www.stabablediflusfrivolous.com/
- Atribuição estável https://news.ycombinator.com/item?id=34670136
- argumento coutner para a Disney https://twitter.com/jonnst0kes/status/1616219435492163584?s=46&t=hqqqqdh1yewhwusqxytmf8w
- Pesquisa sobre difusão estável copiando https://twitter.com/officialzhvng/status/1620535905298817024?s=20&t=NC-NW7PFDA8NyRD08LX1NW Este artigo usou apenas uma difusão estável para gerar 175 milhões de imagens sobre 350 milhões de imagens sobre 350.000 a mais de 350 milhões de imagens de 350 milhões. Estou certo de que meu principal argumento disso é como a difusão estável é boa em não memorizar exemplos de treinamento?
- raspando o conteúdo
- https://blog.ericgoldman.org/archives/2023/08/web-scraping-for-me-but-not-for-thee-guest-blog-post.htm
- Caso Sarah Silverman-Resposta do OpenAI https://arstechnica.com/tech-policy/2023/08/openai-disputes-authors-claimes-that-everyway-latgpt-roponse-is-a-gerivative-work/
- Resposta do OpenAI
- Licenciamento
- Os pesos da IA não estão abertos "fonte" - Sid Sijbrandij
- Diversidade e equidade
- Sexualizando as minorias https://twitter.com/lanadenina/status/1680238883206832129 O motivo é que a pornografia é boa em corpos
- Openai se comprometendo com "preto" aleatoriamente para tornar Dalle diversificado
- Privacidade-Computação confidencial https://www.edgemsess.systems/blog/how-confidential-computing-and-ai-fit-together/
- AI taking jobs https://donaldclarkplanb.blogspot.com/2024/02/this-is-why-idea-that-ai-will-just.html
Alignment, Safety
- Anthropic - https://arxiv.org/pdf/2112.00861.pdf
- Helpful: attempt to do what is ask. concise, efficient. ask followups. redirect bad questions.
- Honest: give accurate information, express uncertainty. don't imitate responses expected from an expert if it doesn't have the capabilities/knowledge
- Harmless: not offensive/discriminatory. refuse to assist dangerous acts. recognize when providing sensitive/consequential advice
- criticism and boundaries as future direction https://twitter.com/davidad/status/1628489924235206657?s=46&t=TPVwcoqO8qkc7MuaWiNcnw
- Just Eliezer entire body of work
- https://twitter.com/esyudkowsky/status/1625922986590212096
- agi list of lethalities https://www.lesswrong.com/posts/uMQ3cqWDPHhjtiesc/agi-ruin-a-list-of-lethalities
- note that eliezer has made controversial comments in the past and also in recent times (TIME article)
- Connor Leahy may be a more sane/measured/technically competent version of yud https://overcast.fm/+aYlOEqTJ0
- it's not just paperclip factories
- https://www.lesswrong.com/posts/HBxe6wdjxK239zajf/what-failure-looks-like
- the 6 month pause letter
- https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- yann lecun vs andrew ng https://www.youtube.com/watch?v=BY9KV8uCtj4
- https://scottaaronson.blog/?p=7174
- emily bender response
- Geoffrey Hinton leaving Google
- followed up by one sentence public letter https://www.nytimes.com/2023/05/30/technology/ai-threat-warning.html
- xrisk - Is avoiding extinction from AI really an urgent priority? (link)
- AI Is not an arms race. (link)
- If we're going to label AI an 'extinction risk,' we need to clarify how it could happen. (link)
- OpenAI superalignment https://www.youtube.com/watch?v=ZP_N4q5U3eE
regulamento
- chinese regulation https://www.chinalawtranslate.com/en/overview-of-draft-measures-on-generative-ai/
- https://twitter.com/mmitchell_ai/status/1647697067006111745?s=46&t=90xQ8sGy63D2OtiaoGJuww
- China is the only major world power that explicitly regulates generative AI
- italy banning chatgpt
- At its annual meeting in Japan, the Group of Seven (G7), an informal bloc of industrialized democratic governments, announced the Hiroshima Process, an intergovernmental task force empowered to investigate risks of generative AI. G7 members, which include Canada, France, Germany, Italy, Japan, the United Kingdom, and the United States, vowed to craft mutually compatible laws and regulate AI according to democratic values. These include fairness, accountability, transparency, safety, data privacy, protection from abuse, and respect for human rights.
- US President Joe Biden issued a strategic plan for AI. The initiative calls on US regulatory agencies to develop public datasets, benchmarks, and standards for training, measuring, and evaluating AI systems.
- Earlier this month, France's data privacy regulator announced a framework for regulating generative AI.
- regulation vs Xrisk https://1a3orn.com/sub/essays-regulation-stories.html
- Multimodal Prompt Injection in GPT4V
Misc
- Sussurrar
- https://huggingface.co/spaces/sensahin/YouWhisper YouWhisper converts Youtube videos to text using openai/whisper.
- https://twitter.com/jeffistyping/status/1573145140205846528 youtube whipserer
- multilingual subtitles https://twitter.com/1littlecoder/status/1573030143848722433
- video subtitles https://twitter.com/m1guelpf/status/1574929980207034375
- you can join whisper to stable diffusion for reasons https://twitter.com/fffiloni/status/1573733520765247488/photo/1
- known problems https://twitter.com/lunixbochs/status/1574848899897884672 (edge case with catastrophic failures)
- textually guided audio https://twitter.com/FelixKreuk/status/1575846953333579776
- Codegen
- CodegeeX https://twitter.com/thukeg/status/1572218413694726144
- https://github.com/salesforce/CodeGen https://joel.tools/codegen/
- pdf to structured data - Impira used t to do it (dead link: https://www.impira.com/blog/hey-machine-whats-my-invoice-total) but if you look hard enough on twitter there are some alternativas
- text to Human Motion diffusion https://twitter.com/GuyTvt/status/1577947409551851520
- abs: https://arxiv.org/abs/2209.14916
- project page: https://guytevet.github.io/mdm-page/