Reading_groups 다운로드 - Reading_groups 소스 코드 다운로드

Reading_groups

기타 소스코드

1.0.0

다운로드

대규모 사전 훈련 된 언어 모델과 관련된 뜨거운 주제를위한 리소스

컴퓨팅의 힘 : 많은 증거는 기계 학습의 발전이 연구가 아니라 컴퓨팅에 의해 주도되고 있으며 "쓴 교훈"을 참조하십시오. 종종 출현과 균질화 현상이 있습니다. 연구에 따르면 인공 지능 컴퓨팅의 사용은 약 3.4 개월마다 두 배가되는 반면, 효율성 개선은 16 개월마다 두 배가됩니다. 그중에서도 계산량은 주로 컴퓨팅 성능에 의해 주도되며 효율성은 연구에 의해 주도됩니다. 이는 컴퓨팅 성장이 역사적으로 기계 학습과 하위 필드의 발전을 지배했음을 의미합니다. 이것은 GPT-4의 출현으로 더욱 입증된다. 그럼에도 불구하고, 우리는 여전히 S4와 같이 미래에 더 전복 된 아키텍처가 있을지 여부에주의를 기울여야합니다. 현재 NLP 연구 핫스팟의 대부분은 고급 LLM (~ 100b, $ 10^{23} $ 플롭). 특히, Chatgpt는 사전 훈련 계산 (4.9+60 Petaflops/S-Days vs 3640 Petaflops/S-Days) 및 인간 피드백 ($ 500K, 20K 시간, 13+33+31K 데이터, GPT- 3 달러 $ 12,000K 인 GPT Big Model 대화 기능을 발표하고 인기가되었습니다. 따라서이 라이브러리는 대규모 사전 훈련 된 언어 모델 LLM과 관련된 기사를 추적하고 분류하여 프론티어를 파악하고 방향을 명확하게 볼 수 있습니다. 물론 [Big Computing Power Technology Foundation] 외에도 [큰 모델 기술의 획기적인 획기적인], [빅 데이터 품질 향상], [개방형 혁신 생태 환경], [Close Team Collaboration], [Strong 엔지니어링 기능] 등

더 많은 LLM 주제는 여기와 여기를 참조하십시오.

논문 ( 거친 카테고리 )

모델 교육, 테스트 및 최적화
응용 프로그램 및 LLM+
원칙 분석
기술 개선
설문 조사 및 데이터 세트

의지

LLM 과정
중요한 그림
LLM 데모
중요한 블로그 및 자체 선택 기사
교육, 추론, 응용 프로그램 도구 (컴파일되지 않음)

대규모 모델 교육 및 최적화

【GPT-4에 대한 테스트, 제한】 인공 일반 지능의 불꽃 : GPT-4를 사용한 초기 실험

모델 카드
동영상

SFT, SFT, PPO 등을 포함한 강의 논문, 가장 중요한 기사 중 하나 인 인간 피드백과 함께 지침을 따르는 언어 모델 중 하나

【확장 가능한 감독 : 모델이 자신의 과제를 초과 한 후에 어떻게 인간이 모델을 계속 개선 할 수 있습니까? 】 대형 언어 모델에 대한 확장 가능한 감독의 진행 상황을 측정합니다

인간 평가자를 지원하기위한 자체 범죄 모델
정의 : 모델이 광범위한 인적 수준의 성능을 달성하기 시작한 후에도 효과적인 라벨, 보상 신호 또는 비판의 형태로 모델에 신뢰할 수있는 감독을 제공하는 능력.
확장 가능한 감독 기술은 모델의 용량과 정렬을 향상시킬 수 있습니다 (즉, 인간이 기대하는 방식의 목표를 적용하고 달성).
모델의 답변의 정확성을 향상시킬 수있는 기존 모델 (전문가 비 참여자, 전문가의 수준)을 기반으로 감독 된 학습 패러다임을 찾을 수 있다면 전문가에게 의존하지 않아도 모델을 더 잘 이해할 수 있습니다. 전문가 시스템.
또 다른 관점 아이디어는 여러 힌트와 전략을 사용하여 모델을 프롬프트하고 일관되고 합리적인 증거를 기반으로 모델이 제공 한 답변 만 받아들이는 것입니다. 그러나이 각도의 기술은 충분히 확장되지 않을 수 있습니다. 물론, 높은 신뢰성으로 이러한 과제를 해결할 수있는 모든 기술은 확장 가능한 감독에서 중요한 발전을 나타낼 수 있습니다.
기존 솔루션 : 기존 모델은 인간이 Alaphzero의 성공을 감안할 때 인간이 고품질의 감독을 생산할 수 있도록 지식을 얻는 데 도움이됩니다.

deepmind에 의해 생성 된 정렬 정의】 언어 에이전트의 정렬

정렬 실험실로서 일반 언어 보조원

[레트로 페이퍼, CCA+를 사용하여 검색 된 모델] 수조의 토큰에서 검색하여 언어 모델 향상

인간의 선호에서 미세 조정 언어 모델

인간 피드백으로부터 강화 학습을 통해 도움이되고 무해한 조수 교육

【중국어와 영어로 된 큰 모델, GPT-3 초과 GLM-130B : 개방형 이중 언어 미리 훈련 된 모델

【사전 훈련 목표 최적화】 UL2 : 언어 학습 패러다임 통일

Alignment의 새로운 벤치 마크, 모델 라이브러리 및 새로운 방법】 자연 언어 처리를위한 강화 학습 (Not)? : 벤치 마크, 기준 및 자연 언어 정책 최적화를위한 빌딩 블록

【기술을 통한 [마스크] 태그가없는 MLM 마스크 언어 모델링의 표현 부족

【이미지 훈련에 대한 텍스트에 대한 텍스트 어휘의 요구를 완화하고 특정 공격에 저항합니다.

Lexmae : 대규모 검색을위한 Lexicon-Bottlenecked Pretraining

인코더 : 코드 충전 및 합성을위한 생성 모델

[언어 모델 사전 훈련에 대한 텍스트 관련 이미지 검색] 시각적으로 구분 된 언어 모델링

비 단조성 자체 종료 언어 모델

propt 디자인을 통한 부정적인 피드백의 비교 및 미세 조정】 Hindsight 체인은 언어 모델을 피드백과 정렬합니다.

관련 기사 : 후시의 지혜는 언어 모델을 더 나은 교육 추종자로 만듭니다.

Sparrow 모델 model 대상 인간 판단을 통한 대화 에이전트의 정렬 개선

[작은 모델 매개 변수를 사용하여 대형 모델의 훈련 과정을 가속화 (처음부터 시작하지 않음) 효율적인 변압기 훈련을위한 사전 상환 모델을 성장시키는 학습

[여러 지식 소스를위한 MOE 반모용 지식 융합 모델] 텍스트 지식 : 지식이 풍부한 반모용 언어 모델을 향해

[다른 데이터 세트에서 여러 훈련 된 모델을 병합하는 방법 병합 방법] 언어 모델의 가중치를 병합하여 Dataless 지식 융합

[검색 메커니즘이 변압기에서 FFN의 일반 아키텍처를 대체하여 (× 2.54 시간) 모델 매개 변수에 저장된 지식을 분해하기 위해 플러그인 Knowldge 메모리를 사용하여 언어 모델을 대체한다는 것은 매우 고무적입니다.

【GPT-3 교육을위한 교육 튜닝 데이터를 자동으로 생성합니다. 자체 비교 : 자체 생성 지침과 언어 모델을 정렬합니다.

∎ T0】 부 자연스러운 지침을 대상으로 교육을 자동으로 생성하는 Yizhong Wang과 유사한 데이터 : (거의) 인간 노동이없는 언어 모델을 조정합니다.
언어 모델 수용 판단이 항상 상황에 강한 것은 아닙니다.
초자연 변환 : 1600 개 이상의 NLP 작업에 대한 선언적 지침을 통한 일반화
(FLAN-T5-COT) COT COT 미세 튜닝】 스케일링 명령-결절 언어 모델

-

조건부 의존적 마스크 언어 모델을 향해

【반복적으로 불완전하게 생성 된 독립적 인 교정기, Sean Welleck의 후속 기사】 자기 교정을 배우는 시퀀스 생성

예측 : AI 피드백은 곧 모델 업데이트에 대한 휴먼 사용자 피드백을 대체합니다.
인간의 피드백으로 Open-Domain 챗봇을 향상시키기 위해
비슷한 아이디어 1. 헌법 AI : AI 피드백의 무해함
유사한 아이디어 2. 모델 작성된 평가를 통해 언어 모델 행동 발견
응용 프로그램 : [Openai] 책을 인간의 피드백으로 재귀 적으로 요약합니다

[연속 학습 : 새로운 작업에 대한 소품 추가 및 이전 작업의 소품 및 대형 모델은 변경되지 않았습니다.] 진보적 인 프롬프트 : 잊지 않고 언어 모델에 대한 지속적인 학습

[EMNLP 2022, 모델의 지속적인 업데이트] Memprompt : 사용자 피드백을 사용한 메모리 보조 프롬프트 편집

【1 차 논리 유도 편향을 포함하는 새로운 신경 아키텍처 (FORNET)

GANLM : 보조 판별 기와 함께 인코더 디코더 사전 훈련

【상태 공간 모델을 기반으로 한 언어 모델, 버트 초과】주의가없는 사전 여지

[사전 훈련 중에 사람의 피드백을 고려] 인간 선호도를 가진 사전 연상 언어 모델

[Meta의 오픈 소스 라마 모델, 7B-65B는 평소보다 더 많은 작은 모델을 훈련시켜 다양한 추론 예산에 따라 최적의 성능을 달성합니다] LLAMA : 개방적이고 효율적인 기초 언어 모델

[대형 언어 모델을 가르치고 소수의 예제를 통해 자체 데그 및 생성 된 코드를 설명하지만 지금은 이와 같이 사용되었습니다.] 대형 언어 모델을 Self-Debug에게 가르치

대형 언어 모델, Babyagi, Auto-Gpt의 자체 조정 능력에 대해 게시 된 일련의 논문 및 도구
유사한 아이디어 : 0. [모델은 당신이 저지른 실수를 기록하고 반영합니다] 반사 : 역동적 인 기억과 자기 반성을 가진 자율적 인 에이전트
유사한 아이디어 : 1. [모델 모델은 서로의 출력과 반복적 인 수정을 통한 모델] DERA : 대화가 가능 해제 에이전트를 사용하여 대형 언어 모델 완료 향상

낙타는 얼마나 멀리 갈 수 있습니까?

리마 : 정렬에 대한 것이 적습니다

짐서, 점점 더 많은 Alphago와 비슷한 고의적 인 고의적 인 문제 해결 큰 언어 모델로 고의적 인 문제 해결

응용 프로그램 및 LLM+

【ICL을 적용하는 다단계 추론 방법은 매우 고무적입니다.

llm 만 사용하면 진정으로 강력한 앱을 만들기에 충분하지 않으며 LLM이 다른 컴퓨팅 또는 지식 소스와 결합 될 때 실제 힘이 나타납니다.]
【도구 ang Langchain- 합성 가능성을 통한 LLMS로 응용 프로그램을 구축합니다
【설문 조사 ment 증강 언어 모델 : 설문 조사
도구 형식
유사한 아이디어 0. talm : 도구 증강 언어 모델
유사한 아이디어 1. 시연-검색-예측 : 지식 집약적 NLP를위한 검색 및 언어 모델 작성
비슷한 생각 2. Lambada : 자연어로 자동 추론을위한 후진 연쇄
유사한 아이디어 3. [선택 및 추론] 선택-회계 : 해석 가능한 논리적 추론을위한 큰 언어 모델 악용
비슷한 아이디어 4. 에이전트 모델로서 언어 모델
비슷한 생각 5. 프롬프트는 프로그래밍입니다 : 대형 언어 모델을위한 쿼리 언어
비슷한 아이디어 6. ips Neurips 22 '】 언어 모델 캐스케이드
유사한 아이디어 7. 예술 : 대형 언어 모델에 대한 자동 다단계 추론 및 도구 사용
생성제 : 인간 행동의 대화식 시뮬 라 크라

COT는 프로그램 코드를 직접 생성 한 다음 Python 통역사가 사고 프로그램을 실행할 수있게합니다.

관련 기사 : [EMNLP 22 '] 코드의 언어 모델은 소수의 상식 학습자입니다.
Heng Ji Group】 Code4Struct : 자연어 PAL의 소수의 구조적 예측을위한 코드 생성 : 프로그램 보조 언어 모델
Chris Callison-Burch Group】 Qing Lyu, 충실한 사슬 추론

[대형 모델은 증거 컨텍스트를 직접 생성합니다] 검색보다는 생성 : 큰 언어 모델은 강력한 컨텍스트 생성기입니다.

【4 개의 특정 작업을 가진 모델 작성】 Peer : 공동 언어 모델

Python, Python, SQL Executors 및 Big Models 결합】 기호 언어로 언어 모델을 바인딩

[문서 생성 코드 검색] DocPrompting : 문서를 검색하여 코드 생성

[다음 시리즈에는 Grounding+LLM에 많은 기사가있을 것입니다.] LLM-Planner : 대형 언어 모델을 가진 구체화 된 에이전트를위한 소수의 기반 계획

내가 말한대로 할 수있는대로 할 수 있습니다 : 로봇 계약에 대한 언어 접지
https://say-can.github.io/

【자기 정기 생성 (파이썬을 사용하여 확인) 교육 데이터】 언어 모델은 더 나은 프로그램을 가르 칠 수 있습니다.

관련 기사 : 다단계 추론을 향한 소규모 언어 모델 전문
별 : Neurips 22 (모델 미세 조정을위한 COT 데이터 생성)에서 추론을 통한 부트 스트랩 추론, 작은 모델을 가르치는 일련의 COT 기사를 일으킨다.
비슷한 아이디어 [지식 증류] 작은 언어 모델을 가르치는 맥락을 증류하여 추론과 학습
비슷한 아이디어 Kaist와 Xiang Ren Groups ([COT의 이론적 근거 미세 조정 (교수)] Pinto : 신속한 생성 근거 등을 사용한 충실한 언어 추론 등의 대형 언어 모델은 교사입니다.
ETH의 [COT 데이터는 문제 분해 및 문제 해결 모델을 별도로 훈련] 대형 언어 모델의 다중 단계 추론 기능을 시맨틱 분해를 통해 소규모 모델로 증류합니다.

cont 소형 모델을 배우도록하는 COT 능력】 텍스트 내 학습 증류 : 미리 훈련 된 언어 모델의 소수의 학습 능력 전달

【큰 모델을 가르치는 소규모 모델 침대】 큰 언어 모델은 교사를 추론합니다.

[큰 모델은 증거 (암송)를 생성 한 다음 작은 샘플 폐쇄 책 질문 및 답변을 수행합니다] 암송중인 언어 모델

[유도성 추론 자의 자연 언어 방법] 유도 성 추리자로서 언어 모델

[GPT-3은 데이터 주석 (정서적 분류 등)에 사용됩니다.] GPT-3 좋은 데이터 주석은입니까?

【샘플 데이터 확대를위한 멀티 태스킹 교육을 기반으로 한 데이터 확대 모델】 Knowda : 저주적 자원 NLP의 데이터 증강을위한 올인원 지식 혼합 모델

【시간에 관심이없는 절차 계획 작업

[목표 : 대형 웹 코퍼스를 접지하여 쿼리에 대한 사실 적으로 올바른 기사를 생성합니다.

concext 컨텍스트에서 외부 물리 시뮬레이터의 결과 결합】 마음의 눈 : 시뮬레이션을 통한 언어 모델 추론

[지식 집약적 인 COT를 강화하는 작업 검색] 지식 집약적 인 다중 단계 질문에 대한 추론 체인과의 인터리브 검색

【감독되지 않은 인식 언어 모델에서 잠재적 (이진) 지식 대조】 감독없이 언어 모델에서 잠재 지식을 발견

[Percy Liang Group, 신뢰할 수있는 검색 엔진, 생성 된 문장의 51.5%만이 인용에 의해 완전히 지원됩니다] 생성 검색 엔진의 검증 가능성을 평가합니다.

진보적 인 힌트 촉진은 대형 언어 모델에서 추론을 향상시킵니다

최소한의 인간 감독으로 처음부터 언어 모델의 원칙 중심의 자기 정렬

MT-Bench 및 Chatbot Arena로 LLM-as-A-Judge 판단

원칙 분석

[내 생각에, 그것은 가장 중요한 기사 중 하나입니다. 크로스 엔트로피 손실에 따른 언어 모델의 법칙은 모델 크기, 데이터 세트 크기, 사용 된 계산량과의 전력법 관계입니다. 신경 언어 모델에 대한 비율 및 깊이와 같은 건축 세부 사항의 폭과 깊이

[제한된 컴퓨팅 하에서 Chinchilla 중 하나 인 Chinchilla는 최적 모델이 가장 큰 모델이 아니라 더 많은 데이터 (60-70B)로 훈련 된 소규모 모델입니다.

[어떤 아키텍처 및 최적화 목표가 제로 샘플 일반화에 도움이되는 건축 및 최적화] 제로 샷 일반화에 가장 적합한 언어 모델 아키텍처 및 사전 조정 목표 작품은 무엇입니까?

【Grokking“Epiphany”학습 프로세스 암기-> 회로 형성-> 정리 및 기계적 해석을 통한 grokking의 진행 측정

[검색 기반 모델의 특성을 조사하고 두 가지 추론이 제한되어 있음을 발견했습니다.

Search + LLM의 아이디어는 다음 방향이지만 유일한 답변은 아닙니다.
[외부 지식을 사용하는시기, 즉 외부 지식과 매개 변수 지식 사이의 전환]에 대한 분석 및 연구] 제어 가능한 작업 메모리가있는 큰 언어 모델
검색을 다시 생각하십시오 : 도메인 전문가를 딜레트로 만들어냅니다
귀속 질문 답변 : 큰 언어 모델에 대한 평가 및 모델링

[Human-AI 언어 상호 작용 평가 프레임 워크] 인간 언어 모델 상호 작용 평가

인간 -AI 공동 작업에서 자유 텍스트 이론적 근거의 인간의 유용성을 측정하는 유사한 기사

텍스트 내 학습은 선형 모델에 대한 학습 알고리즘은 무엇입니까?

[ICL을 사용하여 강화 학습 후 행동 예측 학습, 정말 영리한] 알고리즘 증류로 텍스트 내 개혁자 학습

【모델 편집, 이것은 뜨거운 주제입니다. 변압기의 대량 편집 메모리

[프롬프트의 예제에 관련없는 정보를 추가하고 관련이없는 맥락을 무시하는 지침을 추가하여 관련없는 맥락에 의해 쉽게 산만해질 수 있습니다.

Zero-Shot Cot은 민감한 문제에서 편견과 독성을 보여줍니다

【대형 모델의 간이 코트에는 교차 기능이 있습니다.

[서로 다른 프롬프트 시퀀스의 혼란이 낮을수록 성능이 향상됨] 당황 추정을 통해 언어 모델에서 프롬프트를 멸시합니다.

[대형 모델의 바이너리 촉진 해상도 작업,이 제안은 어렵고 스케일링 현상이 없다] 대형 언어 모델은 제로 샷 커뮤니케이터가 아닙니다 (https://github.com/githuble/big-binch/tree/main/bigbench/ Benchmark_Tasks/ Scccessity)

【다단계 추론을위한 복잡성 기반 프롬프트

목적 : 침대 자체의 유용성을 개선하려면 COT 유용성 분석과 밀접한 관련이 있습니다.
[생성 후 단일 샘플을 선택한 다음 조합을 선택] 텍스트 내 학습을 위해 표지되지 않은 데이터를 사용한 설명 선택
【대형 언어 모델로 인한 자동 사고 체인
[COT 생성의 설명을 보조 조정하고, 매개 변수 + 정보 엔트로피 최적화가 포함 된 정제소 모듈을 사용] 정보 병목 현상을 통한 설명 재생.

생성 언어 모델의 구조화 된 가지 치기에서 중요한 것은 무엇입니까?

[Ambibench Dataset, Task Ambiguity : 스케일링 RLHF 모델은 해체 작업에서 가장 잘 수행됩니다. 미세 조정은 인간과 언어 모델에서】】】】】 샷의 모호성을 제시하는 것보다 더 도움이됩니다.

【메모리, 교정, 바이어스 등을 포함한 GPT-3 테스트

[OSU 연구 COT의 어느 부분이 성능에 효과적인지 연구] 생각의 연쇄 프롬프트 : 중요한 것에 대한 경험적 연구

유사한 생각 1 효과적인 컨텍스트 학습을위한 보완적인 설명 (UT Austin, Xi Ye, Greg Durrett)
비슷한 생각 2 텍스트와 패턴 : 효과적인 사고의 경우 Tango까지 2 개가 필요합니다.

[이산 프롬프트의 언어 교차 모델에 대한 연구] 이산 정보 추출 프롬프트가 언어 모델에 걸쳐 일반화 될 수 있습니까?

memory 메모리 속도는 훈련의 모델 크기, 접두사 길이 및 반복 속도와 로그 선형 관계입니다.

∎ 그것은 매우 고무적이며, GPT 반복을 통해 문제를 하위 질문으로 분해하고 그 대답에 대답합니다.

[연구가 단계별 답변에서 읽는 데 효과적이든 언제 또는 언제 효과적일까요? 제로 샘플 및 낮은 리소스가 효과적입니다.] 분해가 기계 판독에 도움이 될 때?
유사한 아이디어에서 가장 적게 촉구하면 큰 언어 모델에서 복잡한 추론을 가능하게합니다.
복잡한 질문을 분해하기위한 비슷한 아이디어

[공무원의 지능 질문과 유사한 GPT-3의 유사한 테스트] 대형 언어 모델에서 출현하는 비유 적 추론

【짧은 텍스트 훈련, 긴 텍스트 테스트, 모델 변수 길이 적응성 평가】 길이-추방 가능한 변압기

[언어 모델을 신뢰하지 않을 때 : 파라 메트릭 및 비모수 적 기억의 효과 및 한계 조사

ICL은 또 다른 형태의 그라디언트 업데이트입니다. gpt가 텍스트에서 비밀리에 학습 할 수있는 이유는 무엇입니까?

관련 기사 : 변압기는 그라디언트 하강에 의해 텍스트 내에서 학습됩니다

GPT-3은 심리적 관점에서 큰 언어 모델을 평가 하는가?

[OPT 모델을 다양한 크기로 훈련하는 과정에 대한 연구와 혼란이 ICL의 지표임을 발견했습니다.

[EMNLP 2022, 사전 훈련 된 순수한 영어 코퍼스는 다른 언어를 포함하고 있으며, 모델의 교차 기능은 데이터 유출에서 비롯 될 수 있습니다] 언어 오염은 영어 사기 모델의 교차-언어 기능을 설명하는 데 도움이됩니다.

[시맨틱 우선권을 지배하고 Propt에서 정보를 사용하는 것은 서지 기능입니다.] 더 큰 언어 모델은 텍스트 내 학습을 다르게합니다.

【EMNLP 2022 결과】 백만 GPU 시간이 있다면 어떤 언어 모델을 훈련시킬 수 있습니까?

기술 개선 (예 : 생성 기술, 신속한 엔지니어링, 지표, 신뢰성 등)

[추론 중 CFG 기술 소개 소규모 모델의 교육 준수 능력을 크게 향상시킵니다.] 분류기가없는 지침으로 주제를 유지하십시오.

【OpenAi의 GPT-4로 자신의 라마 모델을 훈련 시키면 GPT-4로】】 terctruction tuning 만 감탄한다고 말할 수 있습니다.

반사 : 역동적 인 기억과 자기 반성을 가진 자율 제

【개인화 된 스타일 프롬프트 학습, opt】 언어 모델에 대한 확장 가능한 프롬프트

[작은 모델 디코딩 가속화, 작은 모델과 대형 모델 사이의 직접적인 합의를 사용하여 한 번에 여러 번 사용할 수있는 대형 모델의 직접적인 컨센서스를 사용하여, 결국 입력이 매우 느립니다.

[소프트 프롬프트를 사용하여 미세 튜닝, 첫 번째 단계를 미세 조정, 두 번째 단계를 미세 조정함으로써 미세 조정으로 인한 ICL 기능 감소를 줄이기 위해 소프트 프롬프트를 사용하여 큰 언어 모델 미세 조정에서 텍스트 내 학습 능력을 보존하십시오.

Semantic Parsing 작업, ICL, Codex 및 T5-Large의 샘플 선택 방법】 다양한 데모가 텍스트 내 구성 일반화를 향상시킵니다.

【텍스트 생성을위한 새로운 최적화 방법】 총 변화 거리에서 언어 생성 모델을 맞춤화합니다.

[클러스터의 엔트로피를 추정하기 위해 다수의 샘플링 출력과 결합 된 시맨틱 클러스터링을 사용한 조건부 생성의 불확실성 추정]

관련 기사 : 1. 언어 모델 (대부분)이 알고있는 것을 알고 있습니다.
관련 기사 : 2. 불확실성을 표현하기위한 모델 교육 모델
관련 기사 : 3. [언어 표현은 교정과 정확성에 어떤 영향을 미치며 어떤 표현 방법이 가장 좋습니까? 】 회색 영역 탐색 : 언어 모델의 과신 및 불확실성의 표현
관련 기사 : 4. 언어 교정을 통한 대화 에이전트의 과신 감소
교정 메타 분석 : 모델의 크기, 모델의 아키텍처, 다른 지침, 다른 컨텍스트 및 작업 도메인으로 인해 큰 모델의 교정이 변경됩니까?
열린 도메인 대화 생성을위한 최적의 교정 방법은 무엇입니까? 모델, 미세 조정, RLHF, 명령 튜닝의 교정 성능을 향상시키는 방법은 무엇입니까?
통계적 편견을 통해 좋은 신뢰성 평가를받는 대신 큰 모델이 문제를 이해하기 위해 실제로 교정 되었습니까? 당신이 이해하지 못한다는 것을 알고, 당신이 아는 척하는 것은 속임수가있는 사람과 같습니까? 이것을 평가하는 방법?
큰 모델에 좋은 교정이 있으면 다음에 무엇을 할 수 있습니까? 대화 생성과 같은 응용 프로그램에 어떻게 적용 할 수 있습니까?

이동 튜닝 : 소규모 언어 모델의 제로 샷 학습 능력 향상

【자유 텍스트 제약 조건 하에서 매우 고무적인 텍스트 생성 방법】 언어 제약 조건을 가진 제어 가능한 텍스트 생성

[예측을 생성 할 때 유사성을 사용하여 SoftMax 토큰 대신에 문구를 선택하십시오] 비모수 마스크 언어 모델링

[긴 텍스트를위한 ICL 방법] 병렬 컨텍스트 Windows 대형 언어 모델의 텍스트 내 학습을 향상시킵니다.

【ICL 자체로 ICL 생성 instructgpt 모델 샘플】 Open-Domain QA를위한 대형 언어 모델 자체를 자체 처리합니다.

【전달 및주의 메커니즘을 통해 ICL은 더 많은 주석 샘플을 입력 할 수 있습니다.

텍스트 생성을위한 모멘텀 교정

OPT 및 GPTJ에 기반한 실험 2 개의 ICL 샘플 선택 방법, 신중한 데이터 큐 레이션 안정 텍스트 학습

【텍스트 생성 평가를위한 임베딩, 클러스터 및 문자열의 유용성에 대한 Mauve의 평가 지표 (Pillutla et al.)의 분석

Promptagator : 8 가지 예에서 몇 번의 고밀도 검색

[3 개의 Cobblers, Zhuge Liang] 자기 팽창성 언어 모델에서 사고 추론의 사슬을 향상시킵니다.

cobblers에 대한 기준으로 지식을 사용】】 검색으로 재고 : 충실한 대형 언어 모델 추론

[조건에 대한 지침을 생성하고, 입력하고 레이블을냅니다.] 언어 모델을 강력하게 찍으십시오!

【LLM의 반대 파생자가 검증】 대형 언어 모델은 자기 검증의 이유입니다.

【검색 방법 - 증거를 생성하는 과정에 따른 안전 시나리오】】 Foveate, 속성 및 합리화 : 안전하고 신뢰할 수있는 AI를 향해

[빔 검색을 기반으로 텍스트로 생성 된 정보에 의해 추출 된 조각의 신뢰 추정] 빔 검색은 어떻게 생성 시퀀스 라벨링에서 스팬 레벨 신뢰 추정을 향상 시키는가?

SPT : 멀티 태스킹 프롬프트 학습을위한 반모용 프롬프트 튜닝

【추출 된 요약 금 라벨에 대한 토론】 Oracle 기대와 텍스트 요약

화성 거리에 기반한 OOD 탐지 방법】 조건부 언어 모델에 대한 배포 외 감지 및 선택적 생성

[주의 모듈은 샘플 레벨을 예측하기위한 프롬프트를 통합합니다] 프롬프트 퓨전 대신 모델 앙상블 : 소수의 프롬프트 튜닝을위한 샘플 특정 지식 전송 방법

【하나의 프롬프트로의 분해 및 증류로 여러 작업에 대한 프롬프트】 멀티 태스킹 프롬프트 튜닝은 매개 변수 효율적인 전송 학습을 가능하게합니다.

[단계별 추론 생성 텍스트의 평가 지표는 다음에 공유하기위한 주제로 사용할 수 있습니다] Roscoe : 단계별 추론을위한 메트릭 스위트

[교정 시퀀스 가능성은 조건부 언어 생성을 향상시킵니다]

【그라디언트 최적화를 기반으로 한 텍스트 공격 방법】 텍스트 그레이드 : 그라디언트 중심 최적화에 의한 NLP의 견고성 평가 발전

[GMM 모델링 ICL 의사 결정 분류 경계를 교정합니다.

【문제를 다시 쓰기 및 그래프 기반 ICL 집계 방법】 묻는 질문 : 언어 모델을 촉구하기위한 간단한 전략

[예금화되지 않은 예제 풀에서 ICL로 좋은 후보자를 선택하기위한 데이터베이스] 선택적 주석은 언어 모델을 더 나은 소수의 학습자로 만듭니다.

프롬프트 부스트 : 10 개의 포워드 패스가있는 블랙 박스 텍스트 분류

트랜스포머에 대한주의 가이드 백도어 공격

【프롬프트 마스크 위치 자동 레이블 선택】 사전 훈련 된 언어 모델은 완전히 제로 샷 학습자 일 수 있습니다.

[FID 입력 벡터의 길이를 압축하고 문서 순위를 출력 할 때 다시 주문하십시오.] FID-LIGHT : 효율적이고 효과적인 검색 텍스트 생성 생성

【대형 모델의 생성에 대한 설명】 Pinto : 신속한 생성 합리적 근거를 이용한 충실한 언어 추론

【사전 훈련 영향의 하위 집합 찾기】 ORCA : 사전 여겨지는 데이터의 해양에서 증거를 지원하는 위치를 통한 언어 모델 해석

[지시를 목표로하는 프롬프트 프로젝트는 첫 번째 단계 및 2 단계 정렬 필터링을 생성합니다. 큰 언어 모델은 인간 수준의 프롬프트 엔지니어입니다.

언어 모델에서 개인 정보 보호 위험을 완화하기위한 지식은 배우는 지식

작업 산술로 모델 편집

[매번 지침 및 샘플을 입력하지 말고 매개 변수 효율적인 모듈로 변환하십시오.] 힌트 : 효율적인 제로 샷 일반화를위한 하이퍼 네트워크 명령 튜닝

[수동 샘플 선택이없는 ICL 디스플레이 생성 방법] Z-ICL : 의사 부호를 통한 제로 샷 내 텍스트 학습

[작업 지침 및 텍스트 함께 포함 생성] 한 임베더, 모든 작업 : 명령에 연결된 텍스트 임베드

【큰 모델 교육 소형 모델 침대】 나이프 : 프리 텍스트 합리를 가진 지식 증류

[정보 추출 생성 모델의 소스와 대상 단어 세분화 사이의 불일치 문제] 토큰 화 일관성 추출 NLP 작업의 생성 모델에 대한 일관성 문제

Parsel : 알고리즘 추론을위한 통일 된 자연 언어 프레임 워크

[ICL 샘플 선택, 첫 번째 위상 선택 및 제 2 단계 분류] 자체 적응 형 컨텍스트 학습

[집중적 인 읽기, 읽기 쉬운 프롬프트 비 감독 선택 방법, GPT-2] 인간 읽기 가능한 프롬프트 튜닝 : Kubrick 's The Shining은 좋은 영화이자 좋은 프롬프트도 좋습니다.

설문 조사 및 데이터 세트

prontoqa 데이터 세트는 COT 추론 능력을 테스트하고 계획 능력이 여전히 제한되어 있음을 발견합니다.

【추론 데이터 세트】 wikiwhy : 원인과 영향 질문에 대한 답변 및 설명

【추론 데이터 세트】 거리 : 멀티 태스킹 구조적 추론 및 설명 벤치 마크

COOT 미세 조정 모델을 포함하여 OPT 사전 훈련 및 미세 조정 비교 추론 데이터 세트】 경보 : 언어 모델을 추론 작업에 적용합니다.

[Zhejiang University의 Zhang Ningyu 팀의 최근 추론 요약] 언어 모델 프롬프트와의 추론 : 설문 조사

[Fudan에있는 Xiao Yanghua 팀의 텍스트 생성 기술 및 방향 요약] 인간과 같은 자연 언어 생성에 대한 지식과 추론을 활용 : 간단한 검토

[최근 추론 기사 요약, UIUC의 Jie Huang] 큰 언어 모델의 추론에 이르기까지 : 설문 조사

【수학적 추론의 작업, 데이터 세트 및 방법 검토 및 DL】 수학적 추론을위한 딥 러닝 조사

프로그래밍을위한 자연 언어 처리에 관한 설문 조사

보상 모델링 데이터 세트 :

이 데이터 세트는 Stiennon et al. (2020)에 의해 제공되며 모델 생성 요약에 대한 수동 피드백이 포함되어 있습니다. 이 데이터 세트에는 비교와 축의 두 부분이 있습니다. 비교 섹션에서 수동 주석기는 두 요약에서 최고를 선택하도록 요청 받았다. 축 섹션에서 수동 주석기는 리 커트 스케일에 따라 요약 품질을 평가합니다. 비교 부분에는 훈련 및 검증 분할 만있는 반면 축 부분에는 테스트 및 검증 분할 만 있습니다. 논문에서 보상 모델을 훈련시키는 데 사용되는 초록은 TL; DR 데이터 세트에서 나옵니다. 다른 유효성 검사 및 테스트 데이터는 TL; DR 데이터 세트, CNN 기사 및 일일 메일 기사에서 나온 것입니다. https://huggingface.co/datasets/openai/summarize_from_feedback
이 데이터 세트는 Ganguli et al. 3 한 가지 예에는 인간과 챗봇 사이의 대화가 포함됩니다. 인간은이 두 대화 중 하나를 선호합니다. https://huggingface.co/datasets/anthropic/hh-rlhf
이 데이터 세트는 Nakano et al. 데이터 세트의 각 예제에는 관련 메타 데이터뿐만 아니라 한 쌍의 질문에 대한 모델 답변이 포함되어 있습니다. 每个答案都有一个来自人类的偏好分数，可用于确定两个答案中哪个更好。 https://huggingface.co/datasets/openai/webgpt_comparisons
SHP是一个由385K个集体人类对18个不同主题领域的问题/指示的反应的偏好组成的数据集，从烹饪到法律咨询。这些偏好旨在反映一种回答对另一种回答的帮助程度，并打算用于训练RLHF奖励模型和NLG评估模型（例如SteamSHP）。 https://huggingface.co/datasets/stanfordnlp/SHP

Red-teaming数据集，harmless vs. helpful， RLHF +scale更难被攻击（另一个有效的技术是CoT fine-tuning）:

对于什么是成功的攻击，人类之间总体上达成的共识很低。
Meta's Bot Adversarial Dialog dataset https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue
Anthropic's red-teaming attempts https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/main/red-team-attempts
AI2's RealToxicityPrompts https://huggingface.co/datasets/allenai/real-toxicity-prompts