이 문서 목록은 언어 모델, 특히 LLM( 대형 언어 모델 )의 이론적, 경험적 분석 에 중점을 둡니다. 이 목록의 논문은 이론적 분석, 경험적 분석 또는 이 둘의 조합을 통해 학습 행동, 일반화 능력 및 언어 모델의 기타 속성을 조사합니다.
이 목록의 범위:
이 목록의 제한 사항:
이 논문 목록의 통계:
제안 사항이 있거나 기여하고 싶다면 언제든지 이슈를 열거나 끌어오기 요청을 보내주세요.
자세한 기여 방법은 기여 가이드라인을 참고하세요.
토론에서 다른 사람들과 생각을 공유하고 토론할 수도 있습니다.
메모
분류되지 않은 버전은 여기를 참조하세요.
^ back to top ^
LLM(대형 언어 모델) 및 변환기 기반 모델에서 관찰된 다양한 현상, 속성 및 동작에 초점을 맞춘 카테고리입니다.
^ back to top ^
대규모 언어 모델의 상황 내 학습에 대한 이론적, 경험적 분석에 초점을 맞춘 논문입니다.
Transformers를 사용한 증명 가능한 상황 내 학습: 선형 회귀에 대한 사례 연구 [논문 링크] 2024-11-04
다케부; 웨이 황; 앤디 한; 니탄다 아츠시; 스즈키 타이지; 장칭푸; 하우산 웡
사전 훈련된 변환기는 상황 내에서 저차원 목표 함수를 효율적으로 학습합니다. [논문 링크] 2024-11-04
카즈사토 오코; 송유진; 스즈키 타이지; 데니 우
In-context 학습과 In-weight 학습을 이해하기 위해 [논문 링크] 2024-10-30
브라이언 찬; 신이첸; 안드라스 죄르지; 데일 슈르만스
과제 다양성을 통한 맥락 내 학습을 위한 깊이와 반복의 역할에 대해 [논문 링크] 2024-10-29
카샤야르 갓미리; Nikunj Saunshi; 사샨크 J. 레디(Sashank J. Reddi); 스테파니 제겔카; 산지브 쿠마르
Transformer Networks에서 상황 내 학습을 위한 기호 처리 메커니즘 [논문 링크] 2024-10-23
폴 스몰렌스키; 롤랜드 페르난데스; Zhenghao Herbert Zhou; 마티아 오퍼; 가오 지안펑
Transformer가 선형 동적 시스템의 동작을 상황에 맞게 학습할 수 있습니까? [논문링크] 2024-10-21
우스만 아크람; 하리스 비칼로
맥락 내 학습을 위한 베이지안 확장 법칙 [논문 링크] 2024-10-21
아리아만 아로라; 댄 주라프스키; 크리스토퍼 포츠; 노아 D. 굿맨
Transformers를 사용한 선형 회귀 혼합에 대한 증명 가능한 상황 내 학습 [논문 링크] 2024-10-18
진옌하오; 크리슈나쿠마르 발라수브라마니안; 리펭 라이
맥락 내 학습과 오컴의 면도날 [논문링크] 2024-10-17
에릭 엘모즈니노; 톰 마티; 테자스 카세티; 레오 가뇽; 사르탁 미탈; 마한파티; 단야 스리다르; 기욤 라주아
상황 내 학습의 상황 확장과 작업 확장 [논문 링크] 2024-10-16
Amirhesam Abedsoltan; Adityanarayanan Radhakrishnan; 우 징펑; 미하일 벨킨
지수 종속성 우회: 다단계 경사하강법을 통해 상황 내에서 효율적으로 학습하는 루프형 변환기 [논문 링크] 2024-10-15
보첸; 리샤오유; 양잉규; 젠메이시; 자오송
변압기가 유도 헤드를 구현하는 방법: 근사 및 최적화 분석 [논문 링크] 2024-10-15
왕밍제; 루오시 유; 웨이난 E; 레이 우
상황 내 분류를 위한 변환기의 훈련 융합에 관하여 [논문 링크] 2024-10-15
웨이셴; 루이다 저우; 양징; 콩 셴
트랜스포머는 컨텍스트 내에서 가변 순서 마르코프 체인을 학습합니다. [논문 링크] 2024-10-07
루이다 저우; 차오티엔; 수하스 디가비
대규모 언어 모델의 상황 내 학습 추론 회로 재검토 [논문 링크] 2024-10-06
하카제 조; 가토 마리코; 사카이 요시히로; 이노우에 나오야
훈련된 변환기 분류기는 상황에 맞는 양성 과적합을 일반화하고 나타냅니다. [문서 링크] 2024-10-02
스펜서 프레이; 갈 바르디
Transformers는 상황 내 선형 회귀 분석에서 내생성을 처리합니다. [논문 링크] 2024-10-02
양하오동; 크리슈나쿠마르 발라수브라마니안; 리펭 라이
인덕션 헤드 공개: Transformers의 입증 가능한 훈련 역학 및 기능 학습 [논문 링크] 2024-09-10
시유 첸; 쉰희준; 왕티안하오; 양 주오란
학습 vs 검색: LLM 회귀 분석에서 상황 내 예제의 역할 [논문 링크] 2024-09-06
알리악바르 나파르; 크리스틴 브렌트 베너블; 파리사 코르잠쉬디
Transformers는 Minimax Optimal Nonparametric In-Context Learners입니다. [논문 링크] 2024-08-22
김준오; 나카마키 타이; 스즈키 타이지
상황 내 학습에서의 암기 [논문 링크] 2024-08-21
샤리아르 골친; 미하이 수르데아누; 스티븐 베사드; 에두아르도 블랑코; 엘렌 릴로프
표현을 통한 상황 내 학습: 훈련된 변환기의 상황별 일반화 [논문 링크] 2024-08-19
동양; 유황; 양잉빈; 치 위에지에
In-Context Learning을 통한 Fast Training Dataset Attribution [논문 링크] 2024-08-14
밀라드 포토히; 모하마드 타하 바하도리; 올루와세이 페이세탄(Oluwaseyi Feyisetan); 페이먼 아랍샤히; 데이비드 헤커만
Transformers는 상황별 학습에서 Multi-Head Attention을 어떻게 활용합니까? 희소 선형 회귀에 관한 사례 연구 [논문 링크] 2024-08-08
첸싱우; 레이 자오; 디판 조우
트랜스포머는 보편적인 맥락 내 학습자입니다. [문서 링크] 2024-08-02
후루야 다카시; Maarten V. de Hoop; 가브리엘 페이레
미세 조정 및 정렬을 통한 상황 내 학습을 이해하기 위한 작업으로서의 다항식 회귀 [논문 링크] 2024-07-27
맥스 윌콕슨; 모르텐 스벤가드; 리아도시; 딜런 데이비스; 레야 비르; 아난트 사하이
상황 내 학습 공개: 작동 메커니즘을 이해하기 위한 좌표계 [논문 링크] 2024-07-24
자오 안하오; 예팡화; 푸진란; 샤오유 셴
단층 변환기는 상황에 따라 가장 가까운 이웃을 학습함을 증명함 [논문 링크] 2024-07-24
리자오; 카오 위안; 쳉 가오; 허이한; 한류; 제이슨 M. 클루소프스키; 판젠칭; 멩디 왕
변환기는 언제 상황에 맞게 구성적으로 일반화할 수 있나요? [논문링크] 2024-07-17
고바야시 세이진; 사이먼 슈그; 야시르 아크람; 플로리안 레드하르트; 요하네스 폰 오스왈드; 라즈반 파스카누; 기욤 라주아; 주앙 새크라멘토
Transformer Neural Process를 이용한 상황 내 상황 내 학습 [논문 링크] 2024-06-19
매튜 애쉬먼; 크리스티아나 디아코누; 애드리안 웰러; 리차드 E. 터너
대규모 언어 모델에서 상황 내 학습의 결정 경계 조사 [논문 링크] 2024-06-17
자오 시얀; 퉁 응우옌; 아디트야 그로버
상태 수프: 상황 내 기술 학습, 검색 및 혼합 [논문 링크] 2024-06-12
마치에이 피오로; 마치에이 볼치크(Maciej Wołczyk); 라즈반 파스카누; 요하네스 폰 오스왈드; 주앙 새크라멘토
생성적 AI의 환각률 추정 [논문링크] 2024-06-11
앤드류 제슨; 니콜라스 벨트란-벨레스; 쿠엔틴 추; 스웨타 칼레카르; Jannik Kossen; 야린 갈; 존 P. 커닝햄; 데이비드 블레이
BERT는 생성적 맥락 학습자입니다. [논문 링크] 2024-06-07
데이비드 사무엘
SVD 기반 가중치 가지치기만으로 상황 내 학습 성능 향상: 이론적 관점 [논문 링크] 2024-06-06
야오 신하오; 후 샤오린; 양선지; 용 리우
언어 모델은 상황에 따라 무엇을 학습합니까? 구조화된 작업 가설 [논문 링크] 2024-06-06
리 지아오다; 허우 이판; Mrinmaya Sachan; 라이언 코터렐
선형화된 주의 변환기의 가중치 모델을 위한 상황 내 학습의 정확한 변환 [논문 링크] 2024-06-05
브라이언 K 첸; 후천양; 희진; 이휘관; 가와구치 켄지
Grok 학습: 모듈러 산술 작업에서 상황 내 학습 및 기술 구성의 출현 [논문 링크] 2024-06-04
허천우; 다르실 도시; 아리트라 다스; 안드레이 그로모프
더 큰 언어 모델이 맥락 내 학습을 다르게 수행하는 이유는 무엇입니까? [논문링크] 2024-05-30
젠메이시; 웨이준이; Zhuoyan Xu; 리앙 잉규
LLM의 수업에 따라 상황 내 학습이 충분합니까? [논문링크] 2024-05-30
자오하오; 막심 안드리우셴코(Maksym Andriushchenko); 프란체스코 크로체; 니콜라스 플라마리온
올바른 잠재 변수를 학습하면 반드시 상황 내 학습이 향상되나요? [논문링크] 2024-05-29
사르탁 미탈; 에릭 엘모즈니노; 레오 가뇽; 상니 바드와즈(Sangnie Bhardwaj); 단야 스리다르; 기욤 라주아
Transformers의 맥락 내 학습 이론 [논문 링크] 2024-05-29
왕이페이; 우 유양; 웨이쩌밍; 스테파니 제겔카; 왕 이센
자기회귀적으로 훈련된 변환기의 메사 최적화: 출현 및 기능 [논문 링크] 2024-05-27
정첸위; 웨이 황; 왕롱젠; 우궈창; 주준; 리 총쉬안
범주형 데이터를 위한 Transformer 상황 내 학습 [논문 링크] 2024-05-27
애런 T. 왕; 리카르도 헤나오; 로렌스 카린
상황 내 학습에서 변환기에 의한 자동 도메인 적응 [논문 링크] 2024-05-27
하타야 류이치로; 마츠이 코타; 이마이즈미 마사아키
상황 내 학습을 위한 데모 선택 및 압축 통합 [논문 링크] 2024-05-27
가오 준
텍스트 생성을 위한 맥락 내 학습의 잡음 견고성에 관하여 [논문 링크] 2024-05-27
홍푸 가오; 장 페이펑; 장원위; 슈준; 풍정; 웨이 홍신
MLP의 상황에 맞는 학습 [문서 링크] 2024-05-24
윌리엄 L. 통; 센기즈 펠레반
상황 내 불확실성 정량화를 통한 상황 내 학습 능력의 더 나은 이해를 위해 [논문 링크] 2024-05-24
상류; 종쩌 카이; 천관팅; 리 샤오청
루프형 변환기가 상황 내 학습을 위해 다단계 경사하강법을 구현하는 방법을 배울 수 있습니까? [논문링크] 2024-05-02
카샤야르 갓미리; Nikunj Saunshi; 사샨크 J. 레디(Sashank J. Reddi); 스테파니 제겔카; 산지브 쿠마르
Transformers용 함수 클래스에 대한 상황 내 학습 공개 [논문 링크] 2024-05-02
왕지지에; 보장; 리 슈아이
장기 상황 모델을 통한 상황 내 학습: 심층 탐구 [논문 링크] 2024-04-30
아만다 베르치; 마오르 이브기; 우리 알론; 조나단 베란트; 매튜 R. 곰리; 그레이엄 뉴빅
인덕션 헤드에 적합해야 하는 것은 무엇입니까? 상황 내 학습 회로 및 그 형성에 대한 기계적 연구 [논문 링크] 2024-04-10
아디티야 K. 싱; 테드 모스코비츠; 펠릭스 힐; 스테파니 CY 찬; 앤드루 M. 색스
ICL에 주의가 필요합니까? 모델 아키텍처와 상황 내 학습 능력의 관계 탐색 [논문 링크] 2024-04-01
이반 리; 난장; 테일러 버그-커크패트릭
상황 내 학습을 위한 다중 헤드 소프트맥스 주의 훈련 역학: 출현, 수렴 및 최적성 [논문 링크] 2024-02-29
시유 첸; 쉰희준; 왕티안하오; 양 주오란
Transformer가 경사 하강법을 사용하여 인과 구조를 학습하는 방법 [논문 링크] 2024-02-22
이샨 니차니; 알렉스 데미안; 제이슨 D. 리
선형 변환기 블록의 상황별 학습: MLP 구성 요소 및 1단계 GD 초기화의 이점 [논문 링크] 2024-02-22
장루이치; 우 징펑; 피터 L. 바틀렛
맥락 내 학습을 이해하기 위한 의미론적 유도 헤드 식별 [논문 링크] 2024-02-20
지에 렌; 궈치펭; 항얀; 류동루이; 치우시펭; 린 다화
Transformer는 상황 내 자동 회귀 학습을 어떻게 수행합니까? [논문링크] 2024-02-08
마이클 E. 샌더; 라자 기리에스; 스즈키 타이지; 마티유 블론델; 가브리엘 페이레
Mamba는 배우는 방법을 배울 수 있나요? 상황 내 학습 과제에 대한 비교 연구 [논문 링크] 2024-02-06
박종호; 박재승; Zheyang Xiong; 이나영; 조재웅; 사메트 오이막; 이강욱; 디미트리스 파파이리오풀로스
맥락 내 학습에 대한 정보이론적 분석 [논문링크] 2024-01-28
전홍준; 제이슨 D. 리; 레이 치; 벤자민 반 로이
Transformers의 응급 상황 내 학습의 일시적인 특성 [논문 링크] 2023-12-11
아디티야 K. 싱; 스테파니 CY 찬; 테드 모스코비츠; 에린 그랜트; 앤드류 M. 색스; 펠릭스 힐
다양한 최소값을 갖는 상황 내 학습 기능 [논문 링크] 2023-11-21
데이비드 오니아니; 왕옌샨
상황 내 학습과 교수 조정의 관계 탐색 [논문 링크] 2023-11-17
한유두안; 이쉬안 탕; 이양; 아흐메드 압바시; 카 얀 탐
상황 내 학습이 부족한 경우는 언제이며 그 이유는 무엇입니까? 사양이 많은 작업에 관한 연구 [논문링크] 2023-11-15
하오펭; 왕샤오지; 첸젠휘; 웨이카이 리; 치윤자; 왕지무; 우 직리; 젱 카이셩; 빈 쉬; 레이 허우; 후안지 리
상황 내 학습은 일반화하지만 항상 견고하지는 않습니다: 구문 사례 [논문 링크] 2023-11-13
아론 뮬러; 앨버트 웹슨; 잭슨 페티; 탈 린젠
Transformers는 상황 내 학습을 위해 사전 조건화된 경사하강법을 구현하는 방법을 학습합니다. [논문 링크] 2023-11-09
안광준; 샹쳉; 하디 다네쉬만드; 수브릿 스라
Transformers의 상황별 학습을 위한 고차 최적화 방법 학습: 선형 모델을 사용한 연구 [논문 링크] 2023-10-26
푸더칭(Deqing Fu); 첸천치; 로빈 지아; 바찰 샤란
상황 내 학습은 작업 벡터를 생성합니다. [논문 링크] 2023-10-24
로이 헨델; 모르 게바; 아미르 글로버슨
대규모 언어 모델의 함수 벡터 [논문 링크] 2023-10-23
에릭 토드; 밀리센트 L. 리; 아르나브 센 샤르마; 아론 뮬러; 바이런 C. 월리스; 데이비드 바우
Transformer를 사용한 상황 내 학습은 실제로 대조 학습 패턴과 동일합니다. [논문 링크] 2023-10-19
루이펑 렌; 용 리우
훈련된 변환기가 상황에 맞는 선형 모델 학습 [문서 링크] 2023-10-19
장루이치; 스펜서 프레이; 피터 L. 바틀렛
Transformer는 단순한 기능을 넘어 어떻게 상황에 맞게 학습합니까? 표현을 통한 학습 사례 연구 [논문 링크] 2023-10-16
궈천우; 웨이 후; 송메이; 왕환; 카이밍 시옹; 실비오 사바레세; 유바이
이산 함수 학습을 통한 Transformer 및 LLM의 상황 내 학습 이해 [논문 링크] 2023-10-13
Satwik Bhattamishra; 아르킬 파텔; 필 블런섬; 바룬 카나데
선형 회귀의 상황 내 학습에는 얼마나 많은 사전 훈련 작업이 필요합니까? [논문링크] 2023-10-13
우 징펑; 디판 조우; 첸 지샹; 블라디미르 브레이버만; 구취안취안; 피터 바틀렛
상황 내 학습은 레이블 관계를 학습하지만 기존 학습은 아님 [논문 링크] 2023-10-13
Jannik Kossen; 야린 갈; 톰 레인포스
맥락 내 트랜스포머 융합 [논문링크] 2023-10-13
유황; 위안 쳉; 리앙 잉빈
베이지안 프리즘을 통한 맥락 내 학습 [논문 링크] 2023-10-13
마두르 판와르; 카비르 아후자; 나빈 고얄
사전 훈련된 Transformer가 실제로 Gradient Descent를 통해 상황에 맞게 학습할 수 있나요? [논문링크] 2023-10-12
링펑 셴; Aayush Mishra; 다니엘 카샤비
상황 내 학습은 무엇을, 어떻게 학습합니까? 베이지안 모델 평균화, 매개변수화 및 일반화 [논문 링크] 2023-10-10
장 유펑; 장펑주오; 양주오란; 자오란 왕
커널 회귀로 Emergent In-Context Learning 설명 [논문 링크] 2023-10-05
치한; 왕지치; 한자오; 지행
CausalLM은 상황 내 학습에 적합하지 않습니다. [논문 링크] 2023-09-02
난딩; 토머 레빈보임; 우 지알린; 세바스찬 굿맨; 라두 소리컷
경사하강법의 한 단계는 선형 Self-Attention의 한 레이어를 갖춘 최적의 상황 내 학습자임이 입증되었습니다. [논문 링크] 2023-07-07
아르빈드 마한칼리; 타츠노리 B. 하시모토; 마 텡규
통계학자로서의 트랜스포머: 상황 내 알고리즘 선택을 통한 입증 가능한 상황 내 학습 [논문 링크] 2023-07-06
유바이; 판첸; 왕환; 카이밍 시옹; 송 메이
Transformers는 경사하강법을 통해 상황에 맞게 학습합니다. [논문 링크] 2023-06-15
요하네스 폰 오스왈드; 에이빈드 니클라손; 에토레 란다조; 주앙 새크라멘토; 알렉산더 모르드빈체프; 안드레이 Zhmoginov; 맥스 블라디미로프
소프트맥스 회귀를 위한 상황 내 학습과 가중치 이동의 근접성 [논문 링크] 2023-04-26
리 슈아이; 자오송; 유샤; 통유; 저우 티안이
암묵적 구조 유도로서의 창발적 맥락 학습 이론 [논문 링크] 2023-03-14
마이클 한; 나빈 고얄
상황 내 학습의 학습 가능성 [논문 링크] 2023-03-14
노암 비스; 요아브 레빈; 암논 샤슈아
트랜스포머는 상황에 맞게 무엇을 배울 수 있나요? 간단한 함수 클래스에 대한 사례 연구 [논문 링크] 2023-01-14
시밤 가르그; 디미트리스 치프라스; 퍼시 리앙; 그레고리 발리언트
변환기는 컨텍스트와 가중치에 저장된 정보를 다르게 일반화합니다. [논문 링크] 2022-10-13
스테파니 CY 찬; 이시타 다스굽타; 김준경; 다르샨 쿠마란; 앤드류 K. 람피넨; 펠릭스 힐
상황 내 학습 및 유도 헤드 [논문 링크] 2022-09-24
캐서린 올슨; 넬슨 엘하게; 닐난다; 니콜라스 조셉; 노바 다사르마(Nova DasSarma); 톰 헤니건; 벤 맨; 아만다 아스켈; 바이윤타오; 안나 첸; 톰 코너리; 새벽 배수구; 깊은 강굴리; 잭 해트필드-도즈; 대니 에르난데스; 스콧 존스턴; 앤디 존스; 잭슨 커니언; 리안 로비트; 카말 엔두세; 다리오 아모데이; 톰 브라운; 잭 클라크; 자레드 카플란; 샘 맥캔들리쉬; 크리스 올라
^ back to top ^
대규모 언어 모델의 사고 사슬 현상을 분석하고 이론적, 경험적 관점을 탐구하는 논문입니다.
빠른 사고와 느린 사고를 훈련했을 때 LLM 레이어에서 일어난 일: 그라데이션 관점 [문서 링크] 2024-10-31
리밍; 리얀홍; 저우 티안이
사고 사슬의 이론적 이해: 일관된 추론과 오류 인식 시연 [논문 링크] 2024-10-21
추이잉첸; He Pengfei; 탕셴펑; 치허; 첸 루오; 당질량; 유에 싱
희소 의존성에서 희소 주의로: 생각의 연쇄가 변압기 샘플 효율성을 향상시키는 방법 공개 [논문 링크] 2024-10-07
카이위에 웬; 장화칭; 홍저우 린; 장 징자오
사고 사슬 추론을 위한 비선형 변환기 훈련: 이론적 일반화 분석 [논문 링크] 2024-10-03
리홍강; 멩 왕; 루송타오; 추이샤오동; 핀유 첸
자기회귀 + CoT(사상 사슬) ≃ 순환: 언어 모델에서 순환의 역할과 순환 변환기의 부활 [논문 링크] 2024-09-14
장샹; 무함마드 압둘-마게드(Muhammad Abdul-Mageed); 락스 VS 락슈마난
사고 연쇄 유도 방법의 통계적 기초 공개 [논문 링크] 2024-08-25
후 신양; 장펑주오; 시유 첸; 양 주오란
사고 사슬의 유효성에 영향을 미치는 요소 해독: 확률, 암기 및 시끄러운 추론 [논문 링크] 2024-07-01
악샤라 프라브하카르; 토마스 L. 그리피스; R. 토마스 맥코이
사고연쇄추론을 이용한 신경언어모델의 표현능력에 관하여 [논문링크] 2024-06-20
프란츠 노박; 아네이 스베테; 알렉산드라 부토이; 라이언 코터렐
반복 헤드: 사고 사슬의 기계적 연구 [논문 링크] 2024-06-04
비비안 카반; 찰스 아르날; 와심 부아지즈; 앨리스 양; 프랑수아 샤르통; 줄리아 켐페
점별로 생각해보자: 변환기 언어 모델의 숨겨진 계산 [논문 링크] 2024-04-24
제이콥 파우; 윌리엄 메릴; 사무엘 R. 보우먼
일련의 사고로 변압기가 본질적으로 직렬 문제를 해결할 수 있도록 지원 [문서 링크] 2024-02-20
리 지위안; 홍류; 데니 저우; 마 텡규
사고의 사슬 뒤에 숨겨진 미스터리를 밝히기 위해: 이론적 관점 [논문 링크] 2023-12-22
구하오 펭; 장보항; 구윤티안; Haotian Ye; 디헤; 왕 리웨이
대규모 언어 모델이 올바른 사고 사슬을 생성할 수 있는 이유는 무엇입니까? [논문링크] 2023-10-20
라술 투투노프; 앙투안 그로스니트; Juliusz Ziomek; 왕준; 하이탐 부-아마마르
대규모 언어 모델이 사고 사슬을 구현하는 방법은 무엇입니까? [논문링크] 2023-10-13
왕이쿤; 실레 후; 장용강; 샹티안; 류쉐송; 야오우 첸; 쉬셴; 예 지에핑
생각의 사슬을 지닌 트랜스포머의 표현력 [논문링크] 2023-10-13
윌리엄 메릴; 아시시 사바르왈
^ back to top ^
이론적, 경험적 분석을 포함하여 언어 모델의 환각 현상을 조사한 논문.
공짜 점심 없음: 환각이 없는 생성 모델 학습의 기본 한계 [논문 링크] 2024-10-24
우 창롱; 아난스 그라마; 보이치에흐 스판코프스키
공유된 상상력: LLM은 모두 환각을 느낍니다. [논문 링크] 2024-07-23
주일룬; 카이밍 시옹; 실비오 사바레세; 우 치엔셩
생성적 AI의 환각률 추정 [논문링크] 2024-06-11
앤드류 제슨; 니콜라스 벨트란-벨레스; 쿠엔틴 추; 스웨타 칼레카르; Jannik Kossen; 야린 갈; 존 P. 커닝햄; 데이비드 블레이
새로운 지식에 대한 LLM의 미세 조정이 환각을 조장합니까? [논문링크] 2024-05-09
조리크 게크만; 갈요나; 로이 아하로니; 마탄 에얄; 아미르 페더; 로이 라이차트; 조나단 허지그
언어 모델의 비사실적 환각의 메커니즘 [논문 링크] 2024-03-26
레이 유; 멩 카오; Jackie Chi Kit Cheung; 동 위에
익숙하지 않은 미세 조정 예제로 언어 모델이 환각을 일으키는 방식 제어 [논문 링크] 2024-03-08
케이티강; 에릭 월리스; 클레어 톰린; 아비랄 쿠마르; 세르게이 레빈
경고로서의 맥락 내 선명도: 환각 완화를 위한 내부 표현 관점 [논문 링크] 2024-03-05
첸시치; 미아오 시옹; 류준텡; 우 정쉬안; 텅샤오; 가오시양; 허 준시안
보정된 언어 모델은 환각을 경험해야 합니다. [논문 링크] 2023-11-24
아담 타우만 칼라이; 산토시 S. 벰팔라
환각적 무응답의 흥미로운 사례: 과신하는 대형 언어 모델의 숨겨진 상태에서 진실 찾기 [논문 링크] 2023-10-18
아비브 슬로보드킨; 오머 골드만; 아비 카시울라루; 이도 다간; 샤울리 라브포겔
^ back to top ^
대규모 언어 모델의 역저주 현상을 분석한 논문.
훈련 역학을 통한 '역전 저주'의 이론적 이해를 위해 [논문 링크] 2024-05-07
주한린; 황백허; 장 샤오룬; 마이클 조던; 자오 지안타오; Yuandong Tian; 스튜어트 러셀
역전의 저주: "A는 B"에 대해 훈련된 LLM은 "B는 A"를 학습하지 못함 [논문 링크] 2024-04-04
루카스 베르글룬드; 멕 통; 맥스 카우프만; 미키타 발레스니; 아사 쿠퍼 스틱랜드; 토마스 코르박; 오웨인 에반스
LLM의 대화관계 이해 비효율성 조사 [논문링크] 2023-12-01
치청웬; 보웬 리; 빈위안 후이; 왕백린; 리진양; 우진왕; 위안준 라이리
언어 모델의 물리학: 3.2부, 지식 조작 [논문 링크] 2023-09-25
Zeyuan Allen-Zhu; 리 위안지
반전 저주: 인수분해 저주의 기초가 되는 토큰 등 [논문 링크] 2023-06-07
오우일 키토우니; 니클라스 놀테; 다이앤 부샤쿠르; 아디나 윌리엄스; 마이크 래바트; 마크 이브라힘
^ back to top ^
모델 크기, 데이터 크기 또는 계산 리소스에 따라 모델 성능이 어떻게 확장되는지, 그리고 예상치 못한 능력의 출현을 탐구하는 논문입니다.
1비트 신경망 확장 뒤에 숨은 이론 풀기 [논문 링크] 2024-11-03
마지드 달리리; 자오송; 양치운
사전 훈련에서 중요한 배치 크기는 어떻게 조정됩니까? [논문링크] 2024-10-29
장한린; 데펜 모르와니; 니힐 비야스; 우 징펑; 디판 조우; 우다야 가이; 딘 포스터; 샴 카카데
언어 모델의 최적 계산 크기 확장, 출현 및 정체에 대한 정보 이론 [논문 링크] 2024-10-15
Anuj K. Nayak; 라브 R. 바쉬니
스케일링 법칙 추정을 위한 히치하이커 가이드 [논문 링크] 2024-10-15
레솀 초센; 양 장; 제이콥 안드레아스
모델 아키텍처 전반에 걸친 확장 법칙: 대규모 언어 모델에서 밀도 모델과 MoE 모델의 비교 분석 [논문 링크] 2024-10-08
왕시치; 정규첸; 리 베이; 허커칭; 장민; 왕 진강
선형 분리성의 가장자리에서 그로킹 [논문 링크] 2024-10-06
알론 벡; 노암 레비; 요하이 바르-시나이
전송을 위한 스케일링 법칙에 관한 실증적 연구 [논문 링크] 2024-08-30
매튜 바넷
출현의 퍼콜레이션 모델: 형식 언어로 훈련된 변환기 분석 [논문 링크] 2024-08-22
Ekdeep Singh Lubana; 가와구치 쿄고; 로버트 P. 딕; 다나카 히데노리
학습률 어닐링을 이용한 확장 법칙 [논문 링크] 2024-08-20
하우 조직; 비너스 왕; 루 왕
대형 언어 모델의 성능 법칙 [논문 링크] 2024-08-19
우 추한; 루이밍 탕
정보이론적 진보 측정은 Grokking이 새로운 단계 전환임을 밝힙니다. [논문 링크] 2024-08-16
겐조 클로우; 세바스티아노 스트라말리아; 다니엘레 마리나조
대규모 언어 원숭이: 반복 샘플링을 통한 추론 계산 확장 [논문 링크] 2024-07-31
브래들리 브라운; 조던 주라브스키; 라이언 에를리히; 로널드 클라크; Quoc V. Le; 크리스토퍼 레; 아잘리아 미르호세이니
비신경 모델의 출현: 평균 기울기 외부 곱을 통한 모듈러 산술 계산 [문서 링크] 2024-07-29
닐 말리나르; 다니엘 비글홀; 리빈 주; Adityanarayanan Radhakrishnan; 파르테 판디트; 미하일 벨킨
LLM 견고성의 확장 추세 탐색 [논문 링크] 2024-07-25
니콜라우스 하우; 미하우 자작(Michał Zajac); 이안 맥켄지; 오스카 홀린스워스; 톰청; 피에르 뤽 베이컨; 아담 글리브
언어 모델의 규모, 데이터 및 편향의 상호 작용 이해: BERT를 사용한 사례 연구 [논문 링크] 2024-07-25
무하마드 알리; 스웨타수다 팬더; 진란 셴; 마이클 윅; 아리 코브렌
어휘를 사용한 확장 법칙: 더 큰 모델에는 더 큰 어휘가 필요합니다. [문서 링크] 2024-07-18
차오판 타오; 류첸; 두용수; 니클라스 무에니호프; 종웨이완; 핑 루오; 민린; 응아이 웡
왜 그록을 합니까? Grokking Modular Addition의 이론적 분석 [논문링크] 2024-07-17
모하마드 아민 모하마디; 리 지위안; 우 레이; 다니카 J. 서덜랜드
미세 조정을 통한 신규 역량 예측 [논문 링크] 2024-07-10
찰리 빅터 스넬; 에릭 월리스; 댄 클라인; 세르게이 레빈
언어 모델의 컴퓨팅 최적 확장 불일치 해결 [논문 링크] 2024-06-25
토머 포리안; 미첼 워츠먼; Jenia Jitsev; 루트비히 슈미트; 야이르 카르몬
선형 복잡도 언어 모델의 확장 법칙 [논문 링크] 2024-06-24
쉬양 셴; 동리; 루이타오 렝; 진 진; 웨이가오순; 종이란
대규모 언어 모델의 사실 기억을 위한 확장 법칙 [논문 링크] 2024-06-22
루싱규; 리샤오난; 친위안 쳉; 카이 딩; 황쉬안징; 치우 시펑
카플란과 친칠라 스케일링 법칙의 조화 [논문 링크] 2024-06-12
팀 피어스; 송진엽
Deep Grokking: Deep Neural Networks가 더 나은 일반화를 할 수 있을까요? [논문링크] 2024-05-29
시민팬; 라즈반 파스카누; 마틴 재기
언어 붕괴: (대형) 언어 모델의 신경 붕괴 [논문 링크] 2024-05-28
로버트 우; 바르단 파피안
고정된 훈련 기간을 넘어서는 확장 법칙 및 컴퓨팅 최적의 훈련 [문서 링크] 2024-05-28
알렉산더 헤겔레; 엘리 바쿠치; 아틀리 코손; 루브나 벤 알랄; 레안드로 폰 웨라; 마틴 재기
gzip, 데이터 의존적 스케일링 법칙 예측 [논문 링크] 2024-05-26
로한 판데이
언어 변환기의 고차원 추상화 단계의 출현 [논문 링크] 2024-05-24
에밀리 쳉; 디에고 도이모; 코렌틴 케르바데크; 유리 마코코; 유옥; 알레산드로 라이오; 마르코 바로니
신경망 훈련 시 그록킹에 대한 주파수 관점의 이론적 근거 [논문 링크] 2024-05-24
장첸 저우; 장야오유; 지친 존 쉬(John Xu)
Grokked Transformers는 암시적 추론자입니다: 일반화의 가장자리를 향한 기계적 여정 [논문 링크] 2024-05-23
왕보시; 샹웨; 유수; 환순
효율적인 데이터 혼합: 언어 모델 사전 훈련을 위한 이변량 확장 법칙 [논문 링크] 2024-05-23
Ce Ge; 마 지젠; 첸다오위안; 리 야량; 볼린 딩
컴퓨팅 최적 신경 확장 법칙의 4+3 단계 [논문 링크] 2024-05-23
엘리엇 파켓; 코트니 파켓; 샤오 러차오; 제프리 페닝턴
대수의 법칙의 노예: 생성 언어 모델의 복잡성에 대한 점근적 등분할 속성 [논문 링크] 2024-05-22
라구 무둠바이; 타일러 벨
대규모 언어 모델의 출현 정량화 [논문 링크] 2024-05-21
항첸; 양신유; 주 지아잉; 왕 웬야
스케일링 법칙을 넘어서: 연관 메모리를 사용한 변압기 성능 이해 [논문 링크] 2024-05-14
Xueyan Niu; 보바이; 레이덩; 웨이한
더 많은 컴퓨팅이 필요합니다. [문서 링크] 2024-04-30
젠 구오
창발과 확장의 법칙을 정확하게 풀 수 있는 모델 [논문 링크] 2024-04-26
남윤수; 나야라 폰세카; 이석형; 아르드 루이스
소규모 언어 모델의 성능이 저하되는 이유는 무엇입니까? Softmax 병목 현상을 통한 언어 모델 포화 연구 [논문 링크] 2024-04-11
네이선 고디; 에릭 드 라 끌레제리; 브누아 사고
대규모 탐사
루카스 링글
축소된 규모 생성 언어 모델의 창발 능력 [논문 링크] 2024-04-02
셰린 무카티라; 비제타 데쉬판데; 블라디슬라프 리알린; 안나 룸시스키
손실 관점에서 언어 모델의 창발적 능력 이해 [논문 링크] 2024-03-23
두정샤오(Zhengxiao Du); 젱아오한; 동위샤오; 지에 탕
스케일링 법칙의 미스터리 풀기: 1부 [논문 링크] 2024-03-21
수희; 지티안; 샤오유 셴; 카이 순량
언어 모델은 과도한 훈련과 다운스트림 작업을 통해 안정적으로 확장됩니다. [문서 링크] 2024-03-13
사미르 이츠하크 가드레(Samir Yitzhak Gadre); 게오르기오스 스미르니스; 바이샤알 샹카르; 수친 구루랑간; 미첼 워츠먼; 루린 샤오; 진 메르카트; 알렉스 팡; 제프리 리; 세드릭 케; 루이신; 마리아나 네주리나; 이고르 바실예비치; Jenia Jitsev; 알렉산드로스 G. 디마키스; 가브리엘 일하르코; 송수란; 토마스 콜라; 야이르 카르몬; 아찰 데이브; 라인하르트 헤켈; 니클라스 무에니호프; 루트비히 슈미트
스케일링이 LLM 미세 조정을 만났을 때: 데이터, 모델 및 미세 조정 방법의 효과 [논문 링크] 2024-02-26
장비아오; 류중타오; 콜린 체리; 오르한 피라트
복잡한 모듈러 연산에서 Grokked Transformer 해석하기 [논문 링크] 2024-02-26
후루타 히로키; 미네기시 고우키; 이와사와 유스케; 마츠오 유타카
꼬리 이야기: 확장 법칙의 변화에 따른 모델 붕괴 [논문 링크] 2024-02-10
엘비스 도마토브; 윤진 펭; 푸양; 프랑수아 샤르통; 줄리아 켐페
데이터 제약이 있는 언어 모델 확장 [논문 링크] 2023-10-25
니클라스 무에니호프; 알렉산더 M. 러시; 보아스 바락; 테븐 르 스카오; 알렉산드라 픽투스; 누아메인 타지; 삼포 피살로; 토마스 울프; 콜린 라펠
언어 모델 축소의 비용: 상황 내 학습 이전에 사실 회상이 악화됨 [논문 링크] 2023-10-06
천진; 놀란 클레멘트; 신동; Vaishnavh Nagarajan; 마이클 카빈; 조나단 레이건-켈리; 긴타레 카롤리나 주가이테
대규모 언어 모델의 창발 능력은 신기루입니까? [논문링크] 2023-04-28
라일런 셰퍼; 브란도 미란다; 코예조 산미
컴퓨팅 최적의 대형 언어 모델 훈련 [논문 링크] 2022-03-29
조던 호프만; 세바스티안 보르고; 아서 멘쉬; 엘레나 부차츠카야; 트레버 카이; 엘리자 러더퍼드; 디에고 데 라스 카사스; 리사 앤 헨드릭스; 요하네스 벨블; 에이단 클라크; 톰 헤니건; 에릭 놀랜드; 케이티 밀리컨; 조지 반 덴 드리셰(George van den Driessche); 보그단 다목; 아우렐리아 가이; 사이먼 오신데로; 카렌 시몬얀; 에리히 엘센; 잭 W. 레이; 오리올비닐스; 로랑 시프레
신경 언어 모델의 확장 법칙 [논문 링크] 2020-01-22
자레드 카플란; 샘 맥캔들리쉬; 톰 헤니건; 톰 B. 브라운; 벤자민 체스; 리원아이; 스콧 그레이; 알렉 래드포드; 제프리 우; 다리오 아모데이
^ back to top ^
대규모 언어 모델이 지식을 저장, 검색 및 활용하는 방법에 초점을 맞추고 관련된 메모리 메커니즘을 분석하는 논문입니다.
생성 모델의 기억을 이해하기 위한 기하학적 프레임워크 [논문 링크] 2024-10-31
브렌든 리 로스; 하미드레자 캄카리; 우퉁즈; 라사 호세인자데; 리우 자오얀; 조지 스타인; 제시 C. 크레스웰; 가브리엘 로아이자-가넴
트랜스포머의 최적 기억 용량 [논문링크] 2024-09-26
카지츠카 토키오; 사토 잇세이
슈뢰딩거 메모리: 대규모 언어 모델 [논문 링크] 2024-09-16
웨이 왕; 리 칭
Self-Attention은 Transformer 기반 모델의 작업 메모리 용량을 제한합니다. [논문 링크] 2024-09-16
공동유; 장한타오
뛰어난 기억력, 얕은 추론: kNN-LM의 한계 [논문 링크] 2024-08-21
겅상이; 자오 웬팅; 알렉산더 M 러쉬
상황 내 학습에서의 암기 [논문 링크] 2024-08-21
샤리아르 골친; 미하이 수르데아누; 스티븐 베사드; 에두아르도 블랑코; 엘렌 릴로프
일반화 첫 번째, 암기 두 번째? 자연어 분류 작업을위한 암기 현지화 [논문 링크] 2024-08-09
Verna Dankers; Ivan Titov
LLM의 암기 이해 : 역학, 영향 요인 및 시사점 [종이 링크] 2024-07-27
Speicher까지; 모하마드 아플라 칸; qinyuan wu; Vedant Nanda; 수미 다스; Bishwamittra Ghosh; Krishna P. Gummadi; Arevimaria Terzi
대형 언어 모델에서의 구두 암기를 탈취합니다 [종이 링크] 2024-07-25
Jing Huang; Diyi Yang; 크리스토퍼 포츠
내부 충돌에서 언어 모델의 상황에 맞는 적응 [종이 링크] 2024-07-24
사라 베라 마르 자노 비치; Haeun Yu; Pepa Atanasova; 마리아 마이스트로; Christina Lioma; Isabelle Augenstein
일반화 vs 암기 : 추적 언어 모델의 능력은 사전 조정 데이터로 돌아갑니다 [종이 링크] 2024-07-20
Antonis Antoniades; Xinyi Wang; 야나이 엘라자르; Alfonso Amayuelas; Alon Albalak; Kexun Zhang; 윌리엄 양 왕
언어 모델의 물리학 : 3.1 부, 지식 저장 및 추출 [종이 링크] 2024-07-16
Zeyuan Allen-Zhu; Yuanzhi Li
유도 헤드는 텍스트 내 학습에서 패턴 일치하는 필수 메커니즘으로서 [종이 링크] 2024-07-09
J. Crosbie; E. Shutova
llms는 코끼리를 꿈꾸나요 (말할 때)? 트랜스포머의 잠재 개념 연관 및 연관 기억 [종이 링크] 2024-06-26
Yibo Jiang; Goutham Rajendran; Pradeep Ravikumar; 브라이언 아라가
대형 언어 모델의 사실 암기를위한 스케일링 법 [종이 링크] 2024-06-22
Xingyu Lu; Xiaonan Li; Qinyuan Cheng; 카이 딩; Xuanjing Huang; xipeng qiu
도트 연결 : LLMS는 이질적인 훈련 데이터에서 잠재 구조를 유추하고 말로 표현할 수 있습니다 [종이 링크] 2024-06-20
Johannes Treutlein; Dami Choi; Jan Betley; Cem Anil; 사무엘 마크; 로저 베이커 그로스; 오 와인 에반스
잠재적 추억 폭발 : 대형 언어 모델에서 데이터 유출 및 암기 패턴 평가 [종이 링크] 2024-06-20
Sunny Duan; 미카일 코나; Abhiram Iyer; Rylan Schaeffer; ila r fiete
사실 지식 추출에 대한 결제 이해 [종이 링크] 2024-06-20
Gaurav ghosal; 타츠 노리 하시모토; Aditi Raghunathan
단일 토큰을 생성하지 않고 대형 언어 모델에 대한 지식 추정 [종이 링크] 2024-06-18
Daniela Gottesman; Mor Geva
대형 언어 모델은 사전 여과 중에 사실 지식을 어떻게 습득합니까? [종이 링크] 2024-06-17
Hoyeon Chang; 진호 파크; 또한 온정 Ye; Sohee Yang; Youngkyung Seo; Du-Seong Chang; 민주 서
금붕어처럼 되세요, 기억하지 마십시오! 생성 LLM에서의 암기 완화 [종이 링크] 2024-06-14
Abhimanyu Hans; Yuxin Wen; Neel Jain; John Kirchenbauer; 하미드 카즈미; Prajwal Singhania; Siddharth Singh; Gowthami somepalli; Jonas Geiping; Abhinav Bhatele; Tom Goldstein
사전 각인 변압기의 지식 회로 [종이 링크] 2024-05-28
유지 야오; Ningyu Zhang; Zekun XI; 멘 그루 왕; Ziwen Xu; Shumin Deng; Huajun Chen
차세대 예측을위한 변압기의 상단 및 하부 메모리 용량 경계 [용지 링크] 2024-05-22
리암 매든; 커티스 폭스; Christos Thrampoulidis
대형 언어 모델에서의 암기에 대한 다수의 암시 분석 [종이 링크] 2024-05-19
보웬 첸; Namgi Han; 유스케 미야 오
언어 모델의 물리학 : 3.3 부, 지식 용량 스케일링 법 [종이 링크] 2024-04-08
Zeyuan Allen-Zhu; Yuanzhi Li
변압기에서 다중 헤드 관심의 암기 용량 [종이 링크] 2024-03-02
Sadegh Mahdavi; Renjie Liao; Christos Thrampoulidis
변압기의 탄생 : 메모리 관점 [종이 링크] 2023-11-06
Alberto Bietti; Vivien Cabannes; Diane Bouchacourt; Herve Jegou; 레온 병사
언어 모델의 물리학 : 3.2 부, 지식 조작 [종이 링크] 2023-09-25
Zeyuan Allen-Zhu; Yuanzhi Li
신경망 암기가 현지화 될 수 있습니까? [종이 링크] 2023-07-18
Pratyush Maini; Michael C. Mozer; Hanie Sedghi; Zachary C. Lipton; J. Zico Kolter; Chiyuan Zhang
신경 언어 모델에서 암기를 정량화 [종이 링크] 2022-02-15
니콜라스 카린이; 다프네 IPPOLITO; Matthew Jagielski; 캐서린 리; 플로리안 트레이머; Chiyuan Zhang
^ back to top ^
논문은 최적화, 미세 조정 및 대형 언어 모델의 훈련 환경을 포함한 교육 과정의 다양한 측면을 논의합니다.
대규모 변압기 훈련의 글로벌 수렴 [Paper Link] 2024-10-31
Cheng Gao; 위안 카오; Zihao Li; Yihan 그는; Mengdi Wang; 한 리우; Jason Matthew Klusowski; Jianqing 팬
Fast vs. 느린 사고를 위해 훈련을받을 때 LLMS 층에서 일어난 일 : 그라디언트 관점 [종이 링크] 2024-10-31
밍 리; Yanhong Li; Tianyi Zhou
선형 변압기로 드문 드문 맥락에서 Bigram을 학습 및 전송 [Paper Link] 2024-10-30
유바이 렌; Zixuan Wang; Jason D. Lee
트랜스포머의 갑작스러운 학습 : 매트릭스 완료에 대한 사례 연구 [종이 링크] 2024-10-29
Pulkit Gopalani; Ekdeep Singh Lubana; Wei Hu
Lora vs Full Fine Tuning : 동등성의 환상 [종이 링크] 2024-10-28
Reece Shuttleworth; 야곱 안드레아스; 안토니오 토 랄바; Pratyusha Sharma
트랜스포머의 학습 역학에서 분포 단순성 바이어스 [종이 링크] 2024-10-25
Riccardo Rende; Federica Gerace; Alessandro Laio; Sebastian Goldt
활성 휴면주의 헤드 : LLMS에서 극단적 인 극심한 현상을 기계적으로 탈취 [종이 링크] 2024-10-17
Tianyu Guo; Druv Pai; 유 바이; Jiantao Jiao; 마이클 I. 요르단; 노래 메이
변압기를 구현하는 방법 유도 헤드 : 근사 및 최적화 분석 [용지 링크] 2024-10-15
Mingze Wang; Ruoxi Yu; 와이난 e; 레이 우
변압기라는 것은 무엇을 의미합니까? 이론적 Hessian 분석의 통찰력 [논문 링크] 2024-10-14
Weronika Ormaniec; 펠릭스 당델; Sidak Pal Singh
LLMS의 적응 오디세이 : 왜 추가 사전 조정이 때때로 개선되지 않습니까? [종이 링크] 2024-10-08
Fırat Öncel; Matthias Bethge; Beyza Ermis; Mirco Ravanelli; Cem Subakan; Çağatay Yıldız
간판 그라디언트 하강을 갖는 2 층 변압기의 최적화 및 일반화 [종이 링크] 2024-10-07
빙 구리 리; Wei Huang; Andi Han; Zhanpeng Zhou; 타이 지 스즈키; Jun Zhu; Jianfei Chen
Warmup-Stable-Decay 학습 속도 이해 : 강 계곡 손실 조경 관점 [종이 링크] 2024-10-07
Kaiyue Wen; Zhiyuan Li; 제이슨 왕; 데이비드 홀; 퍼시 리앙; 마 텡규
추론 체인을위한 비선형 변압기 훈련 : 이론적 일반화 분석 [논문 링크] 2024-10-03
Hongkang Li; Meng Wang; Songtao Lu; Xiaodong Cui; 핀-첸
미세 조정주의 메커니즘에 대한 이론적 통찰력 : 일반화 및 최적화 [논문 링크] 2024-10-03
신나오 야오; Hongjin Qian; Xiaolin Hu; gengze xu; Yong Liu
훈련 된 변압기 분류기는 컨텍스트 내에서 과적으로 부여 된 양성 및 전시 [종이 링크] 2024-10-02
스펜서 프라이; 갈 바디
LLM 사후 훈련에서 합성 데이터에 대한 이론적 이해를 향해 : 리버스 블로 닉 관점 [용지 링크] 2024-10-02
Zeyu Gan; Yong Liu
큰 언어 모델에서 모델 복잡성의 영향 조사 [Paper Link] 2024-10-01
징 루오; Huiyuan Wang; 위 란 황
토큰 선택 메커니즘 선택에 대한 BENIGH 또는 BENING OVERFITTIN
Keitaro Sakamoto; Issei Sato
차세대 예측을위한 훈련 변압기의 비 항문 수렴 [종이 링크] 2024-09-25
Ruiquan Huang; Yingbin Liang; Jing Yang
대형 언어 모델에 대한 최적화 초 모수 법칙 [종이 링크] 2024-09-07
Xingyu Xie; Kuangyu Ding; Shuicheng Yan; 김-쿠안도; Tianwen Wei
Ademamix Optimizer : 더 좋고, 빠르고, 오래된 [종이 링크] 2024-09-05
Matteo Pagliardini; 피에르 아 블린; 데이비드 그랑가
클러스터링 및 정렬 : 모듈 식 추가의 훈련 역학 이해 [용지 링크] 2024-08-18
Tiberiu Musat
대규모 변압기 훈련의 글로벌 수렴 [종이 링크] 2024-08
Cheng Gao; 위안 카오; Zihao Li; Yihan 그는; Mengdi Wang; 한 리우; Jason M. Klusowski; Jianqing 팬
인코더 전용 얕은 변압기의 수렴 [종이 링크] 2024-08
Yongtao Wu; Fanghui Liu; Grigorios g chrysos; Volkan Cevher
지속적인 학습을위한 매개 변수 효율적인 미세 조정 : 신경 접선 커널 관점 [용지 링크] 2024-07-24
Jingren Liu; Zhong Ji; Yunlong Yu; Jiale Cao; 양웨이 팡; Jungong Han; Xuelong Li
LLM Finetuning의 학습 역학 [Paper Link] 2024-07-15
Yi Ren; Danica J. Sutherland
언어 모델에 좋은 최적화기를 만드는 분해 [종이 링크] 2024-07-10
Rosie Zhao; Depen Morwani; David Brandfonbrener; Nikhil Vyas; 가짜 카카 데
교육 조정 중 제로 샷 일반화 : 유사성과 세분성의 통찰력 [종이 링크] 2024-06-17
Bingxiang 그는; 딩 딩; Cheng Qian; Jia Deng; 간크 쿠이; Lifan Yuan; Huan-ang Gao; Huimin Chen; Zhiyuan Liu; Maosong Sun
NTK 관점에서 미세 조정 언어 모델 [종이 링크] 2024-05-27
아키 요시 Tomihari; Issei Sato
다중 헤드 변압기 역학의 무한 한계 [종이 링크] 2024-05-24
Blake Bordelon; Hamza Tahir Chaudhry; Cengiz Pehlevan
훈련 역학을 통한 '반전 저주'에 대한 이론적 이해를 향해 [종이 링크] 2024-05-07
Hanlin Zhu; Baihe Huang; Shaolun 장; 마이클 조던; Jiantao Jiao; Yuandong Tian; 스튜어트 러셀
미세 조정 및 전송 학습에 대한 이론적 접근법 [논문 링크] 2024-04-16
Erkan Bayram; Shenyu Liu; 모하메드-알리 벨라 바스; Tamer Başar
텍스트보기 : 명령 튜닝 언어 모델은 생각보다 더 강력한 객관식 선택기 [종이 링크] 2024-04-12
Xinpeng Wang; 청츠 후; 볼리 마; Paul Röttger; 바바라 판자
GPT 모델의 훈련 데이터 [종이 링크] 2024-04-11
Qingyi Liu; Yekun Chai; Shuohuan Wang; Yu Sun; Keze Wang; 후아 우
언어 모델에 대한 합성 데이터에 대해 배운 모범 사례 및 수업 [종이 링크] 2024-04-11
루이보 리우; Jerry Wei; Fangyu Liu; Chenglei si; 양지 장; Jinmeng Rao; 스티븐 징; Daiyi Peng; Diyi Yang; 데니 주우; Andrew M. Dai
합성 데이터에 대한 교육은 얼마나 나쁜가요? 언어 모델 붕괴의 통계 분석 [종이 링크] 2024-04-07
모하메드 엘 아민 세디 딕; 수 에이 웬 첸; Soufiane Hayou; 피에르 유 스프; Merouane 데바
미세 조정 된 대형 언어 모델의 일반화 전력 공개 [종이 링크] 2024-03-14
하오란 양; Yumeng Zhang; jiaqi xu; Hongyuan Lu; Pheng Ann Heng; 와이 램
트랜스포머가 안정적으로 이루어짐 : 언어 모델에 대한 엔드 투 엔드 신호 전파 이론 [Paper Link] 2024-03-14
Akhil Kedia; Mohd Abbas Zaidi; Sushil Khyalia; Jungho Jung; Harshith Goka; Haejun Lee
선형주의는 (어쩌면) 필요한 모든 것 (변압기 최적화를 이해하기 위해) [용지 링크] 2024-03-13
Kwangjun Ahn; Xiang Cheng; Minhak 노래; chulhee yun; Ali Jadbabaie; Suvrit Sra
신경망 및 LLM의 최적화 궤적의 특징 : 길이, 구부러진 및 막 다른 골목 [종이 링크] 2024-03-12
Sidak Pal Singh; 바비 HE; 토마스 호프만; 베른하르트 셸코프
휴리스틱 핵심 : 사전에 걸린 언어 모델에서 서브 네트워크 일반화 이해 [종이 링크] 2024-03-06
Adithya Bhaskar; 댄 프리드먼; Danqi Chen
텍스트 내 학습을위한 멀티 헤드 소프트 맥스주의 훈련 역학 : 출현, 수렴 및 최적 성 [종이 링크] 2024-02-29
시유 첸; Heejune Sheen; Tianhao Wang; Zhuoran Yang
트랜스포머가 그라디언트 하강으로 인과 구조를 배우는 방법 [종이 링크] 2024-02-22
에샤 안 니카 니; 알렉스 데미안; Jason D. Lee
NTK 체제의 로라 훈련에는 가짜 현지 최소값이 없습니다 [종이 링크] 2024-02-19
Uijeong 장; Jason D. Lee; 어니스트 K. Ryu
사전 계통 결제 패러다임에서 교차 태스크 선형성의 출현 [종이 링크] 2024-02-06
Zhanpeng Zhou; Zijun Chen; 일란 첸; 보 장; Junchi Yan
변압기는 점진적인 순위 증가를 통해 학습 [종이 링크] 2023-12-10
Enric Boix-Adsera; 에타이 리트 윈; Emmanuel Abbe; Samy Bengio; 여호수아 Susskind
절차 적으로 정의 된 작업에 미세 조정의 효과를 기계적으로 분석 [Paper Link] 2023-11-21
Samyak Jain; 로버트 커크; Ekdeep Singh Lubana; 로버트 P. 딕; 타나카 히데노리; 에드워드 그레펜 스테 트; Tim Rocktäschel; David Scott Krueger
표현 속성을 통해 미리 훈련 된 언어 모델 및 다운 스트림 작업 연결 [종이 링크] 2023-11-02
Chenwei Wu; 홀든 리; Rong GE
스캔 및 스냅 : 1 층 변압기의 훈련 역학 및 토큰 구성 이해 [Paper Link] 2023-07-02
Yuandong Tian; Yiping Wang; 베이디 첸; 사이먼 뒤
언어 모델의 커널 기반보기 미세 조정 [용지 링크] 2023-06-15
사디카 말라 디; 알렉산더 웨이트; Dingli Yu; Danqi Chen; Sanjeev Arora
미리 훈련 된 모델을 미세 조정하는 안정성 분석 [종이 링크] 2023-01-24
Zihao Fu; Anthony Man-Cho So; 나이젤 콜리어
^ back to top ^
약점에서 강력한 일반화에 이르기까지 언어 모델의 학습 능력 및 일반화 성능을 분석하는 논문.
반복 신경 네트워크의 일반화 및 위험 경계 [종이 링크] 2024-11-05
Xuewei Cheng; Ke Huang; Shujie ma
스펙트럼 필터링을 통한 순서 예측에서 입증 가능한 길이 일반화 [용지 링크] 2024-11-01
애니 마스든; 에반 도라 리우; 나만 아가 왈; Xinyi Chen; Daniel Suo; Elad Hazan
RL-STAR : 자립 추론자를위한 강화 학습 프레임 워크의 이론적 분석 [종이 링크] 2024-10-31
Fu-Chieh Chang; yu-ting lee; hui-ying shih; Pei-Yuan Wu
앵무새 혼합 : 전문가들은 추론보다 암기를 개선합니다 [종이 링크] 2024-10-24
Samy Jelassi; 클라라 모리; David Brandfonbrener; 알렉스 구; Nikhil Vyas; Nikhil Anand; David Alvarez-Melis; Yuanzhi Li; Sham M. Kakade; 에란 말라흐
수치 정밀도가 LLM의 수학적 추론 능력에 미치는 영향 [종이 링크] 2024-10-17
구 하오 풍; 카이 양; 만 티안 구; xinyue ai; Shengjie Luo; Jiacheng Sun; di; Zhenguo Li; Liwei Wang
트랜스포머의 순위 의존적 일반화 오차 경계 [종이 링크] 2024-10-15
Lan V. Truong
단일 헤드주의에 양성 과적으로 적합합니다 [종이 링크] 2024-10-10
로이 마겐; Shuning Shang; Zhiwei Xu; 스펜서 프라이; Wei Hu; 갈 바디
개념 학습 및 구성 일반화의 역학 [논문 링크] 2024-10-10
Yongyi Yang; 핵심 프란시스코 파크; Ekdeep Singh Lubana; 마야 오카와; Wei Hu; Hidenori Tanaka
훈련 된 2 층 Relu 네트워크와 회귀를위한 양성 과적
Junhyung Park; Patrick Bloebaum; Shiva Prasad Kasiviswanathan
양성 과적으로 전적으로 입증 될 수있는 입증 된 일반화 [종이 링크] 2024-10-06
David X. Wu; Anant Sahai
변압기에서 길이 일반화를 이해하기위한 공식 프레임 워크 [종이 링크] 2024-10-03
Xinting Huang; Andy Yang; Satwik Bhattamishra; Yash Sarrof; Andreas Krebs; Hattie Zhou; Preetum Nakkiran; 마이클 한
훈련 된 변압기 분류기는 컨텍스트 내에서 과적으로 부여 된 양성 및 전시 [종이 링크] 2024-10-02
스펜서 프라이; 갈 바디
대형 언어 모델의 사고 라인 [종이 링크] 2024-10-02
Raphaël Sarfati; Toni JB Liu; Nicolas Boullé; 크리스토퍼 제이 얼즈
큰 언어 모델에서 모델 복잡성의 영향 조사 [Paper Link] 2024-10-01
징 루오; Huiyuan Wang; 위 란 황
토큰 선택에 대한 양성 또는 빵 indectting주의 메커니즘 선택 [Paper Link] 2024-09-26
Keitaro Sakamoto; Issei Sato
학습 역학을 통한 구성 매핑에 대한 단순성 편견 이해 [종이 링크] 2024-09-15
Yi Ren; Danica J. Sutherland
언어 모델의 잊을 수없는 일반화 [논문 링크] 2024-09-03
에릭 장; Leshem 선택; 야곱 안드레아스
최적의 약한 학습 학습의 많은 얼굴 [종이 링크] 2024-08-30
Mikael Møller Høgsgaard; 카스퍼 그린 라슨; Markus Engelund Mathiasen
언어 모델의 물리학 : 2.2 부, 학년 수학 문제에 대한 실수로부터 배우는 방법 [종이 링크] 2024-08-29
Tian Ye; Zicheng Xu; Yuanzhi Li; Zeyuan Allen-Zhu
구성을 통한 분포되지 않은 일반화 : 변압기의 유도 헤드를 통한 렌즈 [Paper Link] 2024-08-18
Jiajun 노래; Zhuoyan Xu; Yiqiao Zhong
DPO를 사용한 선호 학습의 일반화 [종이 링크] 2024-08-06
숀 임; Yixuan Li
귀납적이거나 연역적입니까? LLMS의 기본 추론 능력을 다시 생각합니다 [종이 링크] 2024-07-31
Kewei Cheng; Jingfeng Yang; Haoming Jiang; Zhengyang Wang; Binxuan Huang; Ruirui Li; 시양 리; Zheng Li; Yifan Gao; 시안 리; 빙 음; Yizhou Sun