aanrelease2013.tar.gz
엉망입니다.
papers_text/
파일(PDF에서 추출된 일반 텍스트)에 문제가 있습니다.P00-1032
, W06-3709
).T75-2033
)에서 사용할 수 없는 것(예: J79-1013
)까지).C73-2029
).L08-1302
). Makefile
관련된 문제와 정리 작업에 대한 일부 문서를 선언적으로 제공합니다.
이 저장소에는 원본 데이터가 전혀 포함되어 있지 않으며 수정 방법에 대한 프로그래밍 방식의 설명만 포함되어 있습니다.
실행하려면 루트 디렉터리에서 make
호출하세요.
University of Michigan CLAIR Group의 ACL Anthology Network 인터페이스는 다음 통계를 보고합니다.
측정하다 | 값 |
---|---|
논문 수 | 21,212 |
저자 수 | 17,792 |
장소 수 | 342 |
논문 인용 횟수 | 110,975 |
저자 공동 작업 수 | 142,450 |
인용 네트워크 직경 | 22 |
협업 네트워크 직경 | 15 |
이들 중 일부는 부정확하거나 데이터 소스 중 하나만 설명합니다. 데이터 세트의 다양한 소스에는 데이터의 다양한 하위 집합이 포함되어 있습니다. 예를 들어 해당 papers_text/
파일이 없는 일부 논문(예: L08-1098
)에 대한 인용이 보고됩니다.
aan/release/2013/acl.txt
측정하다 | 값 |
---|---|
인용→인용관계 | 110,930 |
독특한 인용 논문 | 16,554 |
평균 인용 당 인용 | 6.7011 |
고유한 인용 논문 | 12,840 |
평균 인용 당 인용 | 8.6394 |
독특한 논문 | 18,160 |
인용과 인용이 모두 가능한 독특한 논문 | 11,234 |
가장 많이 인용된 상위 10개 논문 | 인용 논문 수 | 작가 | 제목 |
---|---|---|---|
J93-2004 | 928 | Mitchellet al. | 큰 주석이 달린 영어 코퍼스 구축: Penn Treebank 전산 언어학 |
P02-1040 | 891 | Papineniet al. | Bleu: 기계 번역의 자동 평가 방법 |
J93-2003 | 729 | Brownet al. | 통계적 기계 번역의 수학: 매개변수 추정 |
P03-1021 | 667 | 오크 & 요셉 | 통계적 기계 번역의 최소 오류율 교육 |
J03-1002 | 656 | 오크 & 요셉 | 다양한 통계적 정렬 모델의 체계적 비교 |
P07-2045 | 591 | Koehnet al. | Moses: 통계적 기계 번역을 위한 오픈 소스 툴킷 |
N03-1017 | 556 | Koehnet al. | 통계적 구문 기반 번역 |
P03-1054 | 394 | 클라인 앤 매닝 | 정확한 어휘화되지 않은 구문 분석 |
J96-1002 | 376 | Bergeret al. | 자연어 처리에 대한 최대 엔트로피 접근 방식 |
A00-2018 | 371 | 차르니악 | 최대 엔트로피에서 영감을 받은 파서 |
가장 많이 인용된 상위 10개 논문 | 인용된 논문 수 |
---|---|
P10-1142 | 88 |
J10-3003 | 80 |
W13-4917 | 71 |
W13-2201 | 65 |
J12-1006 | 62 |
J98-1001 | 59 |
J13-2003 | 59 |
J07-4004 | 57 |
J11-2002 | 52 |
D11-1108 | 52 |
aan/release/2013/acl-metadata.txt
이 파일의 형식은 솔직히 당황스럽습니다. 일반적인 구조는 BibTeX와 비슷하지만 어떤 BibTeX 파서도 이를 처리할 수 없습니다. 더 나쁜 것은 인코딩의 혼합이 미쳤다는 것입니다! ftfy
훌륭한 실제 사례 연구를 찾고 있었다면 바로 이것이었을 것입니다.
author
1명, W10-4238
및 16,308명의 고유 author
시퀀스가 있습니다( author
해당 논문의 모든 저자를 나열합니다).aan/papers_text/???-????.txt
이 디렉토리에는 다른 파일도 많이 있습니다. 일부 논문은 본문과 참고문헌 섹션으로 나누어져 있습니다. aan/release/2013/
에 들어가도록 의도된 것처럼 보이는 일부 파일이 있습니다. 이 패턴과 일치하는 파일 중 상당수가 비어 있습니다.
papers_text/
에 해당 파일이 있는 17,593개의 논문이 있습니다.papers_text/
에 해당 파일이 있습니다. 이러한 결함에도 불구하고 ACL Anthology Network는 훌륭한 리소스입니다. 많은 기여자들에게 깊은 감사를 드립니다.
Dragomir R. Radev, Pradeep Muthukrishnan, Vahed Qazvinian, Amjad Abu-Jbara. 2013. ACL 선집 네트워크 코퍼스. 언어 자원 및 평가 47 (4), pp. 919–944. 10.1007/s10579-012-9211-2.
저작권 2016-2018 크리스토퍼 브라운. MIT 라이센스.