이 저장소는 다음 두 논문의 코드와 데이터 세트를 제공합니다.
SQuARe 데이터세트는 data/SQuARe/
에서 찾을 수 있습니다. 데이터세트에 대한 자세한 내용은 SQuARe 논문을 참조하세요.
또한 data/SQuARe/with_raw_annotations
에 원시 주석이 포함된 데이터세트를 출시합니다. 데이터 세트의 질문과 응답은 본질적으로 주관적이므로 원시 주석이 주석 작성자 간의 불일치를 추가로 연구하는 데 도움이 될 것이라고 믿습니다.
참고 : 데이터 세트를 영어로 번역했지만, 사용한 민감한 주제는 한국 사회의 특성을 반영하므로 직접 사용할 때는 주의가 필요합니다. 연구자들이 자체 데이터 세트를 구축하는 것이 좋습니다.
데이터세트 생성을 위한 파이프라인은 pipeline/square
에서 찾을 수 있습니다.
KoSBi 데이터 세트는 data/KosBi/
에서 찾을 수 있습니다. 데이터 세트에 대한 자세한 내용은 KoSBi 논문을 참조하세요.
업데이트 : 추가 반복을 실행하여 더 많은 데이터를 수집했습니다. 원본 KoSBi 데이터 세트가 포함된 data/KoSBi/kosbi_v2_{train,valid,test}.json
파일에서 찾을 수 있습니다. ( 컨텍스트 , 문장 ) 쌍의 총 개수는 안전한 문장 34.2,000개와 안전하지 않은 문장 33.8,000개로 거의 68,000개로 증가했습니다.
SQuARe 와 유사하게 데이터 세트 생성을 위한 파이프라인은 pipeline/kosbi
에서 찾을 수 있습니다.
Korean-Safety-Benchmarks
MIT License
Copyright 2023-present NAVER Cloud Corp.
Permission is hereby granted, free of charge, to any person obtaining a copy
of this software and associated documentation files (the "Software"), to deal
in the Software without restriction, including without limitation the rights
to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
copies of the Software, and to permit persons to whom the Software is
furnished to do so, subject to the following conditions:
The above copyright notice and this permission notice shall be included in all
copies or substantial portions of the Software.
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
SOFTWARE.
@inproceedings{lee2023square,
title={SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable Responses Created Through Human-Machine Collaboration},
author={Hwaran Lee and Seokhee Hong and Joonsuk Park and Takyoung Kim and Meeyoung Cha and Yejin Choi and Byoung Pil Kim and Gunhee Kim and Eun-Ju Lee and Yong Lim and Alice Oh and Sangchul Park and Jung-Woo Ha},
booktitle={Proceedings of the 61th Annual Meeting of the Association for Computational Linguistics},
year={2023}
}
@inproceedings{lee2023kosbi,
title={KoSBi: A Dataset for Mitigating Social Bias Risks Towards Safer Large Language Model Application},
author={Hwaran Lee and Seokhee Hong and Joonsuk Park and Takyoung Kim and Gunhee Kim and Jung-Woo Ha},
booktitle={Proceedings of the 61th Annual Meeting of the Association for Computational Linguistics: Industry Track},
year={2023}
}
데이터 세트나 코드에 대해 궁금한 점이 있으면 언제든지 홍석희([email protected]) 또는 이화란([email protected])에게 문의하세요.