Skip to content

문장의 욕설 여부를 분류한 한글 데이터셋입니다.

License

Notifications You must be signed in to change notification settings

2runo/Curse-detection-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 

Repository files navigation

욕설 감지 데이터셋

문장의 욕설 여부를 분류한 한글 데이터셋입니다.

데이터

일간베스트(일베), 오늘의 유머와 같은 각종 커뮤니티 사이트의 댓글에 대해 총 5,825문장을 분류했습니다.

수직선 기호( | )를 기준으로 좌측에는 댓글 내용, 우측에는 욕설 여부(0,1)가 기록되어 있습니다.

분류 기준

분류 기준은 다음과 같습니다.

단순 욕설, 인종 차별적인 말, 정치적 갈등을 조장하는 말, 성적·성차별적인 말, 타인을 비하하는 말, 그 외에 불쾌감을 주거나 욕설로 판단되는 말

  • 일베에서 흔히 말 끝에 '-노'를 붙이는 것은 고 노무현 대통령을 희화화하기 위한 의도이므로 욕설로 봐야 하지만 경상도 사투리 '-노'와 구분하기 어렵다는 점에서 다른 욕설 없이 '-노'만 붙인 문장들은 욕설로 분류하지 않았습니다.

  • '존맛', '개이득' 등의 말은 비속어를 포함하고 있으므로 욕설이라 볼 수 있으나 최근에는 강조의 의미로 흔히 쓰이고 있으므로 악의가 없는 단순 강조의 의미로 쓰였다고 판단될 경우 욕설로 분류하지 않았습니다.

  • 상황에 따라 욕일 수도 있고, 아닐 수도 있는 댓글은 최대한 비욕설로 구분했습니다.

About

문장의 욕설 여부를 분류한 한글 데이터셋입니다.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published