博士課程3年の佐藤さんの研究成果物である「振り仮名注釈コーパス」が NDL Lab から公開されました

博士課程3年の佐藤文一さんが障害者の読書のアクセシビリティー向上を目指して構築した約4億文字からなる振り仮名注釈コーパスが NDL Lab から公開されました。データサイズは約11GBで、全ての漢字に振り仮名を付与しています。大量のデータを必要とする機械学習等に活用ください。本成果物は佐藤さんが国立国会図書館と共同で構築したものです。

公開 URL (NDL Lab):
青空文庫及びサピエの点字データから作成した振り仮名のデータセット
https://github.com/ndl-lab/huriganacorpus-aozora
国立国会図書館の書誌データから作成した振り仮名のデータセット
https://github.com/ndl-lab/huriganacorpus-ndlbib