博士課程3年の佐藤文一さんが障害者の読書のアクセシビリティー向上を目指して構築した約4億文字からなる振り仮名注釈コーパスが NDL Lab から公開されました。データサイズは約11GBで、全ての漢字に振り仮名を付与しています。大量のデータを必要とする機械学習等に活用ください。本成果物は佐藤さんが国立国会図書館と共同で構築したものです。 公開 URL (NDL Lab): 青空文庫及びサピエの点字データから作成した振り仮名のデータセット https://github.com/ndl-lab/huriganacorpus-aozora 国立国会図書館の書誌データから作成した振り仮名のデータセット https://github.com/ndl-lab/huriganacorpus-ndlbib