BEGIN:VCALENDAR VERSION:2.0 PRODID:-//chikkutakku.com//RDFCal 1.0//EN X-WR-CALDESC:GoogleカレンダーやiCalendar形式情報を共有シェ アしましょう。近所のイベントから全国のイベントま で今日のイベント検索やスケジュールを決めるならち っくたっく X-WR-CALNAME:ちっくたっく X-WR-TIMEZONE:UTC BEGIN:VEVENT SUMMARY:[NLPコ]トークン化とSentencePiece: MeCabの開発者はな ぜ日本語特化型トークナイザを作らなかったのか(工藤 拓 / Taku Kudo (Google 合同会社)) DTSTART;VALUE=DATE-TIME:20251119T030000Z DTEND;VALUE=DATE-TIME:20251119T040000Z UID:272113660278 DESCRIPTION:工藤拓 / Taku Kudo (Google 合同会社)[Webサイト]Googl e 合同会社スタッフソフトウェアエンジニアhttp://chasen.o rg/~taku/概要SentencePieceは、LLMを含む多くのニューラルNLP モデルに採用されており、トークン化のパラダイムを 大きく変えました。 本発表では、MeCabの開発者が、な ぜ伝統的な辞書・文法ベースの日本語特化型トークナ イではなく、それらとは対局にある言語非依存・多言 語トークナイザ SentencePiece を開発したのか、その歴史 的背景と経緯について紹介します。※トークは日本語 です。[GitHubリポジトリ] [論文1] (EMNLP 2018) [論文2] (ACL 2018) LOCATION:https://us06web.zoom.us/j/84806353158?pwd=hsusGL0kj9I2Ox98tGBR1Hw Yk0Z2i0.1 END:VEVENT END:VCALENDAR