本日 2025年11月17日(月) 07:54 Etc/GMT-8

2025/11/19 11:00~2025/11/19 12:00

[NLPコ]トークン化とSentencePiece: MeCabの開発者はなぜ日本語特化型トークナイザを作らなかったのか(工藤拓 / Taku Kudo (Google 合同会社))

工藤拓 / Taku Kudo (Google 合同会社)[Webサイト]Google 合同会社スタッフソフトウェアエンジニアhttp://chasen.org/~taku/概要SentencePieceは、LLMを含む多くのニューラルNLPモデルに採用されており、トークン化のパラダイムを大きく変えました。 本発表では、MeCabの開発者が、なぜ伝統的な辞書・文法ベースの日本語特化型トークナイではなく、それらとは対局にある言語非依存・多言語トークナイザ SentencePiece を開発したのか、その歴史的背景と経緯について紹介します。※トークは日本語です。[GitHubリポジトリ] [論文1] (EMNLP 2018) [論文2] (ACL 2018)

📍 https://us06web.zoom.us/j/84806353158?pwd=hsusGL0kj9I2Ox98tGBR1HwYk0Z2i0.1