共同研究プロジェクト「テクストアナリティクスとデジタルヒューマニティーズ」研究会 · 2026年6月12日(金)
University of Osaka
itak
イタㇰ

アイヌ語資源とLLMをつなぐ

RAGによる低資源言語研究基盤の構築と運用

于 拙(う せつ)字 朴之(ぼくし)Yo, Cjyet 大阪大学大学院人文学研究科 言語文化学専攻 博士後期課程二年 https://researchmap.jp/yocjyet / contact@yocjyet.dev
QR: researchmap researchmap
01
01背景
散在する資源、
幻覚するLLM
低資源言語としてのアイヌ語
背景

アイヌ語の現状

消滅危機言語
話者の現状
UNESCO 2009 「極めて深刻」に分類、当時の推定母語話者は約15人 現在 日常の母語話者は事実上確認されていない 一方で 熟練話者・学習者が育ち、復興活動が続いている

「消滅」の認定そのものが政治的・社会的に単純ではない(樺太方言にも残存の報告がある)

1621 → 現在
どんな資料が残されているか
一次資料 古記録(最古は1621年)、口承文芸の筆録、録音 二次資料 辞書・語彙集・文法書・研究文献・目録 現代 教材・ツール・デジタル化資料

量では多くの低資源言語より恵まれている

無かったのは、大規模コーパスと横断利用の仕組み ──作るところから始めた

背景

LLMのハルシネーション ── 低資源言語で深刻化

なぜ起きるか
学習データが薄い

アイヌ語のテキストは学習データにほとんど含まれない

不足をそれらしい出力で埋めるため、綴り・訳・出典の捏造が起きる

誤りに気づける話者が少なく、検証も働きにくい

LLM生成とみられるでたらめなアイヌ語を配信するYouTubeチャンネルも現れている

ハルシネーションの型
綴り表記法が混在する 語形実在しない語を作る 語義別の意味で使う 文法流暢だが非文 翻訳でたらめでも堂々と 出典実在しない文献を引く 言語別の言語で答える 過剰生成同じ句を延々と繰り返す

いずれの型も本研究の作業中に実際に遭遇した

背景

方針 ── 検索・検証ツールに接地groundingする

アプローチ
tool-calling RAG

整備した資源を検索・検証するツール群をLLMに与え、回答と編集はその返り値に根拠を置く

検索・転写・照合は決定的deterministicツールが担当 ──LLMは結果を組み立てる

接地の流れ
LLMが道具を呼ぶ
資源が典拠つきの事実を返す
根拠の上で回答・編集

ハルシネーションの余地を構造的に狭める

目標 接地と検証を備えた基盤で、アイヌ語の研究・利用環境を多くの言語を上回る水準へ
02
02MCP核心
LLMに「道具」を
持たせる
mcp.aynu.org / 散在する資源を1つのサーバに束ねる(初報告)
MCP

MCPとは ── LLMに「道具」を渡す共通規格

30秒で
モデルの外に「道具箱」を置く

MCP(Model Context Protocol)──名の通り「モデルに文脈を渡す」共通規格

USB-Cのように1つの口でどのクライアントともつながる

読み(検索)にも書き(編集・収集)にも、LLMは返り値に根拠を置く

接続は1ブロック
{ "mcpServers": {
    "ainu": {
      "type": "http",
      "url": "https://mcp.aynu.org/mcp"
} } }

.mcp.jsonこれだけ ──クライアントを選ばない

アイヌ語資源向けに36ツールを実装 ──mcp.aynu.org
MCP

アーキテクチャ ── 資源を1つのサーバに束ねる

データ repo 群
コーパス
196,095文
辞書 80点
1621–2024
形態素DB・文法書誌
Python ETL
GitHub Action
Turso
libSQL・FTS5
MCPサーバ
mcp.aynu.org
36ツール
GitHub
OAuth
LLMクライアント
Claude / Claude Code
Google Sheets
語彙集の原本
月次シード 検索・参照 MCP接続 認証 読み書き直結

データ層人間層LLM/MCP層

語彙集の原本はGoogle Sheets ──月次再シードを経由せず、常に最新を読み書き

MCP

36ツール ── 資源の全層を覆う

コーパス・頻度 · 5196,095文の検索・頻度・統計
辞書 · 380点(1621–2024)横断・逆引き
形態素・語彙素 · 3結合価付き分解(mdb.aynu.org)
文法 · 3書誌・全文検索+決定的チェック
文字転写 · 3ラテン↔カナ↔キリル(ainconv)
wiki・i18n · 4Aynuwiki記事・ソフト翻訳の検索
語彙集 · 10読5・書2・メンテ3 → 実演①
資料DB · 4検索・書誌投入 → 実演②
統合リサーチ · 1entry_research 1コール合成
MCP

アクセス制御と月次自動更新

アクセス制御読みは認証のみ、書きは組織限定

認証はGitHub OAuth ──読み取り29ツールは認証ユーザー全員に開放

本文は一括出力せず、断片と統計のみ返す(権利配慮)

書き込み・メンテ7ツールはaynumosir org メンバー限定 ──非メンバーには登録すらされない(権限ゲートをプロトコル層に)

月次自動更新毎月1日、参照データを再生成

GitHub Action が毎月1日(JST 3:30)に3つのデータ repo からETLを回し、Turso をin-place 再シード(再デプロイ不要)

安全ゲート付き ──生成されたシードが異常に小さければ、本番DBに触れる前に中断

語彙集(Google Sheets 直結)は常に最新のため再シードの対象外

認証・権限ゲート・自動更新 ──本番運用の継続性を仕組みで支える

03
03全景
何を、
束ねているのか
aynu.org ファミリー / データ層と公開サイト群
全景

アイヌ語資源のエコシステム

データ層
コーパス
196,095文
辞書 80点
1621–2024
形態素DB
文法書誌
文字転写
ainconv
mcp.aynu.org
MCP・36ツール
LLMエージェント
Claude 等
公開サイトファミリー
itak.aynu.org
語彙集
db.aynu.org
資料DB
itah.aynu.org
樺太辞書・文法
quiz / TTS / wiki
ほか
接地 MCP 読み書き 資料収集 ビルド・公開

データ層人間層LLM/MCP層30近いリポジトリ ──9つのaynu.orgドメインで公開

全景

課題から作る ── 動機 → プロダクト

いまの概念を何と言うか
itak.aynu.org現代語彙・造語の分類語彙集
正しさをどう担保するか
db.aynu.org資料DB ── 出典・来歴・改訂履歴
語の内部構造を計算する
mdb.aynu.org形態素DB ── 結合価の逐次計算
樺太方言を記述する
itah.aynu.org辞書 2,764語+参照文法
聞いて学べるように
ainu-tts音声合成 ── このあと紹介
楽しく覚える
quiz.aynu.org語彙クイズ
LLMから横断的に使う
mcp.aynu.org36ツール ── 統合の要

コーパスは本研究会2024年5月報告(于拙・五十嵐涼・宮川創)から延べ約89.7万語 → 148.8万語に成長(CH135・修士論文でも報告)

全景

コーパス ── すべての土台

規模と歩み
現在 延べ 1,487,681 トークン、196,095文(2026-06) 制作 于拙・五十嵐涼・宮川創の共同制作 歩み 本研究会2024年5月報告の延べ約89.7万語から成長(CH135・修士論文でも報告)
内訳(文数・上位)
沙流 77,964文 静内 43,295文 鵡川 13,424文

出典資料の構成であり、方言の分類ではない

本文は権利の関係で一括公開できない ──OAuth越しに断片と統計のみ返す
全景

樺太アイヌ語 ── itah.aynu.org

辞書と文法
記述をひとつのサイトに

樺太アイヌ語辞書 2,764語 ──用例・出典つき

参照文法 全29章 ──音韻論から節連結まで

樺太方言(itah)は北海道方言(itak)と異なる変種 ──20世紀前半に自然継承が途絶

方言間対応
北海道方言との語彙対応

自動対応付け 667件+手動キュレーション 53件

対応は辞書エントリに表示され、方言間の比較に使える

対応付けは検証途上 ──誤対応の洗い出しを継続中

全景

辞書資料 ── 80点をデジタル化する

集めたもの
点数 80点(1621–2024) 規模 計 約15.5万行の見出し・対訳データ 最大 バチェラー『アイヌ・英・和辭典』(1938・第4版) 形式 資料ごとに正規化したTSV+出典メタデータ
作り方
スキャン・画像調整(人手) LLMによるOCRと構造化 整合性チェック(機械的に検出) 人手レビューで確定

難所は時代ごとの正書法・活字・略号の揺れ ──資料ごとの記法は保存し、出典を追跡できる形で残す

集めた辞書から、語の内部構造の記述へ

04
04形態素DB
語を、
形態素まで分解する
mdb.aynu.org / 結合価を計算する辞書データベース
形態素

形態素データベース ── 語の内部構造を計算する

CH研究会 奨励賞 受賞于拙「アイヌ語形態素データベースの構築と応用」情報処理学会CH141・2026年5月16日・大阪大学

何か
形態素を記述の基本単位に

複統合的・抱合的なアイヌ語では語より形態素が自然な単位 ──結合価(valency)を付与した辞書DB

接辞付加・名詞抱合に項の増減・内部化の局所規則を与え、実効結合価を逐次計算

結合価の計算 ── 簡略化した導出例

nukar「〜を見る」を起点に、局所規則の逐次適用で項構造が変化:

形式結合価操作
nukar2基底
nukar-e3-e:使役主を追加 (+1)
si-nukar-e2si-:項の内部化 (−1)
抱合構造と結合価を計算する辞書DB ──13,929 エントリ
形態素

サイトと作り方 ── パイプライン+Webエクスプローラ

作り方
Python パイプライン → Webエクスプローラ

① NINJAL 口承文芸コーパス・複数辞書(萱野・田村・中川等)・Wiktionary から形態素候補を収集

uv run python -m morpheme_db.cli build

② 結合価エンジンをTypeScript に移植 ──SvelteKit が組成木を SSR、Cloudflare Workers へ自動デプロイ

サイト
mdb.aynu.org

異形態・結合価・出典・組成木をブラウザで検索・閲覧

スタックSvelteKit 2 / Svelte 5 / Cloudflare Workers 規模13,929 エントリ(検証済み 338)
05
05音声
聞いて学べる
アイヌ語へ
ainu-tts / Piper(VITS)ベースライン
音声

アイヌ語TTS ── 音声で学べるアイヌ語へ

モデルとデータ
Piper(VITS)多話者ベースライン

田村すず子録音(1976–84・AA研)とNINJAL口承文芸コーパスから11,009発話・13.6時間を整音

沙流方言2話者(川上まつ子・木村キミ)でベースライン学習済み

録音は研究利用ライセンス ──合成音声の公開範囲も権利に従い限定

特定話者の声の再現は避け、没個人化depersonalizationした声で合成する方針

LLMと作る
パイプラインはLLMと構築

収集・整音・分割・学習・評価UIの実装は Claude Code と構築

学習は vast.ai のA100 40GB を時間借り(3日間)──監視・復旧・予算管理まで自動化

G2P(書記素→音素)は自作ライブラリ ainconv で決定的に処理

語学教育の補助が目標 ──まず Duostories 教材へ音声を供給

06
06実演①
語彙集を
LLMと編集する
itak.aynu.org(Itak-uoeroskip 現代語彙集)/ 原本は Google Sheets
実演①

原本はGoogle Sheets、サイトは鏡像

itak.aynu.org
翻訳のための現代語彙集

Tane an Aynuitak-kotupte Itak-uoeroskip

アイヌ語に翻訳するための分類語彙集 ──「いま何と言うか」を与える

造語を大規模に収めた最新の辞書太田満『和愛辞典』(2022)を含む出典を参照し ──語彙集はそうした出典を参照し翻訳用に整理

「itak」の語彙集ヒット63件 / 9カテゴリ

原本=Google Sheets
書き込みは原本へ直結

サイトはSheetsを実時間で読まず、R2のサイトキャッシュ(table.json)を配信

Google Sheets
語彙集の原本
itak.aynu.org
(SvelteKit)
mcp.aynu.org
書き込みツール
R2
サイトキャッシュ
追加・更新 refresh_
site_cache
配信

人間もLLMも同じ原本を更新 ──履歴で管理

実演①

entry_research("itak") — 1コールで接地

{
  "query": "itak",
  "scripts": {"latn":"itak", "kana":"イタㇰ", "cyrl":"итак"},
  "syllables": ["i", "tak"],
  "glossary": [    // 既存語彙集ヒット 計10+件
    { "category": "linguistics",
      "fields": {"日本語":"言語、言葉", "Aynu":"itak"} }, …],
  "dictionaries": [    // 辞書横断 計12件(1630–1898)
    { "dictionary": "1743_Steller_Kuril-Ainu-Vocab…", …}, …],
  "corpus": [    // コーパス用例 計8件
    { "text": "…tanto teta ku=ye kusune itak anakne…", …}, …]
}
1コール = 5系統
接地材料をまとめて取得

文字転写・音節分割・既存語彙集・辞書横断・コーパス用例を一括で合成 ──ラウンドトリップ不要

「itak」コーパス頻度ランク35位 / 6,391回
起案に要る根拠を検索でそろえ、そのままLLMに渡す
実演①

提案 → 追加 → 監査のループ

entry_research
接地材料
LLMが起案
語彙集エントリ案
glossary_add_entry
Sheetsに追加
Google Sheets
原本
glossary_audit
missing_high_frequency
合成 提案 append 整合性・ギャップ
glossary_audit
整合性チェック

=an+N1の不整合・括弧混入・他動性不一致・重複語形を機械的に検出

missing_high_frequency
カバレッジのギャップ

コーパス高頻度かつ辞書収録済み、だが語彙集に無い語を作業リストで返す

07
07実演②
資料を集め、
正しく積み上げる
db.aynu.org / アイヌ語文献資料データベース(ainu-sources)
実演②

db.aynu.org ── 「どこに何があるか」を一望する

文献学KB SvelteKit + Turso

古文書・辞書・口承資料・研究文献を一つの構造化DBに集約 ──誰が・どこで・何を記録したかをたどれる

規模:初期シード 237件 →現在 5,718件 ──自動収集(CiNii・NDL 等 20系統)+手動キュレーション

エンティティ・モデル
資料 sources中心 ── 題名・型・分類を必須に
人物 persons著者・記録者・話者・研究者
地点 places緯度経度 → 地図に表示
機関 institutions所蔵・出版・電子化
関係 relations引用・異本・派生の網
改訂 revisions全編集を JSON で保存

地図 ── 資料の言及地域・記録地(実画面)

年表 ── 17世紀4件 → 21世紀2,863件(実画面)

実演②

LLMで書誌を集める・整える

構造化された提案

LLMは sources_searchsource_get既存レコードを確認 ──抜け・誤りがあればsource_add / source_update書誌情報を構造化して渡す

必須は題名・型・分類の3項目 ──分類は既定値なしの列挙型で明示的に選ばせる

source_update渡した項目だけ変える PATCH

検索 → 重複回避 → 型つき投入 → 改訂履歴

> sources_search("Batchelor")
{
  "total": 39,
  "results": [
    { "slug": "1938-batchelor-...-4ed",
      "title": "アイヌ・英・和辭典 第四版",
      "type": "dictionary",
      "category": "primary",
      "author": "Batchelor, John",
      "yearText": "1938" },
    ... 38 件 ]
}
大量収集は決定的ハーベスタの仕事 ──LLMは抜けの発見と補修・キュレーションを担う
実演②

正確性と一貫性をどう担保するか

提案 LLM

既存を確認し、source_add 用のレコードを下書き ──型つき投入自由生成を抑える

確定 人間

改訂履歴GitHubアカウント・編集要約・スナップショットが残り、人間がレビューする

来歴 provenance

全行が「どの repo・どのファイル由来か」と外部ID(DOI 等)を保持 ──編集はJSONスナップショットで完全に履歴化

人間レビューの場

/historyレコード別の監査証跡、/audit公開の品質ダッシュボード

LLMは提案、検証は機械、確定は人間 ──ハルシネーションの混入を構造的に防ぐ
実演②

低資源言語インフラの作り方(一般化)

設計レシピ

原本は人間可編集なストアに ──DBはそこからシードする派生物

決定的な検索・検証ツールLLMより先に用意する

型つきの投入口 を設け、不正値は入る前に弾く

運用レシピ

書き込みは権限ゲート で守り、LLMの提案と人間の確定を分ける

全編集に来歴 を残す(誰が・いつ・何を)

一つの MCP に集約 ──どのLLMからも同じ口で読み書き

どの要素もアイヌ語固有ではなく、他の低資源言語にも応用できる
08
08考察
何がうまくいき、
何が課題として残るか
うまくいったこと/限界/倫理と権利/展望
考察

成果と限界

うまくいったこと

生成より検索 ──頻度・辞書・形態素は道具の返り値で接地

・原本は人の手の届く場所に ──Sheets も資料DBも直接直せる

書き込める者を絞る ──OAuth+オルグ限定

出どころを遡れる ──出典・改訂履歴・投入者

限界

評価が未整備 ──提案の正確さを測る系統的な基準がまだ無い

カバレッジの偏り ──方言・時代・分野で資料の厚みが違う

レビューコスト ──提案は速いが、確定には人間の検証が要る

人間レビューを前提にした設計上のコスト

考察

倫理と権利

先住民言語のデータとして

資料は口承文芸の筆録や民族誌などの刊行物に由来し、権利は個々の出典に従う

リポジトリのライセンスはコードとスキーマに限られ、資料の内容には及ばない

辞書リポジトリでは出典ごとに license: を記録 ──古い資料も含め権利状態を個別に確認、近代の辞書には留保・第三者権利のものも

方針 再利用の前に各出典のメタデータを確認する

権利ゲートと来歴

権利ゲート付きアクセス ──非公開repoは非公開のまま参照

・権利制約のある資料は索引越しに照会 ──一括出力はせず、出典URI・刊行機関を必ず添えて返す

来歴provenance ──全ての編集に出典・改訂履歴・投入者を紐づけ、どこから来た情報かを追える

語彙集(ainu-glossary)は MIT で公開 ──他は出典の条件に従い、一律化はしない

考察

展望 ── 2024年からの進捗と、これから

2024年5月の展望 → 現在
コーパスの拡張 延べ 89.7万 → 148.8万語・196,095文 詳細な調査 形態素DB・樺太参照文法 現代的なアイヌ語 語彙集 itak.aynu.org ── 造語の整理・追加 言語モデル MCP×LLM の運用・TTS ベースライン

本研究会 2024年5月発表で挙げた4項目

これから

・接地提案の評価手法 ──正確さを系統的に測る

・資料カバレッジの拡大 ──方言・時代の偏りを埋める

・TTS の品質向上と語学教育への展開

・レシピの他言語への移植

多くの言語を上回る研究基盤アイヌ語に ──作り続け、更新し続ける
謝辞

ありがとうございました

aynu.orgQR: aynu.orgプロジェクト総覧
mcp.aynu.orgQR: mcp.aynu.orgMCPサーバ
db.aynu.orgQR: db.aynu.org資料DB
itak.aynu.orgQR: itak.aynu.org語彙集
researchmapQR: researchmap yocjyetyocjyet

謝辞:白鳥詩織氏(京都大学)・春日勇人氏(京都芸術大学)── 辞書資料のご提供、語誌研究のご教示と着想 /前田驍氏(神戸大学)── 項構造文法の議論 /五十嵐涼氏(SmartHR)・宮川創氏(筑波大学)── コーパス共同制作 /Nick Overacker氏(北見工業大学)── 処理手法の着想 /Bor Hodošček 准教授・田畑智司 教授(大阪大学)

音声・資料:田村すず子氏(録音 1976–84)と話者 川上まつ子氏・木村キミ氏、AA研・国立国語研究所ほか資料を守り継ぐ機関の皆さまに深謝