共同研究プロジェクト「テクストアナリティクスとデジタルヒューマニティーズ」研究会 · 2026年6月12日(金)

itak

イタㇰ

アイヌ語資源とLLMをつなぐ

RAGによる低資源言語研究基盤の構築と運用

于拙（うせつ）字朴之（ぼくし）Yo, Cjyet 大阪大学大学院人文学研究科言語文化学専攻博士後期課程二年 https://researchmap.jp/yocjyet ／ contact@yocjyet.dev

researchmap

01

01背景

散在する資源、
幻覚するLLM

低資源言語としてのアイヌ語

背景

アイヌ語の現状

消滅危機言語

話者の現状

UNESCO 2009 「極めて深刻」に分類、当時の推定母語話者は約15人現在日常の母語話者は事実上確認されていない一方で熟練話者・学習者が育ち、復興活動が続いている

「消滅」の認定そのものが政治的・社会的に単純ではない（樺太方言にも残存の報告がある）

1621 → 現在

どんな資料が残されているか

一次資料古記録（最古は1621年）、口承文芸の筆録、録音二次資料辞書・語彙集・文法書・研究文献・目録現代教材・ツール・デジタル化資料

量では多くの低資源言語より恵まれている

無かったのは、大規模コーパスと横断利用の仕組み ──作るところから始めた

背景

LLMのハルシネーション ── 低資源言語で深刻化

なぜ起きるか

学習データが薄い

アイヌ語のテキストは学習データにほとんど含まれない

不足をそれらしい出力で埋めるため、綴り・訳・出典の捏造が起きる

誤りに気づける話者が少なく、検証も働きにくい

LLM生成とみられるでたらめなアイヌ語を配信するYouTubeチャンネルも現れている

ハルシネーションの型

綴り表記法が混在する語形実在しない語を作る語義別の意味で使う文法流暢だが非文翻訳でたらめでも堂々と出典実在しない文献を引く言語別の言語で答える過剰生成同じ句を延々と繰り返す

いずれの型も本研究の作業中に実際に遭遇した

背景

方針 ── 検索・検証ツールに接地groundingする

アプローチ

tool-calling RAG

整備した資源を検索・検証するツール群をLLMに与え、回答と編集はその返り値に根拠を置く

検索・転写・照合は決定的deterministicなツールが担当 ──LLMは結果を組み立てる

接地の流れ

LLMが道具を呼ぶ

資源が典拠つきの事実を返す

根拠の上で回答・編集

ハルシネーションの余地を構造的に狭める

目標　接地と検証を備えた基盤で、アイヌ語の研究・利用環境を多くの言語を上回る水準へ

02

02MCP核心

LLMに「道具」を
持たせる

mcp.aynu.org ／散在する資源を1つのサーバに束ねる（初報告）

MCP

MCPとは ── LLMに「道具」を渡す共通規格

30秒で

モデルの外に「道具箱」を置く

MCP（Model Context Protocol）──名の通り「モデルに文脈を渡す」共通規格

USB-Cのように1つの口でどのクライアントともつながる

読み（検索）にも書き（編集・収集）にも、LLMは返り値に根拠を置く

接続は1ブロック

{ "mcpServers": {
    "ainu": {
      "type": "http",
      "url": "https://mcp.aynu.org/mcp"
} } }

.mcp.json にこれだけ ──クライアントを選ばない

アイヌ語資源向けに36ツールを実装 ──mcp.aynu.org

MCP

アーキテクチャ ── 資源を1つのサーバに束ねる

データ repo 群

コーパス
196,095文

辞書 80点
1621–2024

形態素DB・文法書誌

Python ETL
GitHub Action

Turso
libSQL・FTS5

MCPサーバ
mcp.aynu.org
36ツール

GitHub
OAuth

LLMクライアント
Claude / Claude Code

Google Sheets
語彙集の原本

月次シード検索・参照 MCP接続認証読み書き直結

データ層人間層 LLM/MCP層

語彙集の原本はGoogle Sheets ──月次再シードを経由せず、常に最新を読み書き

MCP

36ツール ── 資源の全層を覆う

コーパス・頻度 · 5196,095文の検索・頻度・統計

辞書 · 380点（1621–2024）横断・逆引き

形態素・語彙素 · 3結合価付き分解（mdb.aynu.org）

文法 · 3書誌・全文検索＋決定的チェック

文字転写 · 3ラテン↔カナ↔キリル（ainconv）

wiki・i18n · 4Aynuwiki記事・ソフト翻訳の検索

語彙集 · 10読5・書2・メンテ3 → 実演①

資料DB · 4検索・書誌投入 → 実演②

統合リサーチ · 1entry_research 1コール合成

MCP

アクセス制御と月次自動更新

アクセス制御読みは認証のみ、書きは組織限定

認証はGitHub OAuth ──読み取り29ツールは認証ユーザー全員に開放

本文は一括出力せず、断片と統計のみ返す（権利配慮）

書き込み・メンテ7ツールはaynumosir org メンバー限定 ──非メンバーには登録すらされない（権限ゲートをプロトコル層に）

月次自動更新毎月1日、参照データを再生成

GitHub Action が毎月1日（JST 3:30）に3つのデータ repo からETLを回し、Turso をin-place 再シード（再デプロイ不要）

安全ゲート付き ──生成されたシードが異常に小さければ、本番DBに触れる前に中断

語彙集（Google Sheets 直結）は常に最新のため再シードの対象外

認証・権限ゲート・自動更新 ──本番運用の継続性を仕組みで支える

03

03全景

何を、
束ねているのか

aynu.org ファミリー／データ層と公開サイト群

全景

アイヌ語資源のエコシステム

データ層

コーパス
196,095文

辞書 80点
1621–2024

形態素DB
文法書誌

文字転写
ainconv

mcp.aynu.org
MCP・36ツール

LLMエージェント
Claude 等

公開サイトファミリー

itak.aynu.org
語彙集

db.aynu.org
資料DB

itah.aynu.org
樺太辞書・文法

quiz / TTS / wiki
ほか

接地 MCP 読み書き資料収集ビルド・公開

データ層人間層 LLM/MCP層 30近いリポジトリ ──9つのaynu.orgドメインで公開

全景

課題から作る ── 動機 → プロダクト

いまの概念を何と言うか

→

itak.aynu.org現代語彙・造語の分類語彙集

正しさをどう担保するか

→

db.aynu.org資料DB ── 出典・来歴・改訂履歴

語の内部構造を計算する

→

mdb.aynu.org形態素DB ── 結合価の逐次計算

樺太方言を記述する

→

itah.aynu.org辞書 2,764語＋参照文法

聞いて学べるように

→

ainu-tts音声合成 ── このあと紹介

楽しく覚える

→

quiz.aynu.org語彙クイズ

LLMから横断的に使う

→

mcp.aynu.org36ツール ── 統合の要

コーパスは本研究会2024年5月報告（于拙・五十嵐涼・宮川創）から延べ約89.7万語 → 148.8万語に成長（CH135・修士論文でも報告）

全景

コーパス ── すべての土台

規模と歩み

現在延べ 1,487,681 トークン、196,095文（2026-06）制作于拙・五十嵐涼・宮川創の共同制作歩み本研究会2024年5月報告の延べ約89.7万語から成長（CH135・修士論文でも報告）

内訳（文数・上位）

沙流 77,964文静内 43,295文鵡川 13,424文

出典資料の構成であり、方言の分類ではない

本文は権利の関係で一括公開できない ──OAuth越しに断片と統計のみ返す

全景

樺太アイヌ語 ── itah.aynu.org

辞書と文法

記述をひとつのサイトに

樺太アイヌ語辞書 2,764語 ──用例・出典つき

参照文法全29章 ──音韻論から節連結まで

樺太方言（itah）は北海道方言（itak）と異なる変種 ──20世紀前半に自然継承が途絶

方言間対応

北海道方言との語彙対応

自動対応付け 667件＋手動キュレーション 53件

対応は辞書エントリに表示され、方言間の比較に使える

対応付けは検証途上 ──誤対応の洗い出しを継続中

全景

辞書資料 ── 80点をデジタル化する

集めたもの

点数 80点（1621–2024）規模計約15.5万行の見出し・対訳データ最大バチェラー『アイヌ・英・和辭典』（1938・第4版）形式資料ごとに正規化したTSV＋出典メタデータ

作り方

① スキャン・画像調整（人手） ② LLMによるOCRと構造化 ③ 整合性チェック（機械的に検出） ④ 人手レビューで確定

難所は時代ごとの正書法・活字・略号の揺れ ──資料ごとの記法は保存し、出典を追跡できる形で残す

集めた辞書から、語の内部構造の記述へ

04

04形態素DB

語を、
形態素まで分解する

mdb.aynu.org ／結合価を計算する辞書データベース

形態素

形態素データベース ── 語の内部構造を計算する

CH研究会奨励賞受賞于拙「アイヌ語形態素データベースの構築と応用」情報処理学会CH141・2026年5月16日・大阪大学

何か

形態素を記述の基本単位に

複統合的・抱合的なアイヌ語では語より形態素が自然な単位 ──結合価（valency）を付与した辞書DB

接辞付加・名詞抱合に項の増減・内部化の局所規則を与え、実効結合価を逐次計算

結合価の計算 ── 簡略化した導出例

nukar「〜を見る」を起点に、局所規則の逐次適用で項構造が変化：

形式	結合価	操作
`nukar`	2	基底
`nukar-e`	3	`-e`：使役主を追加 (＋1)
`si-nukar-e`	2	`si-`：項の内部化 (−1)

抱合構造と結合価を計算する辞書DB ──13,929 エントリ

形態素

サイトと作り方 ── パイプライン＋Webエクスプローラ

作り方

Python パイプライン → Webエクスプローラ

① NINJAL 口承文芸コーパス・複数辞書（萱野・田村・中川等）・Wiktionary から形態素候補を収集

uv run python -m morpheme_db.cli build

② 結合価エンジンをTypeScript に移植 ──SvelteKit が組成木を SSR、Cloudflare Workers へ自動デプロイ

サイト

mdb.aynu.org

異形態・結合価・出典・組成木をブラウザで検索・閲覧

スタックSvelteKit 2 / Svelte 5 / Cloudflare Workers 規模13,929 エントリ（検証済み 338）

05

05音声

聞いて学べる
アイヌ語へ

ainu-tts ／ Piper（VITS）ベースライン

音声

アイヌ語TTS ── 音声で学べるアイヌ語へ

モデルとデータ

Piper（VITS）多話者ベースライン

田村すず子録音（1976–84・AA研）とNINJAL口承文芸コーパスから11,009発話・13.6時間を整音

沙流方言2話者（川上まつ子・木村キミ）でベースライン学習済み

録音は研究利用ライセンス ──合成音声の公開範囲も権利に従い限定

特定話者の声の再現は避け、没個人化depersonalizationした声で合成する方針

LLMと作る

パイプラインはLLMと構築

収集・整音・分割・学習・評価UIの実装は Claude Code と構築

学習は vast.ai のA100 40GB を時間借り（3日間）──監視・復旧・予算管理まで自動化

G2P（書記素→音素）は自作ライブラリ ainconv で決定的に処理

語学教育の補助が目標 ──まず Duostories 教材へ音声を供給

06

06実演①

語彙集を
LLMと編集する

itak.aynu.org（Itak-uoeroskip 現代語彙集）／原本は Google Sheets

実演①

原本はGoogle Sheets、サイトは鏡像

itak.aynu.org

翻訳のための現代語彙集

Tane an Aynuitak-kotupte Itak-uoeroskip

アイヌ語に翻訳するための分類語彙集 ──「いま何と言うか」を与える

造語を大規模に収めた最新の辞書太田満『和愛辞典』（2022）を含む出典を参照し ──語彙集はそうした出典を参照し翻訳用に整理

「itak」の語彙集ヒット 63件／ 9カテゴリ

原本＝Google Sheets

書き込みは原本へ直結

サイトはSheetsを実時間で読まず、R2のサイトキャッシュ（table.json）を配信

Google Sheets
語彙集の原本

itak.aynu.org
（SvelteKit）

mcp.aynu.org
書き込みツール

R2
サイトキャッシュ

追加・更新 refresh_
site_cache 配信

人間もLLMも同じ原本を更新 ──履歴で管理

実演①

`entry_research("itak")` — 1コールで接地

{
  "query": "itak",
  "scripts": {"latn":"itak", "kana":"イタㇰ", "cyrl":"итак"},
  "syllables": ["i", "tak"],
  "glossary": [    // 既存語彙集ヒット 計10+件
    { "category": "linguistics",
      "fields": {"日本語":"言語、言葉", "Aynu":"itak"} }, …],
  "dictionaries": [    // 辞書横断 計12件（1630–1898）
    { "dictionary": "1743_Steller_Kuril-Ainu-Vocab…", …}, …],
  "corpus": [    // コーパス用例 計8件
    { "text": "…tanto teta ku=ye kusune itak anakne…", …}, …]
}

1コール＝ 5系統

接地材料をまとめて取得

文字転写・音節分割・既存語彙集・辞書横断・コーパス用例を一括で合成 ──ラウンドトリップ不要

「itak」コーパス頻度ランク35位／ 6,391回

起案に要る根拠を検索でそろえ、そのままLLMに渡す

実演①

提案 → 追加 → 監査のループ

entry_research
接地材料

LLMが起案
語彙集エントリ案

glossary_add_entry
Sheetsに追加

Google Sheets
原本

glossary_audit
missing_high_frequency

合成提案 append 整合性・ギャップ

glossary_audit

整合性チェック

=an＋N1の不整合・括弧混入・他動性不一致・重複語形を機械的に検出

missing_high_frequency

カバレッジのギャップ

コーパス高頻度かつ辞書収録済み、だが語彙集に無い語を作業リストで返す

07

07実演②

資料を集め、
正しく積み上げる

db.aynu.org ／アイヌ語文献資料データベース（ainu-sources）

実演②

db.aynu.org ── 「どこに何があるか」を一望する

文献学KB SvelteKit + Turso

古文書・辞書・口承資料・研究文献を一つの構造化DBに集約 ──誰が・どこで・何を記録したかをたどれる

規模：初期シード 237件 →現在 5,718件 ──自動収集（CiNii・NDL 等 20系統）＋手動キュレーション

エンティティ・モデル

資料 sources中心 ── 題名・型・分類を必須に

人物 persons著者・記録者・話者・研究者

地点 places緯度経度 → 地図に表示

機関 institutions所蔵・出版・電子化

関係 relations引用・異本・派生の網

改訂 revisions全編集を JSON で保存

地図 ── 資料の言及地域・記録地（実画面）

年表 ── 17世紀4件 → 21世紀2,863件（実画面）

実演②

LLMで書誌を集める・整える

構造化された提案

LLMは sources_search ・ source_get で既存レコードを確認 ──抜け・誤りがあればsource_add / source_update に書誌情報を構造化して渡す

必須は題名・型・分類の3項目 ──分類は既定値なしの列挙型で明示的に選ばせる

source_update は渡した項目だけ変える PATCH

検索 → 重複回避 → 型つき投入 → 改訂履歴

> sources_search("Batchelor")
{
  "total": 39,
  "results": [
    { "slug": "1938-batchelor-...-4ed",
      "title": "アイヌ・英・和辭典 第四版",
      "type": "dictionary",
      "category": "primary",
      "author": "Batchelor, John",
      "yearText": "1938" },
    ... 38 件 ]
}

大量収集は決定的ハーベスタの仕事 ──LLMは抜けの発見と補修・キュレーションを担う

実演②

正確性と一貫性をどう担保するか

提案 LLM

既存を確認し、source_add 用のレコードを下書き ──型つき投入で自由生成を抑える

→

検証機械（多層）

スキーマ（必須3項目・列挙型）→orgゲート＋トークン →サーバ再検証 →DB制約 ──不正値は入る前に弾く

→

確定人間

改訂履歴にGitHubアカウント・編集要約・スナップショットが残り、人間がレビューする

来歴 provenance

全行が「どの repo・どのファイル由来か」と外部ID（DOI 等）を保持 ──編集はJSONスナップショットで完全に履歴化

人間レビューの場

/history はレコード別の監査証跡、/audit は公開の品質ダッシュボード

LLMは提案、検証は機械、確定は人間 ──ハルシネーションの混入を構造的に防ぐ

実演②

低資源言語インフラの作り方（一般化）

設計レシピ

• 原本は人間可編集なストアに ──DBはそこからシードする派生物

• 決定的な検索・検証ツール をLLMより先に用意する

• 型つきの投入口 を設け、不正値は入る前に弾く

運用レシピ

• 書き込みは権限ゲート で守り、LLMの提案と人間の確定を分ける

• 全編集に来歴 を残す（誰が・いつ・何を）

• 一つの MCP に集約 ──どのLLMからも同じ口で読み書き

どの要素もアイヌ語固有ではなく、他の低資源言語にも応用できる

08

08考察

何がうまくいき、
何が課題として残るか

うまくいったこと／限界／倫理と権利／展望

考察

成果と限界

うまくいったこと

・生成より検索 ──頻度・辞書・形態素は道具の返り値で接地

・原本は人の手の届く場所に ──Sheets も資料DBも直接直せる

・書き込める者を絞る ──OAuth＋オルグ限定

・出どころを遡れる ──出典・改訂履歴・投入者

限界

・評価が未整備 ──提案の正確さを測る系統的な基準がまだ無い

・カバレッジの偏り ──方言・時代・分野で資料の厚みが違う

・レビューコスト ──提案は速いが、確定には人間の検証が要る

人間レビューを前提にした設計上のコスト

考察

倫理と権利

先住民言語のデータとして

資料は口承文芸の筆録や民族誌などの刊行物に由来し、権利は個々の出典に従う

リポジトリのライセンスはコードとスキーマに限られ、資料の内容には及ばない

辞書リポジトリでは出典ごとに license: を記録 ──古い資料も含め権利状態を個別に確認、近代の辞書には留保・第三者権利のものも

方針再利用の前に各出典のメタデータを確認する

権利ゲートと来歴

・権利ゲート付きアクセス ──非公開repoは非公開のまま参照

・権利制約のある資料は索引越しに照会 ──一括出力はせず、出典URI・刊行機関を必ず添えて返す

・来歴provenance ──全ての編集に出典・改訂履歴・投入者を紐づけ、どこから来た情報かを追える

語彙集（ainu-glossary）は MIT で公開 ──他は出典の条件に従い、一律化はしない

考察

展望 ── 2024年からの進捗と、これから

2024年5月の展望 → 現在

コーパスの拡張延べ 89.7万 → 148.8万語・196,095文詳細な調査形態素DB・樺太参照文法現代的なアイヌ語語彙集 itak.aynu.org ── 造語の整理・追加言語モデル MCP×LLM の運用・TTS ベースライン

本研究会 2024年5月発表で挙げた4項目

これから

・接地提案の評価手法 ──正確さを系統的に測る

・資料カバレッジの拡大 ──方言・時代の偏りを埋める

・TTS の品質向上と語学教育への展開

・レシピの他言語への移植

多くの言語を上回る研究基盤をアイヌ語に ──作り続け、更新し続ける

謝辞

ありがとうございました

aynu.org

プロジェクト総覧

mcp.aynu.org QR: mcp.aynu.org

MCPサーバ

db.aynu.org QR: db.aynu.org

資料DB

itak.aynu.org QR: itak.aynu.org

語彙集

researchmap QR: researchmap yocjyet

yocjyet

謝辞：白鳥詩織氏（京都大学）・春日勇人氏（京都芸術大学）── 辞書資料のご提供、語誌研究のご教示と着想　／前田驍氏（神戸大学）── 項構造文法の議論　／五十嵐涼氏（SmartHR）・宮川創氏（筑波大学）── コーパス共同制作　／Nick Overacker氏（北見工業大学）── 処理手法の着想　／Bor Hodošček 准教授・田畑智司教授（大阪大学）

音声・資料：田村すず子氏（録音 1976–84）と話者川上まつ子氏・木村キミ氏、AA研・国立国語研究所ほか資料を守り継ぐ機関の皆さまに深謝