RAGによる低資源言語研究基盤の構築と運用
「消滅」の認定そのものが政治的・社会的に単純ではない(樺太方言にも残存の報告がある)
量では多くの低資源言語より恵まれている
無かったのは、大規模コーパスと横断利用の仕組み ──作るところから始めた
アイヌ語のテキストは学習データにほとんど含まれない
不足をそれらしい出力で埋めるため、綴り・訳・出典の捏造が起きる
誤りに気づける話者が少なく、検証も働きにくい
LLM生成とみられるでたらめなアイヌ語を配信するYouTubeチャンネルも現れている
いずれの型も本研究の作業中に実際に遭遇した
整備した資源を検索・検証するツール群をLLMに与え、回答と編集はその返り値に根拠を置く
検索・転写・照合は決定的なツールが担当 ──LLMは結果を組み立てる
ハルシネーションの余地を構造的に狭める
MCP(Model Context Protocol)──名の通り「モデルに文脈を渡す」共通規格
USB-Cのように1つの口でどのクライアントともつながる
読み(検索)にも書き(編集・収集)にも、LLMは返り値に根拠を置く
{ "mcpServers": {
"ainu": {
"type": "http",
"url": "https://mcp.aynu.org/mcp"
} } }.mcp.json にこれだけ ──クライアントを選ばない
データ層 人間層 LLM/MCP層
語彙集の原本はGoogle Sheets ──月次再シードを経由せず、常に最新を読み書き
entry_research 1コール合成認証はGitHub OAuth ──読み取り29ツールは認証ユーザー全員に開放
本文は一括出力せず、断片と統計のみ返す(権利配慮)
書き込み・メンテ7ツールはaynumosir org メンバー限定 ──非メンバーには登録すらされない(権限ゲートをプロトコル層に)
GitHub Action が毎月1日(JST 3:30)に3つのデータ repo からETLを回し、Turso をin-place 再シード(再デプロイ不要)
安全ゲート付き ──生成されたシードが異常に小さければ、本番DBに触れる前に中断
語彙集(Google Sheets 直結)は常に最新のため再シードの対象外
認証・権限ゲート・自動更新 ──本番運用の継続性を仕組みで支える
データ層 人間層 LLM/MCP層 30近いリポジトリ ──9つのaynu.orgドメインで公開
コーパスは本研究会2024年5月報告(于拙・五十嵐涼・宮川創)から延べ約89.7万語 → 148.8万語に成長(CH135・修士論文でも報告)
出典資料の構成であり、方言の分類ではない
樺太アイヌ語辞書 2,764語 ──用例・出典つき
参照文法 全29章 ──音韻論から節連結まで
樺太方言(itah)は北海道方言(itak)と異なる変種 ──20世紀前半に自然継承が途絶
自動対応付け 667件+手動キュレーション 53件
対応は辞書エントリに表示され、方言間の比較に使える
対応付けは検証途上 ──誤対応の洗い出しを継続中
難所は時代ごとの正書法・活字・略号の揺れ ──資料ごとの記法は保存し、出典を追跡できる形で残す
集めた辞書から、語の内部構造の記述へ
CH研究会 奨励賞 受賞于拙「アイヌ語形態素データベースの構築と応用」情報処理学会CH141・2026年5月16日・大阪大学
複統合的・抱合的なアイヌ語では語より形態素が自然な単位 ──結合価(valency)を付与した辞書DB
接辞付加・名詞抱合に項の増減・内部化の局所規則を与え、実効結合価を逐次計算
nukar「〜を見る」を起点に、局所規則の逐次適用で項構造が変化:
| 形式 | 結合価 | 操作 |
|---|---|---|
nukar | 2 | 基底 |
nukar-e | 3 | -e:使役主を追加 (+1) |
si-nukar-e | 2 | si-:項の内部化 (−1) |
① NINJAL 口承文芸コーパス・複数辞書(萱野・田村・中川等)・Wiktionary から形態素候補を収集
uv run python -m morpheme_db.cli build② 結合価エンジンをTypeScript に移植 ──SvelteKit が組成木を SSR、Cloudflare Workers へ自動デプロイ
異形態・結合価・出典・組成木をブラウザで検索・閲覧
田村すず子録音(1976–84・AA研)とNINJAL口承文芸コーパスから11,009発話・13.6時間を整音
沙流方言2話者(川上まつ子・木村キミ)でベースライン学習済み
録音は研究利用ライセンス ──合成音声の公開範囲も権利に従い限定
特定話者の声の再現は避け、没個人化した声で合成する方針
収集・整音・分割・学習・評価UIの実装は Claude Code と構築
学習は vast.ai のA100 40GB を時間借り(3日間)──監視・復旧・予算管理まで自動化
G2P(書記素→音素)は自作ライブラリ ainconv で決定的に処理
語学教育の補助が目標 ──まず Duostories 教材へ音声を供給
Tane an Aynuitak-kotupte Itak-uoeroskip
アイヌ語に翻訳するための分類語彙集 ──「いま何と言うか」を与える
造語を大規模に収めた最新の辞書太田満『和愛辞典』(2022)を含む出典を参照し ──語彙集はそうした出典を参照し翻訳用に整理
「itak」の語彙集ヒット 63件 / 9カテゴリ
サイトはSheetsを実時間で読まず、R2のサイトキャッシュ(table.json)を配信
人間もLLMも同じ原本を更新 ──履歴で管理
entry_research("itak") — 1コールで接地{
"query": "itak",
"scripts": {"latn":"itak", "kana":"イタㇰ", "cyrl":"итак"},
"syllables": ["i", "tak"],
"glossary": [ // 既存語彙集ヒット 計10+件
{ "category": "linguistics",
"fields": {"日本語":"言語、言葉", "Aynu":"itak"} }, …],
"dictionaries": [ // 辞書横断 計12件(1630–1898)
{ "dictionary": "1743_Steller_Kuril-Ainu-Vocab…", …}, …],
"corpus": [ // コーパス用例 計8件
{ "text": "…tanto teta ku=ye kusune itak anakne…", …}, …]
}文字転写・音節分割・既存語彙集・辞書横断・コーパス用例を一括で合成 ──ラウンドトリップ不要
entry_researchglossary_add_entryglossary_auditmissing_high_frequency=an+N1の不整合・括弧混入・他動性不一致・重複語形を機械的に検出
コーパス高頻度かつ辞書収録済み、だが語彙集に無い語を作業リストで返す
古文書・辞書・口承資料・研究文献を一つの構造化DBに集約 ──誰が・どこで・何を記録したかをたどれる
規模:初期シード 237件 →現在 5,718件 ──自動収集(CiNii・NDL 等 20系統)+手動キュレーション
地図 ── 資料の言及地域・記録地(実画面)
年表 ── 17世紀4件 → 21世紀2,863件(実画面)
LLMは sources_search ・ source_get で既存レコードを確認 ──抜け・誤りがあればsource_add / source_update に書誌情報を構造化して渡す
必須は題名・型・分類の3項目 ──分類は既定値なしの列挙型で明示的に選ばせる
source_update は渡した項目だけ変える PATCH
検索 → 重複回避 → 型つき投入 → 改訂履歴
> sources_search("Batchelor") { "total": 39, "results": [ { "slug": "1938-batchelor-...-4ed", "title": "アイヌ・英・和辭典 第四版", "type": "dictionary", "category": "primary", "author": "Batchelor, John", "yearText": "1938" }, ... 38 件 ] }
提案 LLM
既存を確認し、source_add 用のレコードを下書き ──型つき投入で自由生成を抑える
検証 機械(多層)
スキーマ(必須3項目・列挙型)→orgゲート+トークン →サーバ再検証 →DB制約 ──不正値は入る前に弾く
確定 人間
改訂履歴にGitHubアカウント・編集要約・スナップショットが残り、人間がレビューする
全行が「どの repo・どのファイル由来か」と外部ID(DOI 等)を保持 ──編集はJSONスナップショットで完全に履歴化
/history はレコード別の監査証跡、/audit は公開の品質ダッシュボード
• 原本は人間可編集なストアに ──DBはそこからシードする派生物
• 決定的な検索・検証ツール をLLMより先に用意する
• 型つきの投入口 を設け、不正値は入る前に弾く
• 書き込みは権限ゲート で守り、LLMの提案と人間の確定を分ける
• 全編集に来歴 を残す(誰が・いつ・何を)
• 一つの MCP に集約 ──どのLLMからも同じ口で読み書き
・生成より検索 ──頻度・辞書・形態素は道具の返り値で接地
・原本は人の手の届く場所に ──Sheets も資料DBも直接直せる
・書き込める者を絞る ──OAuth+オルグ限定
・出どころを遡れる ──出典・改訂履歴・投入者
・評価が未整備 ──提案の正確さを測る系統的な基準がまだ無い
・カバレッジの偏り ──方言・時代・分野で資料の厚みが違う
・レビューコスト ──提案は速いが、確定には人間の検証が要る
人間レビューを前提にした設計上のコスト
資料は口承文芸の筆録や民族誌などの刊行物に由来し、権利は個々の出典に従う
リポジトリのライセンスはコードとスキーマに限られ、資料の内容には及ばない
辞書リポジトリでは出典ごとに license: を記録 ──古い資料も含め権利状態を個別に確認、近代の辞書には留保・第三者権利のものも
方針 再利用の前に各出典のメタデータを確認する
・権利ゲート付きアクセス ──非公開repoは非公開のまま参照
・権利制約のある資料は索引越しに照会 ──一括出力はせず、出典URI・刊行機関を必ず添えて返す
・来歴 ──全ての編集に出典・改訂履歴・投入者を紐づけ、どこから来た情報かを追える
語彙集(ainu-glossary)は MIT で公開 ──他は出典の条件に従い、一律化はしない
本研究会 2024年5月発表で挙げた4項目
・接地提案の評価手法 ──正確さを系統的に測る
・資料カバレッジの拡大 ──方言・時代の偏りを埋める
・TTS の品質向上と語学教育への展開
・レシピの他言語への移植
謝辞:白鳥詩織氏(京都大学)・春日勇人氏(京都芸術大学)── 辞書資料のご提供、語誌研究のご教示と着想 /前田驍氏(神戸大学)── 項構造文法の議論 /五十嵐涼氏(SmartHR)・宮川創氏(筑波大学)── コーパス共同制作 /Nick Overacker氏(北見工業大学)── 処理手法の着想 /Bor Hodošček 准教授・田畑智司 教授(大阪大学)
音声・資料:田村すず子氏(録音 1976–84)と話者 川上まつ子氏・木村キミ氏、AA研・国立国語研究所ほか資料を守り継ぐ機関の皆さまに深謝