VNEXTの会社紹介資料
2023/11/19
2022年11月に米国のOpenAI社が発表したChatGPTは、今や生成AIの代表的存在となっています。
生成AIサービスがブームとなっている昨今、ChatGPTをはじめとする膨大なテキストデータを学習する”大規模言語モデル(LLM)”は増加の一途を
辿っています。
本記事では、ChatGPTなどの基盤となっている「大規模言語モデル(LLM)」について、仕組みや種類、活用事例を詳しく解説していきます。
目次
|大規模言語モデル(LLM)とは?
大規模言語モデル(Large Language Models、LLM)とは、大量のデータセットとディープラーニング技術を用いて構築された言語モデルです。
簡単に言うと、膨大なテキストデータから言語のパターンを学習し、テキスト生成や要約などのテキストに関わるタスクを高い精度で行うことが
できるモデルのことです。
大規模言語モデル(LLM)の「大規模」とは、以下の3つの要素を大幅に増やして構築されていることが由来となっています。
・計算量:コンピュータが処理する仕事量
・データ量:入力された情報量
・パラメータ数:ディープラーニング技術に特有の係数の集合体
大規模言語モデル(LLM)は、人間に近い流暢な会話が可能であり、自然言語を用いたさまざまな処理を高精度で行えることから、近年世界中で
注目を集めています。
|言語モデルとは
そもそも「言語モデル」とはどのようなものでしょうか?
言語モデルとは、自然言語処理に使われる技術の1つです。
人間が日常的に使用する言語のパターンや言い回し、文法、意味を理解すると同時に、単語の次にどの単語が続くのかを予測することができます。
言語モデルは、文章や単語の ”出現確率” を用いてモデル化します。
たとえば、「人気の果物は?」という単語列に対して「①ぶどう:50%」、「②みかん:30%」、「③もも:10%」、「④スイカ8%」、「⑤キャベツ
2%」といったような出現確率でモデル化しています。
自然な文章に対して高い確率を割り当て、野菜に分類されるスイカやキャベツは低い確率にすることで、違和感の少ない文章の出力を実現できます。
|大規模言語モデル(LLM)と生成AIとの関係性
大規模言語モデル(LLM)は、前述のように「膨大なテキストデータから言語のパターンを学習し、テキスト生成や要約などのテキストに関わる
タスクを高い精度で行うことができるモデル」を指します。
一方、生成AIは「テキスト・画像・音声などを自律的に生成できるAI技術の総称」です。
大規模言語モデル(LLM)は、生成AIの中でも、ChatGPTのような自然言語処理を担うモデルと位置づけられます。
つまり、大規模言語モデル(LLM)は、自然言語処理タスクを解決する生成AIとみなすことができます。
|大規模言語モデル(LLM)の仕組み
次は、大規模言語モデル(LLM)の仕組みをみていきましょう。
まず、大規模言語モデル(LLM)では、大量の学習データによる事前学習(Pre-Training)と、性能を最適化する微調整(Fine-Tuning)の2段階の
プロセスを繰り返します。
|事前学習
大量のテキストデータを収集し、その単語やフレーズの出現パターンを学習する。
|ファインチューニング
一定の学習が終了した言語モデルに対しては、検証用データでテストを行い、パラメータの微調整とモデルの妥当性を判断し、最適化を図る。
その後、LLMが入力(プロンプト)を受け取り、適切な文章を出力するまでの主な流れは、以下のようになっています。
LLMでは、基本的に上図の手順を繰り返し、文書生成が実行されます。
LLMのモデルにより異なる部分はありますが、多くのLLMでは単語や部分単語をトークンとして扱っています。
|大規模言語モデル(LLM)の活用分野
大規模言語モデル(LLM)の活用分野は多岐にわたります。以下はその一部をまとめたものです。
― 質問への回答
― 文章の要約
― 感情分析
― 機械翻訳
― 検索エンジン
― 入力(プロンプト)の続きを予測
― テキスト生成
― 入力されたプログラムのバグチェック
最近では、画像や音声などテキスト以外のデータも学習させたLLMも登場しています。
LLMでは、指示を送る入力(プロンプト)により、さまざまな出力が可能となっています。
|大規模言語モデル(LLM)の種類
LLMにはさまざまなモデルの種類が存在し、ここ数年で多数の大規模言語モデルが発表されています。
以下は、代表的な大規模言語モデル(LLM)の種類を5つご紹介します。
|GPT
GPTとは「Generative Pre-trained Transformer」の略であり、OpenAIが開発した大規模言語モデルです。
OpenAIは2018年に公開した「GPT-1」以降、年々パラメータ数が増え続け、2023年の最新版は「GPT-4」まで登場しています。
ChatGPT登場時の「GPT-3」は、文書生成に特化するようチューニングされたモデルであり、「GPT-4」は、GPT-3に画像や音声などテキスト以外の
データを学習させたモデルとなっています。
GPTについては、以下の記事で詳しく解説していますので合わせてご覧ください!
▶︎ 【GPTってなに?】GPTの仕組みと歴史、活用方法を徹底解説!
|BERT
BERTとは、「Bidirectional Encoder Representations from Transformers」を略した自然言語処理モデルであり、2018年10月にGoogle社の
Jacob Devlin氏らが発表しました。
一般的に、翻訳や文書分類、質問応答といった自然言語処理における仕事の分野を「タスク」と呼びます。
BERTは、この「タスク」において2018年当時の最高スコアを叩き出したことで大きな注目をあびました。
|LaMDA
LaMDAとは、「Language Model for Dialogue Applications」の略で、2021年にGoogle社が発表したLLMです。
LaMDAは、2021年5月に開催されたGoogle主催のカンファレンス「Google I/O」の基調講演にて発表され、2017年にオープンソース化されています。
GPTやBERT同様、ニューラルネットワークアーキテクチャ「Transformer」をベースとしています。
ユーザーとの対話を目的としており、データセットで学習した後、会話型AIとしてファインチューニングされ、自然な対話を得意としています。
Googleの対話型AI「Bard」に採用されています。
|PaLM / PaLM 2
PaLMは2022年にGoogleが発表したLLMで、パラメータ数を多くして性能を向上させた点が特徴です。
2023年には「PaLM 2」が公開されており、今後は生成AI検索サービスの「Bard」をはじめ、各種Googleのサービスに活用されることが予想されます。
|LLaMA
LLaMAは、FacebookやInstagramを運営するMetaが2023年に発表したオープンソースのLLMです。
GPT-3と同等の性能を、圧倒的に少ないパラメータ数で実現している点が特徴であり、少ない計算リソースで実行することが可能になっています。
GitHub上でオープンソースとして公開しているため、世界中の開発者がLLaMAをベースにLLMを制作し、商用利用可能なモデルも公開されています。
各日本語LLMにおける情報は、こちらからご確認いただけますので参考にしてみてください。
|大規模言語モデル(LLM)の活用事例
大規模言語モデル(LLM)の活用事例として、有名なサービスを3つ挙げてご紹介します。
|OpenAI「ChatGPT」
今や、大規模言語モデル(LLM)の代表的な活用サービスとなっているのが「ChatGPT」です。
2022年11月の公開後、革新的なサービスとして瞬く間に注目を集め、日本でも大きな話題を呼びました。
2023年3月には、従来のモデル(GPT-3、GPT3.5)に比べて高い能力を備えた「GPT-4」がリリースされ、有料プラン(ChatGPT Plus)にて利用が
可能です。
GPT-4では、抽象的な要素に対する処理能力が大幅に強化されており、画像やテキストの組み合わせに対してテキストを出力するタスクや、より高度な
推論や複雑な指示への応対を実現しています。
|Bing「AIチャット」
Bingの「AIチャット」は、Microsoft社が提供する検索エンジン「Bing」に、GPT-4搭載のAIチャットを組み込んだ「Bing AI」内の機能です。
BingのAIチャットは、検索エンジンと連動しているため、リアルタイムの情報を反映しながら回答を行うことが特徴です。
出力内容には参照ページURLが含まれており、ユーザーは参照ページにクリック1つで移行し、出力内容の効率的な事実確認を行うことができます。
|Google「Bard」
Googleが開発した「Bard」は、上述のLLMであるLaMDAを採用した対話型AIサービスです。
人間のような自然な会話ができるAIチャットシステムに、Googleの検索サービスを連携しており、インターネット上の最新情報を含む回答の提供が
期待できます。
ChatGPTに遅れを取る形で公開された「Bard」ですが、2023年4月に日本でも一般向け英語版としてリリースされ、2023年5月には日本語対応も
スタートしています。
|大規模言語モデル(LLM)の課題
幅広い分野で活用できる大規模言語モデル(LLM)ですが、現時点では課題も残されています。現時点でLLMが抱えている課題を解説していきます。
|日本語特有の言語的な複雑さ
LLMは、英語中心の学習データにもとづいて設計されることが多く、日本語特有の言語的な複雑さに対応するのは難しいとされています。
言語モデルで日本語を使用する際、コーパス(自然言語の文章を構造化して大規模に集め、品詞等の言語的な情報を付与したもの)が少なかったり、
テキスト内にノイズがたくさん存在しているため、使用する際に上手く除去する必要があります。
学習データ以外にも、「日本語は語順の自由度が高い」「1つの文章内に多種類の文字(ひらがな、カタカナ、漢字、ローマ字など)が存在する」
「同音異義語の存在」といった、日本語固有の事情から、LLMが自然な会話に近い精度を出すためのハードルは高いといわれます。
一方で、最近ではOpenCALMやRinna-3.6Bなど、日本語に特化したLLMの開発も進んでいます。
また、弊社VNEXT独自のGPTでは、日本語に特化したLLM専門チームが効率的なファインチューニングを提案できます。
|ハルシネーションを起こす危険性
ハルシネーション(Hallucination)とは、日本語で「幻覚」という意味の単語で、「AIがもっともらしい嘘をつくこと」を意味します。
自然言語処理においては、事実とは異なる情報や、文脈とまったく関係ない内容を出力してしまう現象を指します。
たとえば、ChatGPTの学習データは、無料版の「GPT-3.5」は2021年の9月まで、有料版の「GPT-4」は2022年8月までとなっているため、
学習していない最近の情報を出力しようとすると、あたかも本当のような情報を生成し回答してしまう現象が起こっていました。
AI技術の浸透とともに、ハルシネーションを起こしやすいパターンの研究も進んでいますが、LLMの使い道を限定しないためにも、ユーザー側が
ハルシネーションの可能性を念頭に置いた上で使用する必要があります。
|セキュリティやプライバシーのリスク
LLMは、学習と文章生成の過程で機密性の高い情報を扱う可能性があるため、セキュリティやプライバシー上のリスクも存在します。
たとえば、カスタマーサポートなどの部署でユーザーからの入力情報を処理する場合、ユーザーのプライバシーを侵害する可能性があります。
LLMに対して入力した機密情報がモデルの学習に使用され、未承認の第三者に漏洩する可能性があるためです。
このような課題に対して、データの取り扱いに関する厳格な規則を設け、LLMを使用する側の対応も必要となります。
|まとめ
大規模言語モデル(LLM)とは、膨大なデータを使って学習をさせ、テキスト生成や要約などのテキストに関わるタスクを高い精度で行うことが
できるモデルのことです。
質問への回答や文章要約、機械翻訳など幅広いタスクに応用が可能で、ビジネスシーンでも幅広い場面ですでに利用されています。
ChatGPTやBARDをはじめとした多くのLLMが日々登場しており、今後もLLMをもとにサービスを展開することが予想され、競争も激しくなるでしょう。
LLMは現時点では完全とはいえず、いくつか課題もあります。ユーザー側はそのことを念頭に置いた上で、適切な使い方をする必要があります。
LLMを活用する際は、LLMの特徴と課題を把握し、「どのモデルをどのように活用するか」という使い方が重要になるでしょう。
|LLM活用ならVNEXTへ
弊社VNEXTでは、ChatGPT連携サービスから独自のLLMをお客様のニーズや目的に合わせてチューニングをして提供をしております。
また、オープンソース化されたLLMを活用した開発も行っております。
LLMを自社で活用したい方や興味がある方は、お気軽にVNEXTまでご相談ください!
▶︎ お問い合わせ:https://vnext.co.jp/contact.html?view=contact