【G検定合格への道：第3回】ディープラーニングについて解説！

2024年6月30日 2024年6月30日

近年、人工知能（AI）技術は目覚ましい発展を遂げており、私たちの生活に様々な形で浸透しています。その中でも、ディープラーニング（深層学習）は、AI技術の中でも特に注目を集めている分野の一つです。

本記事では、これからG検定受験を目指すあなたのために、試験で求められるディープラーニングの知識をわかりやすく解説していきます。

この記事の目次

1 ニューラルネットワーク
- 1.1 パーセプトロン
2 ディープラーニング（深層学習）
3 新時代を切り開くディープラーニングの力
- 3.1 ILSVRCとSuperVision：画像認識技術の飛躍
4 大規模言語モデルの登場

ニューラルネットワーク

深層学習の根幹となる技術がニューラルネットワークです。ニューラルネットワークは、生物の神経回路の仕組みを模倣したこの仕組みは、複雑なデータからパターンを学習し、高度な予測や認識を行うことができます。

パーセプトロン

学習可能なニューロンモデルの元祖は、米国の心理学者フランク・ローゼンブラットが提案したパーセプトロンです。

これは１つの神経細胞（ニューロン）を単純化したモデルで、ニューラルネットワークでは、このパーセプトロンと呼ばれる小さな単位が多数結合して構成されています。パーセプトロンは、入力信号を受け取り、重み付けされた合計値を活性化関数に通して、出力信号を生成します。

ニューロンに接続している各入力の「重み」を調整することで（つまり、学習することで）、２つの対象を分離する直線を見つけることが出来ました。つまり、パーセプトロンは直線で分離可能な分類問題を解くことが出来るのです。

しかし、1969年にマービン・ミンスキーらによって、「パーセプトロンは直線で分離できない分類問題に対応できない」というパーセプトロンの限界が明らかになるとニューラルネットワークの研究はいったん下火になりました。

ディープラーニング（深層学習）

ディープラーニング（深層学習）は、深く多層化したニューラルネットワークを使って、データに潜む特徴を自動的に学習する手法のことです。

ニューラルネットワークを多層化すること自体は難しくありませんでしたが、多層化したニューラルネットワーク全体を学習させる方法は、1986年にデビッド・ラメルハートらが誤差逆伝播法という手法を提唱するまで広く知られていませんでした。それまでは、最後の層のニューロンだけを学習させることが一般的な限界でした。

誤差逆伝播法

深層学習において重要な役割を果たすのが誤差逆伝播法（backpropagation）です。この方法は、ニューラルネットワークが出力した結果と教師データとの誤差を計算し、その誤差に基づいて誤差が小さくなるように各ニューラルネットワークの重みを調整していくことで、学習精度を向上させていきます。この技術により、ディープラーニングは高精度な学習を実現することができます。

畳み込みニューラルネットワーク

1979年に生物の視覚系の神経回路を模倣したニューラルネットワークであるネオコグニトロンというモデルを福島邦彦が発表しましたが、当時はまだ誤差逆伝播法が知られていなかったため、全ての層のニューロンの重みを調整する方法は存在しませんでした。

1989年、ヤン・ルカンは、ネオコグニトロンと同等なアイデアを採用した「畳み込みニューラルネットワーク」（CNN：Convolutional Neural Network）の構造をLeNetと名付けて、そのニューラルネットワークの学習に誤差逆伝播法を利用する事を提案しました。

サポートベクターマシン

1992年から1995年にかけてアメリカのベル研究所のヴァプニクらが開発した「サポートベクターマシン」（SVM：Support Vector Machine）と呼ばれる手法が機械学習のアプローチとして人気を集めるようになり、第二次ニューラルネットワークブームは終焉を迎えます。

サポートベクターマシンのコンセプトは、入力に用いる異なるクラスの各データ点との距離が最大になるような境界線を求めることで、パターン分類を行うというものです。この距離を最大化することをマージン最大化と言います。

サポートベクターマシンは、高度な数学的理論に支えられた手法であるため、ディープラーニングが考案される以前は機械学習において最も人気のあった手法の１つでした。

多層化による学習精度向上

ニューラルネットワークを多層にしても学習精度が上がらないという問題については、入力したものと同じものを出力するように学習するオートエンコーダ（自己符号化器）の研究や、層の間でどのように情報を伝達するかを調整する活性化関数の工夫を足場にして問題解決が可能になりました。

こうした地道な研究の積み重ねにより、学習精度の高い多層のニューラルネットワークの構築が可能となっていきました。

新時代を切り開くディープラーニングの力

2012年、画像認識コンテストであるILSVRCにおいて、AlexNetと呼ばれる深層学習モデルが圧倒的な精度を達成しました。この出来事をきっかけに、深層学習は飛躍的に発展し、様々な分野で革新的な成果を生み出すようになりました。

ILSVRCとSuperVision：画像認識技術の飛躍

ILSVRC（ImageNet Large Scale Visual Recognition Challenge）は、毎年開催される画像認識コンテストです。このコンテストは、ディープラーニング（深層学習）技術の発展を牽引する重要な役割を果たしてきました。2012年、ILSVRCでトロント大学のジェフリー・ヒントンが率いるSuperVision（この時に開発されたニューラルネットワークのモデルはAlexNetと呼ばれます。）が圧倒的な勝利を収めました。

当時から、画像認識に機械学習を用いるのは常識となっていましたが、機械学習で用いる特徴量（注目すべきデータの特徴）を決めるのは人間でした。この特徴量の選び方の良し悪しが機械学習の性能を決定づけるため、特徴量の選択を担当する人間の経験と式がものをいうよう、言わば職人芸に依存する状態でした。

世界中の画像認識研究者が似たようなことを考える中で、他者を1％でも出し抜くことは非常に難しいチャレンジでした。そんな状況の中で、2位の東大のISIのエラー率を10％以上も引き離して、トロント大学のSuperVisionが桁違いの衝撃的な結果で優勝したのです。

この勝利をもたらしたものが、同大学のジェフリー・ヒントンが中心となって開発した新しい機械学習の方法「深層学習（ディープラーニング）」だったのです。AlexNetなどのモデルは、従来の手法を圧倒的に凌駕する精度を達成し、ディープラーニング時代の幕開けを告げました。

大規模言語モデルの登場

2022年11月、AI界に新たな旋風が巻き起こりました。OpenAIが公開した革新的な対話システム、ChatGPTの登場です。

近年、深層学習技術の発展により、大規模言語モデルと呼ばれる新しいAI技術が誕生しました。大規模言語モデルは、膨大な量のテキストデータから学習することで、人間レベルの文章生成や翻訳を行うことができます。

ChatGPTの登場

ChatGPTは、GPT（Generative Pre-trained Transformer）と呼ばれる大規模言語モデルをベースに活用したサービスで、前例のないスピードでユーザー層を拡大し、個人や会社だけでなく、日本政府が行政業務の一部にその導入を早期に決めたことでも話題になりました。「生成AI」という言葉を広く社会に浸透させたのもChatGPTの登場によるものです。

ChatGPTは、大量の文章を学習しているので、たくさんの候補の中から、文章の次に続く最も適切な単語を確率的に選ぶことが可能です。そうした選択を繰り返すことで自然な文章を生成することができる「生成AI」なのです。

トランスフォーマー

人間レベルの自然な文章を作成できる「生成AI」の技術は「トランスフォーマー」（Transformer）と呼ばれる技術に支えられています。これは「Attention Is All You Need」という論文で提案された技術で、Google AIが開発したニューラルネットワークアーキテクチャです。従来のRNN（再帰型ニューラルネットワーク）よりも効率的な処理と高い精度を実現し、大規模言語モデルの発展を支えています。

Attention Is All You Need

2017年にGoogleの研究者が中心となって発表された論文「Attention Is All You Need」（アテンションだけで十分）は、トランスフォーマーアーキテクチャの詳細と、機械翻訳における従来モデルを圧倒する性能を報告した論文です。この論文は、従来のRNN（Recurrent Neural Network）よりもトランスフォーマーが優れた性能を発揮することを示し、大規模言語モデルの研究に大きな影響を与えました。

トランスフォーマーは、文章中の単語の位置を考慮し、単語と単語の関係性（これは「アテンション（注意力）」と呼ばれる方法を使って求められる）を広範囲にわたって学習します。そうすることで、単語の意味やニュアンスを深く理解できるだけでなく、文中の任意の単語間の関係性を複数同時に効率よく計算することを可能にしました。

ファインチューニング

大規模言語モデル（LLM：Large Language Model）は、与えられた大量の文章を学習することで、一般的な言語の構造や文法、語彙などの基本を学びます。これを事前学習と呼びます。しかし、事前学習だけでは、学習した文章を単純に再現するだけになってしまいます。

論理的な回答を生成したり、不適切な発言を避けることを学んでいないために、人間が望ましいと考えるAIにはなりません。そこで、ファインチューニング（微調整）と呼ばれる学習を追加して、特定のタスクや応用分野に焦点を当てた訓練を行います。

LLMの規模

LLMの規模は、学習によって調整可能なニューロンのパラメータ（重み）の個数で比較されます。2020年、OpenAIは、トランスフォーマーをベースとしたLLMの性能は、利用可能なデータ量や計算リソースに制限がなければ、パラメータの個数を多くすればするほど性能向上が見込めると指摘しています。

ChatGPTのケースでは、そのパラメータの個数は、GPT-2（2019年）は約15億個、GPT-3（2020年）は約1750億個の規模です。LLMが特定の規模に達すると、事前に想定されていなかった能力を獲得する（例えば、プログラムを生成する能力を獲得する）ことが報告されており、興味深い研究対象となっています。