https://www.youtube.com/watch?v=XxFj5jdb6qQ

以下、Youtubeの自動文字起こしテキストをDeepL翻訳に突っ込んだもの↓

Noam Shazierです

彼はGoogleで21年間過ごしました

2017年の有名なトランスフォーマーの論文に関わりました

tensorflow gnomeに関わりました

この分野の伝説です ご参加ありがとうございます

本当に非常に実験的な科学です 錬金術の時代の化学と同じように想像しています 存在意義があると思うんです 今後数年間は、どのようなデータに基づいて訓練されているのかという実存的な問題が出てくると思います。 この論文の著者の一人が来て、注意と自己注意の意味を説明してくれるなんて、とても貴重な取引です。 この論文の著者の一人に来ていただいて、注意とは何か、自己注意とは何かを説明していただくのは、大変貴重な機会です。 ノーム・シェイザーです。 ノームは現在、キャラクターAIの創設者兼CEOですが、私の計算が正しければ、その前に21年間をグーグルで過ごしました。 途中、数年間抜けましたが、ほとんどグーグルにいたわけですから、簡単に言えばかなり長い間、グーグルで過ごしていたことになります gnome はおそらく今日の大規模言語モデルである Lang の研究開発の中核を担ってきました 単純な例ですが 2017年の有名な Transformers の論文にも関わっています これは部分的に専門家のゲートをかけた混合物です 2016年には tensorflow に関わりました Google の Lambda 対話システムにも大きく貢献しました リストアップするとキリがないですね Noamさん、この分野のレジェンドですね。 遅くなりましたが、今日はありがとうございました。 あなたがGoogleに入社して、最初にインタビューされたとき、あなたがインタビューの中で出した答えの1つが、実は後にGmailが使うことになったものだったという話です 本当なのかどうかは分かりませんが、あなたがどうやってGoogleにたどり着いたのか、その経緯を聞いてみたいのです そういえば私は地下でデューク大学に数学奨学生として通っていたのですが、バスケットボールには興味がありました 冗談ではなく、あの でも、数学の教授がいて、彼らが数学のコンテストで優勝しようとしていたので、実際に私をスカウトしてくれました。 プログラミングが好きで、コンピュータに何か賢いことをさせることができるかもしれない、だから代わりにコンピュータサイエンスを学ぼうと思いました。 というのも、私の知っている人はみんなGoogleを使っていたからです。 でも、私の知っている人は、CSの大学院生だったので、とても偏ったサンプルだったと思います。 Gmailの創始者であり、とても素晴らしい人です。 また、私たちの投資家の一人でもあります。 しかし、彼は私よりもその出来事をよく覚えていると思います。 それはワープロのようなもので、人間が編集した5万語程度の辞書をベースにしたものに近いものでした。 それはとても面白いもので、ワープロではうまく機能しましたが、Googleのウェブ検索ではひどい働きをしました。 ウェブ検索の語彙はとても広いので、Turbo Taxと入力すると、Turbot axのことだと言ってしまいます。 そのため、私たちはデータ駆動型にしたのですが、それは実際に......実際によかったです。 Googleは、従業員数や規模、影響力において、明らかに数桁の規模になっていますが、当時のGoogleはどうでしたか? 自己 ある時点でエンジニアのマネージャーを全員クビにしたんですが、誰もそれに気づかなかったんです。 しかし、私は、Googleはまだ非常にボトムズアップのような会社だと思う 少なくとも私がいた研究部品では、私が関与し、ほとんどいつも私が感じたことを何でもしていた それはかなりうまくいった 我々が聞いているストーリー項目は、ラリー・ペイがある日、管理者は悪いと決め、本質的にGoogleをフラットな組織にして、私はそれが彼であるかどうかわからない 面白いことに、これはおそらく2000年代初頭のことで、20年後にイーロン・マスクがTwitterでやっていることを見ると、似たようなことがいくつかあります。 製品管理の人たちにインタビューしたんですが、ほとんどの場合、彼らは技術の可能性をまったく理解していないようで、「どの業種に参入するかを決めて、そこに集中する必要がある」とか、適当なことばかり言っていました。 というのも、この製品の強みは汎用性にありますから......。 この会話ではAiとllmsについて多くの時間を費やすことになるでしょうが、その前に、あなたがGoogleに長く在籍していたので、あなたのキャリアについて話すときに特に興味深いのですが、いくつかの注目すべきマイルストーンやプロジェクトについて概説していただけますか?というのも、ここ20年のAIの発展に直接つながり、重なり合うと思うからです。 私たちがそれをやった数年後のことですが、おそらく100分の1の規模だったと思います。 しかし、それは私と、もう一人の男、ジョージ・ヘリックが、初期のGoogleの、初期のGoogleの人たちの一人だったのですが、しかし、私たちはそれをAdSenseの最初のダークリング機能にして、最終的に多くのお金を稼ぐようになりました。 というのも、私たちが学生だった頃、ジョン・マッカーシーを読んで、「ああ、これはすごい、アーティーはLispハッカーなんだ」というのを見ました。 そして、80年代には、AIの世界で、いわば幻滅のようなものがあったんだ。 私がAIに興奮し始めた頃 その頃エキサイティングだったのは ベイジアンネットワークでした 誰もがそれをやっていて 本当にエキサイティングでした 私は確率が大好きだったので それにのめり込んでいったのを覚えています その中でも特に好きな分野でした そしてこの偉大な デューク大学の大学院のセミナーで、教授の名前はマイク・リットマンで、彼は「よし、クラス全員で協力して、クロスワードパズルを解くシステムを作ろう」と言ったんです。 他の学生の一人、グレッグ・ケイムは今、私たちと一緒にキャラクターを研究しているのですが、彼はクロスワードパズルをたくさん集めていて、ウェブでクロスワードパズルを検索していました。 彼はクロスワードパズルのようなものをウェブ上でスクラップしていたので、大きなデータベースを持っていました。 というのも、Paul Grahamが書いた有名なスパムの計画を見ると、多くのスパム対策は、実はBayの上に構築されていたんです。 Outlookのプラグインをダウンロードしたんですが、これはクライアント側をベースにしてスパムをフィルタリングするもので、今日私たちが当たり前だと思っていることの多くにとって、とても基礎的なものでした。 しかし、妻がまだGoogleで働いていたので、昼食のために妻を訪ねたとき、Googleのブレインチームのジェフ・ディーンの隣に座ったので、私は、これは本当に賢い人たちの集まりで、何か面白いことをしているようだ、これを試してみよう、私は一度もやったことがないのだが、と思いました。 ニューラルネットワークはやったことがなかったのですが、なんとなく手を出してみたところ、これはハードウェアの問題だと思いました。 そして、ニューラルネットワークがありますが、これはほとんど行列の乗算です。 行列の掛け算は、たまたま現代のハードウェアで非常にうまくできる演算です。 もしあなたが何か賢いことをしたいのなら、ニューラルネットワークの10万倍は賢くなければなりません。 あなたはgpusの進歩のおかげで、画面のさまざまな部分を更新して、カラフルなピクセルを正しい色にする必要があることを知っています。 このハードウェアの進歩は、Nvidiaのような企業ですでに構築されたもので、それを再利用することができるのです。 この会話の中で、いくつかのアトミックな構成要素から始めて、その上に構築していくことにしましょう。 ニューラル・ネットワークとは何か、大規模言語モデルとは何か、ニューラル・ネットワークを見てみましょう。 ニューラルネットワークは基本的に脳がどのようなものかという誰かの印象をゆるやかにモデル化したものです ニューロンはこの大きな式の変数や内部ノードのようなものです ですから、この素晴らしく複雑な、本質的に訓練された式があり この式にはパラメータと呼ばれる数字があり、ニューラルネットワークの考え方は、そのパラメータを少しずつ調整し続けることです。 新しい例を見たら、その例に対する正しい答えに少し近づけるために、すべてのパラメータを少し調整します。 これを何度も繰り返すと、見たことのない例に対してもうまく機能するものができ、それが一般化します。 基本的な考え方で、長い間誰もそのようなことに成功しなかったので、彼らは深層学習ニューラルネットワークが悪い名前になってしまったとか、そのような理由で、別のことをやってみよう、そして、パイプを少し取り戻せるか見てみようということでした。 しかし、私が思うに、本当の理由は、並列計算とThe Gamersのおかげで、これほどまでに飛躍することができたのだと思います。 数年前にYouTubeにアップされた 素晴らしい講演があります 本当に大規模なモデルを大規模に構築する方法について話しています おそらく技術的なことは分かっても AIに詳しくない人にllmとは何か、これらのものがどれほど大規模になり得るかという課題は何か、それを克服する方法は何かについて説明しています ニューラル・ランゲージ・モデルは基本的に ニューラル・ネットワークをテキストに適用したものです 言語モデリングの問題は 州にとっては全く簡単です ある文書の冒頭を与えられて 次の単語を推測します 入力はここまでのテキストです 出力は次の単語の確率分布になります 出力は次の単語が何であるかの確率分布です OK the fat cat sat on the the と言うと、50%はマット 10は帽子 5%は床 1%はプロレタリアート だと言うことになっています。 しかし、もしそれがあれば、そこからサンプリングすることができます。 つまり、その分布からサンプルを取って、次の単語を選び、それを差し込んで、その次の単語を選び、その次の単語を選び、ただ生成することができます。 もしあなたのモデルが優れていれば、人が書いたものと見分けがつかないようなテキストを生成することができます。 欲しいデータが全てあるのです これはAIの完全な問題のようなものです なぜならもしあなたがその上で素晴らしい仕事をすることができれば 癌の治療法は大丈夫だと言うことができます 視点と言語モデリングを達成することは あー知っての通りです 地球上のほぼ全てのAIの問題を解決しているのです もし私が実際にある言語モデルでそれを試したら 癌の治療法はと訓練していたのですが マリファナと言い出しました ポッケがどうのこうのと長い間わめき散らしていました だから言語モデルの言うことは聞くなと でもとにかくまだですまだですええと しかし、それは興味深い質問だ。 ここで余談になるが、私は、猫の上に座って、私の脳は神経科学者が理解できるかもしれない何らかの方法でニューロンを発火させていて、私は、帽子、マットなどプロレタリアの確率的モデルを構築しようとしている。 私は何が正しい方法なのか推測しています 人々は幻覚のような言葉を使います ここでは多くの興味深い言葉が使われます あー 新しいネットワークの中で起こっている予測プロセスを説明する正しい動詞は何でしょうか ええ それは哲学的な質問か何かのようです どうやってそれを解明しているのでしょうか?でも、ユーザーとしての観点で言えば、私はこれを才能ある即興俳優のようなものだと考えたいんです。 ロビン・ウィリアムスがいて、アインシュタイン役で、ドイツ語のアクセントをつけて、アルバート・アインシュタインのようなふりをして、彼に物理の質問をすると、物理学者でなくても、比較的もっともらしく聞こえることを教えてくれますが、彼が実際に物理学の学位を持っていたり、物理学者でなければ、それはあり得ないことです。 物理学の学位を持っているか、物理学の学位を持っていない限り、物理学の良い答えは得られないでしょうから、俳優のように考えれば、この時点で何を期待すればいいのか、正しい感覚が得られるかもしれません。 確率的なモデルを構築することでは何が課題なのでしょうか? なぜ一貫して、信じられないような確率的なモデルを構築できないのでしょうか? このようなフレーズがあるとき、常に次の正しい単語を選び、我々の誰もが言うこととほとんど区別がつかないように聞こえるような、そんなモデルとは? それを正しくするための課題は何でしょうか? つまり、正しくするためには、非常に複雑な推論をたくさんしなければならないのです 人間でさえも、これらのことのほとんどを正しくすることはできません。 モデルが大きくなり、良くなるにつれ、初期の比較的小さなモデルでは、文法的には正しいが、意味的には狂っているようなテキストを生成するような、ほとんど文法を正しく理解することができました。 そうすると、文法は完璧で、意味もわかるけれども、多くの事実を間違えてしまうというようなことが起こり始めます。 そして、ある時点で文法をほぼ正しく理解するようになります。 そして、学習量とモデルのサイズが大きくなるにつれて、計算能力が高まり、世界をより高度に理解するようになります。 あなたの言うことはすべて、彼女がどのようにそれを拾い上げているかということに結びつけられると思います。 でも、シーラがテレビや本、その他いろいろなものに触れるにつれて、その可能性が見えてきます。 シーラがテレビや本などあらゆるものに触れるようになると、その可能性が見えてきます。 これは、コンピューティングの面でも同じような問題があります。 人が一生のうちに聞いたことのある単語はせいぜい10億語くらいでしょう もちろん10億秒くらいです 少し前にあなたが言ったことに戻りたいのですが すごく印象的でした 「誰も本当のところは知らない」と言ったのです これらのモデルの内部で何が起こっているのか 誰も本当に知らないのです 明らかにAIの説明可能性は エンジニアとして新しい研究分野です それは興味深いコメントです なぜなら私たちは皆これらのシステムを理解し OSのようにこれらのシステムをデバッグできるように成長してきました よくあることです メモリはそこに割り当てられるべきだったのに 終わらなかったとします 私たちは、自分たちが作ったものを突き刺して、その出力を見ることはできても、内部で何が起こっているかはあまり理解していないのです。 ある意味では科学よりも芸術のようなもので、うまく予測することができないのです。 でも、アルゴリズムとかパフォーマンスとか、そういうものには、最初からこうすればうまくいく、こうすればうまくいかない、そうでないならバグだ、みたいなものがある。 錬金術の時代の化学のように、よし、これをやってみよう、何が起こるか見てみようという感じで、誰かが良い直感を持っているかもしれないし、うまくいく実験のヒット率が高くなるかもしれません。 神様に愛されているとか、完全に楽しい楽しい空間です。 それから、バグについてですが、自分のコードに実際のバグ・エラーがあると、バグを作ったことに気づかないこともよくあります。 デバッグが非常に難しくなるんだ なぜなら君は、これらの事柄に対する正しい答えが何であるべきなのか、実際のところよく分かっていないんだ。 この論文は、Googleのあなたの同僚と一緒に執筆したものですが、最初のページにある論文から脚注を引用します。 この論文とトランスフォーマーと自己のアイデアは、ほぼすべての細部に関与して他の人になりました。 トランスフォーマーと自己注意の考え方は、この種のものでは、本当にここ数年の進歩の基礎になっていると思います。 しかし、基本的にリカレント・ニューラル・ネットワークは、一度に1つのトークンを処理するため、一般的に単語を意味するトークンがありますが、あなたは、あなたのモデルのこの隠された状態を持っているように、あなたは、隠された状態を持っていて、それが別の単語を見るたびに、古い隠された状態とそれが見た新しい単語の関数のように隠された状態を更新し、そしてあなたはそれがある種のことを知っています。 これはモデルのフォワードパスで、長い長い単語の列を更新しながら進んでいくんですが、シーケンスを処理するにはとても理にかなっています。 Transformerは少なくともトレーニングの間はシーケンス全体を並列に処理する方法を考え出しました 一度に1つのトークンを処理するのとは対照的です そしてそれは物事を都合よく大量に大量に あーパフォーマンス良くします なぜなら並列性とニューラルネットワークワークのトレーニングに戻るには 常に一度に一つの例ではなく バッチの例で行います その理由は単にハードウェアが並列性に優れているので あなたは結局これらの Transformerではシーケンスの長さがバッチになるので、一緒に処理する異なるシーケンスのセットのバッチ全体が必要ではありません。 だから、基本的には製品全体、文書全体を把握することができ、一度に1つのシーケンスだけを把握するのとは対照的に、コンテキストを把握することができます そう、つまりシーケンスは文書なんです そう、RNNの場合、リカレントネットワークでは、文書の最初からずっと遡って記憶することができますが、それは非常に長い中間ステップのチェーンを通過しているからです そしてTransformerでは、まるで一度に全てを見ることができるかのようなものなんです それは一つの見方ですが、私は、より計算的な見方として、それは、並列処理を可能にするものだと思います。 画像処理モデルでは、ピクセル間で並列性があります。 畳み込みネットワークと呼ばれるもので、画像のすべてのピクセルに同じ処理を適用しているようなもので、同じ、つまり同じ処理をすべての異なるピクセルに適用することで並列性を得ています。 Transformerほどうまくはいきませんでしたが、並列処理を使って、少なくとも学習時にはシーケンス全体を並列処理できるような、テキスト用のニューラルネットワークを作ろうというアイデアは、ある種の空気に包まれていたようなものです。

彼はちょっと忙しくて、私の知る限りでは、それに取り組むために大勢の人を管理するのに忙しすぎて、彼はニッキーとナシーシュに、「ああ、君たちはこれを使いたいんだな」と頼んだんです。 この取引における研究の多くは、明らかにグーグルからもたらされたものです。 トランスフォーマーとか......つまり......Google翻訳とか......あれは、私たちの最大のインスピレーションの1つはGoogle翻訳だと思うんです。 英語からフランス語への翻訳には十分なんですが、会話の一部を押さえるには不十分なんです。 ですから、オリジナルのTransformerの仕事は、データセットとして、ああ、機械翻訳を使い、注意も翻訳から得たもので、注意と自己注意がどういうものか説明したいのではありませんか? この文脈での注意の意味を説明したいですか? そうです、そうです、そうです、注意です、そうです、私たちがしようとしているのは、ある言語を別の言語に翻訳することです。 そして、入力に対してリカレントニューラルネットワークが動作し、出力に対して別のリカレントニューラルネットワークが動作して、出力を生成するようなものでした。 そうすると、RNNは理解するものと、生成するものがあって、そして、それらをどうにかして接続する必要があるわけですが、そうすると、生成している文のある時点で、ソース文のほうをちらっと見てみたいわけです。 翻訳している文のどこを見るべきか、どこに注意を払うべきか 知りたいのです この注意の層はつまり Source 文を取って、それをこの連想記憶みたいなものに 変えるのです ここでキーと値があり、それぞれの位置をこの連想記憶の キーと値に変えるのです そして、何かを生成するときに、このVectorを生成します。 これはクエリで、クエリをすべてのキーと比較して、うまくマッチするものを見つけます。 そして、これらの値を取り出して、その値を使います。 ドット積とかソフトマックスとかで構成されていて、すべて微分可能なので、学習中のニューラルネットワークの一部にもなり得ます。 つまり、この考え方は、少なくとも私は、このルックアップテーブルというメモリを構築して、それを使っているのだと考えたい。 翻訳の場合は、翻訳している文の中で自分の位置を見つけるためにそれを使っている。 シュリラムが言ったように、私たちはそれについて調べたり、もっと読もうとしたりしています。 そして、私たちにとって、少なくとも私にとっては、去年、私たちがDaliを見始め、そして他のすべてのアプリケーションを見始め、そして言い始めたとき そして、典型的なエンジニアである私たちは、どうやってこれをやるのか、これがどう機能するのかを調べ始め、彼らはYouTubeを調べ始めたのです。 この論文の著者の一人であるノエムを招いて、注意と自己認識の意味について説明してもらうというのは、とても貴重なことです。 そして、それをキーと値のペアとマッピングのように説明しようとするのは、とても美しく、とてもシンプルで直感的なものです。 最初の2~3ページは基本的に変換モデル全体と自己保持について説明しています

とてもよくまとまっていて、素晴らしかったです

さて、私はおそらく、これは多くの視聴者にとって非常に技術的なことだと思いますが、これはとても重要です

なぜなら、私たちが見てきたドリーから安定拡散、GPT、チャットGPTまでのすべてが、これらの基盤の上に成り立っていると思うのです

うーん 多分、出発点の1つはAIアプリケーションの世界、特にチャットできるものです この文脈でAIとは何かについてチャットする機会が欲しいのです

私は知っていると思うので、私は、この分野はとても面白いと思います これはAIアプリケーションの分野では非常に興味深いです キャラクターAIとは一体何なのでしょうか?

我々が話したこと全ての上に構築されています そうです そうです そうです トランスフォーマーをやりました それからトランスフォーマーの有無に関わらず みんなが気づいたようです モデルを大きくすればするほど より賢くなるのです

よし もっとこのことを推し進めましょう そうです トランスフォーマーの次は何ですか もっと大きいものを訓練できますか そしてある時点ではもっと大きいものを訓練します より大きなものを訓練できるのかとか ある時点で使っているチップの メモリが足りなくなり スーパーコンピュータをどう使うか 考える必要があります

それでGoogleは TPU podsというものを作っていました これは本質的に スーパーコンピュータで カスタムアシックスで作られています 深層学習のために それで私の次のプロジェクトは これをどうプログラミングするかでした