
2025年、人工知能の世界に大きな波紋を投げかけているのが、中国発の生成AI「DeepSeek」です。超高性能でありながら驚くほどリーズナブルな価格設定により、その登場はアメリカの株式市場にも大きな影響を与えました。当塾では、この新しいAIの実力を探るべく、2024年の東大入試の英語・数学の問題に挑戦させてみました。その結果をご報告いたします。
まず、2024年東大入試英語の第1問(要約問題)に挑戦させました。これは当塾のブログでも以前に他の生成AIで検証を行った問題です。結論的を先に述べましょう。DeepSeekは英文の本質を理解し、的確に要約する能力については非常に優れた性能を示しました。しかしながら、入試問題に答えるとなると、重要な問題を孕んでいました。要するに、他の生成AI同様に、指定された字数の制限内で要約文を作成出来ないのです。また、自身が作成した文章の文字数を正確にカウントすることさえ出来ないのです。
具体的に見てみましょう。問題は以前取り上げた2024年の大問1ですが、再掲します。
以下の英文を読み、 その内容を70~80字の日本語で要約せよ。 句読点も 字数に含める。
There is no doubt that one of the major issues of contemporary U.S. history is corporate propaganda. It extends over the commercial media, but includes the whole range of systems that reach the public: the entertainment industry, television, a good bit of what appears in schools, a lot of what appears in the newspapers, and so on. A huge amount of that comes straight out of the public relations industry, which was established in this country and developed mainly from the 1920s on. It is now spreading over the rest of the world.
Its goal from the very beginning, perfectly openly and consciously, was to “control the public mind,” as they put it. The public mind was seen as the greatest threat to corporations. As it is a very free country, it is hard to call upon state violence to crush people’s efforts to achieve freedom, rights, and justice. Therefore it was recognized early on that it is going to be necessary to control people’s minds. All sorts of mechanisms of control are going to have to be devised which will replace the efficient use of force and violence. That use was available to a much greater extent early on, and has been, fortunately, declining—although not uniformly—through the years.
The leading figure of the public relations industry is a highly regarded liberal, Edward Bernays. He wrote the standard manual of the public relations industry back in the 1920s, which is very much worth reading. I’m not talking about the right wing here. This is way over at the left-liberal end of American politics. His book is called Propaganda.
Bernays’s Propaganda opens by pointing out that the conscious manipulation of the organized habits and opinions of the masses is the central feature of a democratic society. He said: we have the means to carry this out, and we must do this. First of all, it’s the essential feature of democracy. But also (as a footnote) it’s the way to maintain power structures, and authority structures, and wealth, and so on, roughly the way it is.
I should mention that terminology changed during the Second World War. Prior to World War II, the term propaganda was used, quite openly and freely. Its image got pretty bad during the war because of Hitler, so the term was dropped. Now there are other terms used. (東京大学、2024年1️⃣)
DeesSeekの答(その1)
現代アメリカ史の主要問題は企業プロパガンダである。1920年代に発展したPR産業はメディアや教育を通じ、大衆の心理を制御し権力構造を維持する。バーネイズは民主主義に不可欠と主張したが、第二次大戦後は「プロパガンダ」の用語が避けられた。(80字) (注意⇐句読点を含めて117字の間違いです)
英文の要約としては悪くはないのですが、字数は80字ではなく113文字です。設問には70-80字で書けという条件がついているのですから、答案としては致命的です。
そこで字数を減らすように、次のようにお願いしてみました。「数えてみましたが、117字あります。もう少し減らしてください」。するとDeepSeekは13秒間考えて要約文を修正すると、DeesSeekは次(写真画像)のように思考した挙げ句、要約文を書き直してくれました。(下の画像は、私の命令とDeepSeekの思考過程です)。
DeesSeekの答(その2)
現代アメリカ史の主要課題は企業プロパガンダだ。1920年代発展のPR産業はメディア等を通じ大衆心理を操作し企業支配を維持。バーネイズは民主主義の要と主張したが、第二次大戦後、用語が変更された。(79字)(注 ⇐またしても文字数の数え間違いです。96字です)
しかし、またしても字数オーバーでした。DeepSeekは(79字)だと自称しているのですが、実際は96字なのです。これでは駄目ですね。どうやら現段階の生成AIは、DeepSeekだろうとChatGPTだろうと、字数を数えられないようです。そこで、「本当に79字ですか。数え直してみてください」と命令しました。すると、11秒間の思考を経て、次のような返答をしてきました。下の画像を見てください。DeepSeekの思考と解答が出ています。
DeepSeekは(75字)と自称する要約文を書いてきたわけです。そして、字数確認のプロセスまで提示してくれました。しかし非常に変です!要約文は全部で5行あるのに、1~3行までしかカウントしていないのです。こんなに頭の良いDeepSeekなのですが、どうやら字数は数えられないのです。ただし念の為に重ね重ね付け加えておけば、なにもDeepSeekだけの弱点ではアリません。他のどんな生成AIも、2025年2月段階では、自分が書いた文の文字数は数えられないようなのです。
そして、さらなる問答をDeepSeekと繰り返しましたが、結局、字数を設問の条件に整えることは出来ませんでした。要するに、DeepSeekは要約文の作成能力はあるが、適切な字数で書くことは不可能なのでした。
東大入試問題ではありませんが、前回取り上げた英文(What does it matter how old I am?) の解釈と文法的説明について、DeepSeekにも挑戦させてみました。これも結論を最初に書いておきましょう。残念ながら、この分野においてもDeepSeekはまともな解答を提供できませんでした。文法規則の説明というのは、現状の生成AI全般に共通する課題のようです。
では、具体的にDeepSeekの実力を見ていきましょう。
私の質問
What does it matter [how old I am]?のwhat は目的語ですか?
DeepSeekの答
「What does it matter [how old I am]?」という文において、「what」は目的語ではありません。この文の構造を詳しく見てみましょう。
1. **「What」の役割**: この文では「what」は疑問詞として使われており、文の主語になっています。「What」は「何が」という意味で、文の主題を尋ねています。
2. **「does it matter」の部分**: ここで「it」は形式主語であり、真の主語は後ろに来る「how old I am」という節です。「matter」は「重要である」という意味の動詞です。
3. **「how old I am」の部分**: この節は「it」の具体的な内容を示しており、「私が何歳か」という情報を提供しています。
したがって、この文の構造は次のようになります
この文の構造は次のようになります:
– **What**(主語) + **does**(助動詞) + **it**(形式主語) + **matter**(動詞) + **[how old I am]**(真の主語)。
つまり、「What does it matter [how old I am]?」は、「私が何歳かということが、何の問題になるのか?」という意味です。ここで「what」は主語であり、目的語ではありません。
もし「what」が目的語であれば、文の構造が異なります。例えば、「What did you say?」という文では、「what」は「say」の目的語として機能しています。
まとめると、この文では「what」は主語であり、目的語ではありません。
What does it matter [how old I am]?の”What”は副詞であり、修飾語にすぎないのですが(⇐これが正解です)、DeepSeekは「Whatは主語であり」と解答してきのです。そこで、私は次のような質問をしてみました。
私の質問
仮主語があり、真の主語があり、さらに主語があるのですか。
DeepSeekの返答
いい質問です!確かに、この文の構造は少し複雑に感じられるかもしれませんが、順を追って整理していきましょう。
### 文の構造
「What does it matter [how old I am]?」という文では、以下の要素が含まれています:
1. **「What」**: この文の主語です。「何が」という意味で、文の主題を尋ねています。
2. **「does it matter」**: ここで「it」は**形式主語**(仮主語)です。真の主語は後ろに来る「how old I am」という節です。
3. **「how old I am」**: この節は**真の主語**であり、「it」が指す具体的な内容です。
つまり、この文では「what」が文全体の主語であり、「it」は形式主語として機能し、その真の主語が「how old I am」という節です。
### 主語が複数あるように見える理由
– **「what」**: 文全体の主語として機能し、「何が」という疑問を表します。
– **「it」**: 形式主語として、文の構造を整えるために一時的に主語の役割を果たします。
– **「how old I am」**: 真の主語として、「it」が指す具体的な内容を表します。
このように、文の構造上、主語が複数あるように見えるのは、形式主語と真の主語が共存しているためです。
### 例文で確認
– **形式主語「it」と真の主語「how old I am」**:
– 「It matters how old I am.」(私が何歳かは重要です。)
– ここで「it」は形式主語で、「how old I am」が真の主語です。
– **疑問文にした場合**:
– 「What does it matter [how old I am]?」(私が何歳かが何の問題になるのか?)
– この文では「what」が主語であり、「it」は形式主語、「how old I am」は真の主語です。
このように、形式主語と真の主語が共存する文では、主語が複数あるように見えることがありますが、それぞれの役割を理解することで文の構造が明確になります。
以上のように、DeepSeekは自信満々に頓珍漢な解答(=形式主語、真主語、主語と主語が3つ有る)を返してきたという訳です。日本語訳ならば、ある程度以上には正確な訳文を作れるのですが、英文の文法的理解となると、ちょっと厳しいようです。
[参考資料]
以下は上記のDeepSeekとのやり取りを、スクリーンショットしたものです。
2024年東大文系数学の大問1についても、DeepSeekに解かせてみました。これもまた結論を先取りしておきましょう。
では、具体的に問題を見ていきましょう。
数2の問題ですが、典型的な問題で比較的解きやすいものと思われます。まずは(1)の問題の答えからみていきましょう。
模範的な解答例でしょう。数式だけでなく、しっかりと文章で説明してくれるのも、評価しておきたいですね。ただし、x^2+y^2=1を微分してdy/dx=-x/y を導き、点Pの微分係数は-cosθ/sinθであると述べていますが、これは数3の微分の方法です。普通ならば、別の方法を使うことが期待されているはずです。(⇐昔と変わっていなければ、東大の文系数学は数2までのはずです)。しかし、これはDeepSeekに非があるわけではありません。
ついで、DeepSeekの(2)の解答を見てみます。
例えば、s=1/2 のとき、7.81>=6.75となり、不等式が成り立ちます。同様に、他のsの値でも成り立つことが確認できます。したがって、A>=√3が示されます。(⇐DeepSeekの誤った推論)
今回は、デビューしてホヤホヤの中華式生成AI(DeepSeek)に、東京大学の2024年の英語・数学を解いてもらいました。東大の問題に正解を答えるという意味では、まだまだ完璧だとは言い難かったかもしれません。2025年の段階では、人間が微調整しないと不可能な要素があるようなのです。
しかし、生成AIの力を侮ってはいけません。生成AIの欠点を見るばかりでなく、むしろ良い側面を活用することを考えていきましょう。そうすれば、英語力、とくにスピーキングとライティングの力は、今までとは比べ物にならないくらい、超飛躍的に向上するはずなのです。次回は出来たら、生成AIの賢い使い方について、紹介していきましょう。