2023年4月22日土曜日

ゲノム解析とChat GPT

最近での小生のChat GTPとの会話は「キリスト教」関連と「ゲノム解析」関連が多いです。

「ゲノム解析」ではこの一年の進展(T to T projectなど)がChatGPTのデータベースに入っていないこともあり、やはり頼りない。ヒトゲノムで最大の遺伝子はなんですか?という問いには、まだ正確には答えきれないようです。

「大きなゲノムサイズを持つ遺伝子を10個列挙しなさい」という問に対する解答も、今ひとつ信頼感がありません(日本語でも、英語でも)

だけどChatGTP が偉いのは 最新のゲノムデータベースであるGRCh38p.14に探しに行くのです。米国 NIHのNCBI(National Center for Biological Information)という老舗の巨大なデータベース群のなかで、おそらく最もふさわしいと思われるGRCh38p.14を探しに行く。

偉いなあと思いますが、まだちょっと的が外れているようです。

現在GRCh38p.14では、多くのヒト染色体が端から端まで一本の構造として、遺伝子地図が記載されています。

知らないうちに下図のようなマップが見れるようになっています。小さな19番染色体の例を載せましょう


全長で51.8MBに及ぶ直線上に1385個(現状で!)に及ぶ遺伝子が配列されているのです。これって凄くないですか!!

もっともGRCh38p.14も完璧ではありません。

13〜15番と21〜22番の短腕はアラインメントが載っていません。これは昨年のT-to Tプロジェクト(サイエンスの論文群)でもアラインを取るのが難しい領域と報告されていました。

このあたりが更に洗練されてきて、 ChatGPTのデータに組み込まれてくると、視界は開けてくるのでしょう。



0 件のコメント: