計算数理b - hiroshima...

128
計算数理B Part 6: 生物と情報のネットワークの数理 冨樫 祐一 (Yuichi TOGASHI) 13, 18 November 2019 1

Upload: others

Post on 06-Sep-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

  • 計算数理B Part 6: 生物と情報のネットワークの数理

    冨樫 祐一 (Yuichi TOGASHI) 13, 18 November 2019

    1

  • ∗ ネットワークを特徴づけるもの ∗ 前期の「複雑系数理」をとっていた人には復習

    ∗ 生物のネットワーク ∗ 情報のネットワーク

    ∗ ネットワークに関する小話をいくつかします。 ∗ レポート問題予告:

    出てきたネットワークの2つ以上を比較して、 類似点と相違点を論じてください。 ∗ 考えながら聞いてください。

    この授業の内容

    2

  • ネットワークを特徴づけるもの 前期の「複雑系数理」よりダイジェスト

    3

  • ネットワーク?

    4

  • ∗ 鉄道・道路・航空路

    人工物の例

    JR東日本 東京近郊路線図

    5

  • ∗ 生化学反応のネットワーク ∗ 例えば、代謝系

    生物からの例

    KEGG Metabolic pathways - Reference pathway

    6

  • ∗ 何を気にするか ∗ できるだけ短い経路(少ないホップ数)で結びたい ∗ 一部のリンクが切れても通信できるようにしたい ∗ リンクの総数(総コスト)は減らしたい

    ∗ 一般にこの3つにはトレードオフの関係がある。 ∗ 全結合なら上2つの点ではベストだが、非常に高コスト。

    ∗ 良いネットワーク の条件は様々。 ∗ それゆえに、現実のネットワークのあり方も様々。

    設計する時、何を考えるか

    7

  • ∗ 以下ではいったん具体例を離れ、 もう少し抽象化したネットワーク(グラフ)について、 それを特徴付ける指標としてどのようなものがあるかを 考えていきます。 ∗ 数学でいうところのグラフ理論

    複雑ネットワークの性質

    8

  • ∗ ノード(節点・頂点・点 とも)と、 それらの関係を表したリンク(辺・弧・紐帯・枝 とも)で構成。

    ∗ ネットワーク𝐺𝐺は、𝑁𝑁個のノードの集合 𝑉𝑉 = {𝑣𝑣1,𝑣𝑣2, … , 𝑣𝑣𝑁𝑁} と、 𝑀𝑀個のリンクの集合 𝐸𝐸 = {𝑒𝑒1, 𝑒𝑒2, … , 𝑒𝑒𝑀𝑀} によって構成される。

    ∗ 有向リンク(方向に意味がある)と無向リンク ∗ リンクの重み

    ∗ ループ:リンクの両端が同一のノードであるようなリンク ∗ 多重リンク:2つのノード間を複数のリンクで接続

    ∗ 以下ではひとまず、ループや多重リンクを含まない重み無し無向ネットワークについて考える。

    ネットワーク(グラフ)

    9

  • ∗ よく出てくる用語 ∗ 2つのノード𝑣𝑣𝑖𝑖 , 𝑣𝑣𝑗𝑗がリンク𝑒𝑒𝑖𝑖𝑗𝑗で結ばれている時、ノード𝑣𝑣𝑖𝑖 , 𝑣𝑣𝑗𝑗は

    隣接している(隣接関係にある・接続している)という。 また、ノード𝑣𝑣𝑖𝑖 , 𝑣𝑣𝑗𝑗はリンク𝑒𝑒𝑖𝑖𝑗𝑗と接続しているという。

    ∗ ある1つのノードが接続するリンクの数を、そのノードの次数という(ノード𝑣𝑣𝑖𝑖の次数を𝑘𝑘𝑖𝑖と表記することにする)。

    ∗ あるノードを起点として、隣接関係にあるノードをたどることで到達可能なノードの集合を、連結成分という。 到達できないノード同士は、非連結関係にあるという。 ∗ 次数0:独立ノード(非連結ノード)……連結成分が単一ノード ∗ 次数1:端点ノード

    ∗ ノードをたどる経路のうち、始点と終点が同じ(同じノードやリンクを2回以上通らずに始点に戻る)ものをサイクルという。

    ネットワーク(グラフ)

    10

  • ∗ 完全ネットワーク ∗ 全てのノードが、他の全てのノードと接続(次数𝑁𝑁 − 1)

    ∗ ツリーネットワーク(木・木構造) ∗ サイクルが存在しないネットワーク

    ∗ 1つでもリンクを取り除くと連結性が失われる、疎なネットワーク。 ∗ リンクの総数𝑀𝑀 = 𝑁𝑁 − 1

    ∗ スター型ネットワーク ∗ 全てのリンクがある1つのノード(中心ノード)と接続。

    ∗ ツリーネットワークの特殊な場合。∗ 中心ノードは次数𝑁𝑁 − 1、他のノードは全て次数1

    ∗ サイクルネットワーク ∗ ノードを1次元格子状に(順番に隣と)接続し、さらに両端を接続。

    ∗ 円周状のネットワーク。全てのノードが次数2

    特徴的なネットワーク

    11

  • ∗ 平均次数 ∗ 次数𝑘𝑘の平均。

    ∗ 𝑘𝑘� = 2𝑀𝑀𝑁𝑁

    (各々のリンクが必ず2つのノードと接続するので)

    ∗ リンク密度 ∗ 全てのノード対のうちで、リンクが張られている割合。

    ∗ 𝜌𝜌 = 𝑘𝑘�

    𝑁𝑁−1

    ∗ 完全ネットワークなら 𝑘𝑘� = 𝑁𝑁 − 1 なので 𝜌𝜌 = 1

    ネットワークの特徴量

    12

  • ∗ 最短経路長(最短距離) ∗ あるノードから別のノードに到達するために、最少でいくつのリンク

    を通る必要があるか。 ∗ ノード𝑣𝑣𝑖𝑖 , 𝑣𝑣𝑗𝑗が隣接していれば、最短経路長𝑟𝑟𝑖𝑖𝑗𝑗 = 1 ∗ 隣接していないが、別のノード𝑣𝑣𝑘𝑘に対してリンク𝑒𝑒𝑖𝑖𝑘𝑘, 𝑒𝑒𝑘𝑘𝑗𝑗がある場合に

    は、𝑟𝑟𝑖𝑖𝑗𝑗 = 2 ∗ ノード𝑣𝑣𝑖𝑖と他の全てのノードとの間での最短経路長の平均を、ノード𝑣𝑣𝑖𝑖の平均最短経路長𝐿𝐿𝑖𝑖という。

    ∗ 全てのノードについて平均最短経路長を求め、それを平均したものを、ネットワークの平均経路長𝐿𝐿という。 ∗ 非連結な場合は最短経路長が無限大に発散する(到達不能)。平均も

    無限大に発散。この場合、最大連結成分についてだけ議論することも。 ∗ 2つのノード間での最短経路長のうち最大のもの𝐿𝐿𝑚𝑚𝑚𝑚𝑚𝑚のことをネット

    ワークの直径という。 ∗ 完全ネットワークなら直径1、スター型ネットワークなら直径2

    ネットワークの特徴量

    13

  • ∗ まず、規則的なもの。

    ∗ 完全ネットワーク

    ∗ 格子ネットワーク ∗ 正方格子ネットワーク ∗ 一次元格子とサイクルネットワーク ∗ 拡張サイクルネットワーク

    ∗ サイクルで、1つ隣だけでなく 𝑎𝑎 個先のノードまでリンクをつなぐ。各ノードの次数は𝑘𝑘 = 2𝑎𝑎となる。

    様々なネットワーク

    14

  • ∗ ランダムネットワーク

    ∗ Erdős‒Rényiモデル ∗ 𝑀𝑀本のリンクをランダムに(全ての組合せから等確率で)選ぶ。

    ∗ こちらが元々のErdős‒Rényiランダムグラフモデル。 ∗ P. Erdős & A. Rényi, Pub. Math. 6, 290 (1959).

    ∗ 張り替え法(次のページで説明)で作れる。 ∗ 全てのノード対に対して独立に、確率𝑝𝑝でリンクを張る。

    ∗ 元々はGilbertにより上と独立に提案されたもの。 ∗ E. N. Gilbert, Ann. Math. Stat. 30, 1141 (1959).

    ∗ リンク生成率𝑝𝑝によって得られるネットワークの性質が異なる。

    ∗ 次数分布 𝑝𝑝 𝑘𝑘 =𝑁𝑁−1 𝐶𝐶𝑘𝑘𝑝𝑝𝑘𝑘 1 − 𝑝𝑝 𝑁𝑁−1−𝑘𝑘 ≈𝑒𝑒−𝜆𝜆𝜆𝜆𝑘𝑘

    𝑘𝑘!; 𝜆𝜆 = 𝑝𝑝(𝑁𝑁 − 1) ≈ 𝑝𝑝𝑁𝑁

    ∗ 平均経路長 𝐿𝐿 ∝ log𝑁𝑁、クラスタ係数 𝐶𝐶 = 𝑝𝑝 = 𝑘𝑘�

    𝑁𝑁−1≈ 𝑘𝑘

    𝑁𝑁

    様々なネットワーク

    15

  • ∗ Watts-Strogatzモデル ∗ まず規定のノード数・次数を持つ(拡張)サイクルを作成。 ∗ 任意のリンク 𝑒𝑒𝛼𝛼 = 𝑣𝑣𝑖𝑖 , 𝑣𝑣𝑗𝑗 に対し、ランダムにノード𝑣𝑣𝑘𝑘を

    選び、𝑣𝑣𝑗𝑗と入れ替える。但し、𝑖𝑖 ≠ 𝑘𝑘, 𝑗𝑗 ≠ 𝑘𝑘, 𝑒𝑒𝑖𝑖𝑘𝑘 = 𝜙𝜙 ∗ 元のリンク、ループ、多重リンクは禁止。

    ∗ この操作を、全てのリンクに対して確率𝑝𝑝で行う。

    ∗ 𝑝𝑝 = 1とすると、全てのリンクがランダムに入れ替えられる ため、ランダムネットワークが作れる。

    ∗ 𝑝𝑝 = 0なら(拡張)サイクルネットワークそのまま。

    様々なネットワーク

    16

  • ∗ Watts-Strogatzモデル

    ∗ 𝑝𝑝が中間の場合に、クラスタ係数は高いままだが平均経路長は短いようなネットワークが得られる。

    ∗ このように、 ランダムネットワークと比べて十分に高いクラスタ係数、 格子ネットワークと比べて十分に短い平均経路長、 ノード数に比べ十分小さい平均次数を持ったネットワークを スモールワールドネットワークと呼ぶ。

    スモールワールドネットワーク

    17

  • ∗ 次数分布: ある次数𝑘𝑘を持つノードが全体に占める割合𝑝𝑝(𝑘𝑘)

    ∗ 複雑ネットワークの中には、次数分布がべき乗則に従うものがよく見られる。 ∗ 𝑝𝑝 𝑘𝑘 ∝ 𝑘𝑘−𝛾𝛾 ∗ スケールフリー性がある、という。

    ∗ 𝑘𝑘を定数倍して𝑎𝑎𝑘𝑘としても、 𝑚𝑚𝑘𝑘−𝛾𝛾

    𝑘𝑘−𝛾𝛾= 𝑎𝑎−𝛾𝛾は𝑘𝑘によらない定数なので、

    特徴的な大きさを持たない。

    ∗ cf. Zipf則(𝑛𝑛番目に出現頻度の高いものの出現頻度∝ 1𝑛𝑛

    ) ∗ 平均次数が同じでも、ポアソン分布などと比べて、次数の高い

    ノード(ハブ)が存在する確率がはるかに高い。

    スケールフリーネットワーク

    18

  • ∗ 次数分布がべき乗則に従う。 ∗ 作り方で最も基本的なものが、Barabási-Albertモデル。

    ∗ A.-L. Barabási & R. Albert, Science 286, 509 (1999). ∗ 次数が高いノードほど(次数に比例して)さらに他のノードと

    つながりやすい優先的選択を導入した。 ∗ ノード群 𝑉𝑉 = 𝑣𝑣1,𝑣𝑣2, … , 𝑣𝑣𝑛𝑛 による完全ネットワークから開始。 ∗ 次数𝑚𝑚のノード𝑣𝑣𝑛𝑛+1を追加する。この時、接続するノード𝑣𝑣𝑖𝑖 は、

    ノード群𝑉𝑉から確率 Π𝑖𝑖 =𝑘𝑘𝑖𝑖

    ∑ 𝑘𝑘𝑗𝑗𝑛𝑛𝑗𝑗=1 で選択(これを𝑚𝑚回行う)。

    ∗ 𝑚𝑚個のノードと接続したノード 𝑣𝑣𝑛𝑛+1 を、ノード群𝑉𝑉に追加する。∗ これを𝑛𝑛 = 𝑁𝑁になるまで繰り返す。

    ∗ 次数分布𝑝𝑝(𝑘𝑘) ∝ 𝑘𝑘−3、クラスタ係数𝐶𝐶 = 𝑚𝑚−18

    log 𝑁𝑁 2

    𝑁𝑁→ 0

    スケールフリーネットワーク

    19

    https://doi.org/10.1126/science.286.5439.509

  • ∗ 知られている例として ∗ WWWのハイパーリンク ∗ スケールフリーかつスモールワールド

    ∗ 映画俳優共演ネットワーク ∗ 論文共著ネットワーク ∗ スケールフリーかつスモールワールド ∗ 正の同類選択性

    ∗ 共演・共著者の多いもの同士で、共演・共著しやすい。 ∗ 単語共起ネットワーク ∗ 文章中で同時に出現する単語のネットワーク ∗ スケールフリーだがスモールワールドではない(クラスタ係数

    が非常に低い)。

    スケールフリーネットワーク

    20

  • ∗ 初期の研究例として、 タンパク分子間相互作用のネットワーク

    ∗ S. Maslov & K. Sneppen, "Specificity and stability in topology of protein networks", Science 296, 910 (2002).

    ∗ これもスケールフリーネットワーク。 ∗ 次数の高いノード(ハブ)同士が直接リンクすることは少ない。

    生物からの例

    21

    https://doi.org/10.1126/science.1065103https://doi.org/10.1126/science.1065103

  • ∗ 生化学反応のネットワーク ∗ 例えば、代謝系

    生物からの例

    KEGG Metabolic pathways - Reference pathway

    22

  • ∗ 生化学反応のネットワーク ∗ 酵素による触媒反応が重要な役割を果たしている。 ∗ 実際の生化学反応のネットワークは複雑な構造を持つが、

    例えば 𝐴𝐴 + 𝐵𝐵 → 𝐴𝐴 + 𝐶𝐶 のような形の、単純な触媒反応を組み合わせたネットワークとしてモデル化することを考える。 ∗ ひとまず触媒・基質・生成物をランダムに選択するなどして、

    ネットワークを構成。 ∗ 基質と生成物だけに注目すると有向グラフ。

    触媒まで含めると単純なグラフで表せない難しさはある。

    触媒反応ネットワークと 細胞のモデル

    23

  • ∗ ここから、私自身の研究の話 ∗ 「先端数学」や「複雑系数理」では時間の都合で話せなかった

    ことを。 ∗ 1つは、このような触媒反応ネットワークにおける ∗ 触媒(酵素)自身の構造・反応のダイナミクスの影響 ∗ 細胞のような混雑環境における分子の大きさ・形の影響 ∗ 分子の個数が少なかったり疎にしかなかったりすることの影響

    といったことを考えています。 ∗ 特に少数個の分子の効果について、研究を進めてきました

    (「少数性生物学」プロジェクト)。

    触媒反応ネットワークと 細胞のモデル

    24

  • ∗ 当然ながら、化学成分の実体は分子。 ∗ 通常は連続濃度で表現して微分方程式を立てるが、実際には

    個数は整数でしかあり得ない。0, 1, 2, … とデジタルな変化。 ∗ 特に顕著なのは1個と0個、すなわち、「有」と「無」の間の

    不連続な変化。連続濃度にしたことが悪さをしないか? ∗ 1個でも、多数のものの振舞いに影響を及ぼせる? → Yes(でなければDNAはほとんど何もできないはず) ∗ 基質として消費されるのでなく、触媒や鋳型として働く場合、

    1個の分子によって多数回の反応が引き起こされる。

    触媒反応ネットワークと 少数分子問題

    25

  • ∗ 1分子でも、触媒として働くなら影響大 → 反応ネットワークの振舞いにはどう影響するか?

    ∗ 先ほど話したような、シンプルな触媒反応:

    ∗ 下のように表記:

    触媒反応ネットワークと 少数分子問題

    A + B → A + C

    B A

    C 26

  • ∗ 最近の成果: ある条件を満たす触媒反応ネットワーク一般に対し、 各成分の濃度の平均、分散、……を計算(予言)できる理論。 ∗ シミュレーションによる考察は進んだが、この程度のことでも

    理論の整備が進んでいなかった。

    触媒反応ネットワークと 少数分子問題

    N: 総分子数 λi: N→∞での濃度 平均

    分散

    Nの式で表される (少数性効果)

    M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016). 27

  • ∗ この部分を もう少し詳しくみてみます。

    触媒反応ネットワークと 少数分子問題

    28

  • A “Textbook” Picture of a Cell

    From Molecular Biology of the Cell (Alberts et al.)

    ここからしばらく研究発表のスライドで説明します (考えていることをつらつら話しますので、全部メモしなくて良いです)。

    29

  • Biochemical Processes Modeled as Reaction-Diffusion Systems

    We often model biochemical processes (and even whole cells / organisms) as Reaction(-Diffusion) Systems. Most activities of the cell / organism depend on

    chemical reactions! A variety of enzymes are involved.

    Classical scheme: to consider how fast the reactions proceed, and how fast the concentrations change. Represented by differential equations

    of concentrations.

    30

  • Biochemical Processes Modeled as Reaction-Diffusion Systems

    Turing pioneered the field 60+ years ago!

    A. M. Turing, Phil. Trans. Roy. Soc. B 237, 37 (1952).

    31

  • PEESSE1k

    1k

    ]][[1 SEk

    ][1 ESk][]][[][ 11 ESkSEkS

    ]ES

    EESSE EESSE PPPPPP

    1kkkk kk ESES[1[1 ESk

    The System is Represented by Concentrations [S] [E] [ES]

    1k1k11k1k11kk1k1k1[1 E ]S][SEEE ]Biochemistry (N→∞)

    32

  • Many Many Many

    To study biochemical reactions, we use equations of concentrations, assuming that molecules are:

    T i n y & Memoryless

    33

  • Molecules in the Cell... 1. MEMORYLESS?

    Enzymes are macro-molecular machines. Reaction cycles

    coupled with the motion Sometimes taking

    a long time > ms ~ s. Reaction event cannot be

    completed immediately, i.e., with states or memory. Acetyl-CoA Synthase

    movie by molmovdb

    34

  • Molecules in the Cell... 2. TINY?

    Cells are highly crowded with macromolecules. NOT Point-like. Also structural elements

    such as membranes and cytoskeletons, particularly in eukaryotes.

    Bacterial cytoplasm model by S. R. McGuffee and A. H. Elcock, PLoS Comput. Biol. 6, e1000694 (2010). (consisting of 275g/l macromolecules)

    (Photo by Chris73, Wikipedia)

    35

  • Molecules in the Cell... 3. MANY?

    A variety of chemicals in a small system Eukaryotic cell ~10um Organelle in the cell

    or Bacteria ~1um → some must be rare! 1 molecule / 1μm3 (1fL),

    = 1.7nM Direct evidence →

    Sometimes there, sometimes not! Quantification of protein copy numbers in e-coli.

    From Y. Taniguchi et al., Science 329, 533 (2010).

    ここここここここここここここここここ

    < 1 molecule per cell

    36

  • Many Many Many

    To study biochemical reactions, we use equations of concentrations, assuming that molecules are:

    State, Shape & Small-Number

    T i n y & Memoryless

    issues may change the game!

    < 1 molecule / cell

    Low Copy Number Proteins in E. coli. Y. Taniguchi et al., Science 329, 533 (2010).

    Protein Conformations as Internal States Acetyl-CoA Synthase movie by molmovdb

    Crowded Cytosol of E. coli. S. R. McGuffee and A. H. Elcock, PLoS Comput. Biol. 6, e1000694 (2010).

    37

  • What will happen then?

    Many Many Many < 1 molecule / cell

    Low Copy Number Proteins in E. coli. Y. Taniguchi et al., Science 329, 533 (2010).

    Small-Number

    Let us think about small numbers of molecules ...

    38

  • A

    ++A

    +B

    B B*

    A*

    A* B*

    A*

    B* Spontaneous Activation

    Active A* and B* React

    Inactivate either A* or B*

    A→A*, B→B* A*+B*→A*+B, A*+B*→A+B* r r s s

    A Simple Catalytic Reaction Model

    r and s are fixed, so that 5% of A and B are active at the steady state ([A]+[A*] = [B]+[B*] = 1, r = 0.0025, s = 0.95).

    ++

    A*A*

    SpontaneousActivation either A* or B*Activation

    B*B*A*A*A*

    B*B*B*B*+

    A*

    SpontaneousActivationActivation

    Inactivateeither A* or B*

    39

  • In the Classical Scheme As long as the system is well mixed,

    the rate of each reaction depends only on the concentrations ([A], [A*], [B], [B*]). i.e., the "speed" at which each concentration

    changes is determined by the concentrations. We can write down

    differential equations. The size of the system

    (volume of the solution) has no effect. The concentrations change in the same way. In this case, active [A*] & [B*] converges to 5%.

    Is it true?

    40

  • Let's Try Simulation

    Divide into 10

    Divide into 10

    If the classical scheme is correct, always 5% active. V=1000

    V=100

    V=10

    41

  • In a Relatively Large System ...

    Volume V = 1000 (1000x A & 1000x B)

    5.4% active

    42

  • Divide the System into 10 ...

    V = 100, same concentration (100x A & 100x B).

    7.8% active

    43

  • Divide the System into 10 again ...

    V = 10, same concentration (10x A & 10x B). 18.3% active

    18.3% active

    18.3% active

    44

  • Even in such a simple model ...

    5% active (reaction rate equation, i.e., V→∞). 5.4% (V=1000) to 18.3% active (V=10). As you see,

    not only fluctuations are enhanced, but the average (steady state) is altered.

    By just dividing the system into 100 subsystems, > 3x more active molecules.

    45

  • The Mechanism is Simple

    B

    A*

    BB

    A*A*A

    B* AAA

    B*

    Put them in Jail!

    46

  • The Mechanism is Simple

    In a certain state, the reactions stall. No counterpart.

    i.e., the entire dynamics is slowed down. It takes long time to escape from the state.

    Consequence: The state is over-represented. It appears more frequently than expected.

    47

  • The Mechanism is Simple

    Particularly if the system involves Catalysts (Enzymes) or Templates (Genes)

    Because a single molecule can exert many reaction

    events (not consumed as a substrate). Even a single molecule can make drastic changes.

    48

  • The Mechanism is Simple

    That is critical for cells!

    Maybe beneficial.

    Membranes

    Scaffolds Cytoskeletons

    49

  • Discrete Nature of Molecules

    The number of molecules must be integer: 0, 1, 2, … (Digital). Not 0.5 molecules!

    It is most significant between 0 and 1 (Off and On). However, stoichiometry is also important,

    even in seemingly binary (On/Off) gene expression. X-chromosome inactivation: 2 to 1 Trisomy syndromes: 2 to 3

    Hence, we must consider the numbers! We have discussed possible small-number effects by

    using numerical simulations.

    50

  • Although Mathematically Difficult

    Still it is difficult to mathematically predict the behavior without simulations.

    We recently made some theoretical progress. N: Total number of molecules λi: Concentration for N→∞

    Average concentration

    Variance

    Effect of N i.e. number

    M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016).

    Combination (network) of catalytic reactions

    Predict

    51

  • Discreteness in Numbers: Catalytic Reaction Network Model

    Catalysts (enzymes) and templates (DNA, RNA): even a single molecule can exert many reaction events and significantly affect the behavior.

    Model: as simple as possible! Represented by:

    A + B → A + C

    B A

    C

    52

  • Model: 2-body Catalytic Reaction Networks

    Recently, Saito & Kaneko showed interesting cases: Phys. Rev. E 91, 022707 (2015); J. Chem. Phys. 145, 094111 (2016).

    53

  • 2-body Catalytic Reaction Networks Directed Graphs with Numbered Edges

    54

  • Discreteness in Numbers, and Changes of Effective Networks

    A model network. (# of ○ shows # of molecules) 55

  • Discreteness in Numbers, and Changes of Effective Networks

    Same model, with 1/10 of system size (volume). 56

  • Discreteness in Numbers, and Changes of Effective Networks

    How about in more complex networks? Random networks have been often studied.

    We want to study systematically. However, naïvely thinking, there may be: However, naïvely thinking, there may be:

    57

  • Model: Catalytic Reaction Networks

    Number of chemical species: 𝑀𝑀 Total number of molecules: 𝑁𝑁 Volume of the reactor: 𝑉𝑉≡𝑁𝑁

    Two types of reactions:

    𝑖𝑖 𝑘𝑘 𝑗𝑗

    𝑖𝑖 𝑗𝑗

    Catalytic reactions (rate constants: 𝑟𝑟)

    Non-catalytic reactions (rate constants: 𝜀𝜀 ≪ 𝑟𝑟)

    Prob. 1/𝑀𝑀 Substrate Catalyst

    Product

    58

  • Ex.

    Index of species

    1 2 3 4 5 6 7 8 9 10

    # of reactions the species catalyzes

    5 4 3 2 1 0 0 0 0 0

    Heterogeneity of Catalytic Reaction Networks

    𝑛𝑛𝑅𝑅

    Substrate and Product are randomly chosen.

    59

  • Case 1: Without Auto-Catalysts

    When 𝑁𝑁 is very small, multifunctional enzymes (large 𝑛𝑛𝑅𝑅) show lower conc. 𝑛𝑛𝑖𝑖/𝑁𝑁.

    Substrate and Product are randomly chosen.

    60

  • Case 2: With Auto-Catalysts

    When 𝑁𝑁 is moderately small, multifunctional enzymes (large 𝑛𝑛𝑅𝑅) show higher conc. 𝑛𝑛𝑖𝑖/𝑁𝑁.

    Substrate and Product are randomly chosen.

    61

  • Discreteness in Numbers, and Changes of Effective Networks

    Some strange behavior has been found using simple models and simulations.

    An analytical frameworks (as general as possible) to analyze and predict these behavior is wanted.

    Despite

    Gillespie’s stochastic simulation methods (1976, 1977)

    Blumenfeld et al. mentioned the breakdown of mass action law in small systems (1980s-).

    it is still underway.

    62

  • Discreteness in Numbers: Catalytic Reaction Network Model We have constructed a theory to predict

    without running simulations.

    Although the condition is quite strong ...

    Given arbitrary networks

    Predict

    The time-averaged concentration of each species

    �̅�𝑥𝑖𝑖

    The stationary distribution of the concentration of each species

    P 𝑥𝑥𝑖𝑖

    The variance of the concentration of each species

    Var 𝑥𝑥𝑖𝑖

    under certain conditions

    M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016). M. Nakagawa et al., 京都大学数理解析研究所講究録 2028, 120 (2017).

    63

  • Assumption for the network structure 𝑅𝑅𝑖𝑖𝑗𝑗𝑘𝑘

    #𝑘𝑘 ∶

    𝑅𝑅𝑖𝑖𝑗𝑗𝑘𝑘 > 0 ∀𝑖𝑖, 𝑗𝑗

    = 1

    Without auto-catalysts

    𝑖𝑖 𝑘𝑘 𝑖𝑖

    Substrate ≠ Catalyst

    𝑖𝑖 𝑖𝑖 𝑗𝑗

    Substrate ≠ Product

    𝑖𝑖 𝑘𝑘 𝑗𝑗

    𝑘𝑘𝑘 𝑗𝑗

    One product against a substrate and a catalyst

    𝑖𝑖 𝑘𝑘 𝑘𝑘 Catalyst ≠ Product

    𝑅𝑅𝑖𝑖𝑖𝑖𝑘𝑘 = 0

    𝑅𝑅𝑖𝑖𝑘𝑘𝑘𝑘 = 0

    𝑅𝑅𝑖𝑖𝑗𝑗𝑖𝑖 = 0

    3

    4

    1

    2

    M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016).

    64

  • The State Space of Catalytic Reaction Networks The state is specified by the combination of 𝑀𝑀 integers (≧0)

    𝒏𝒏 = 𝑛𝑛1,𝑛𝑛2,⋯ ,𝑛𝑛𝑀𝑀 𝑛𝑛𝑖𝑖 ∈ 0,𝑁𝑁 is the number of molecules of the 𝑖𝑖th-species.

    The state space 𝑊𝑊𝑀𝑀,𝑁𝑁 = 𝒏𝒏 ∈ 0,𝑁𝑁 𝑀𝑀 ∶ 𝑛𝑛1 + ⋯+ 𝑛𝑛𝑀𝑀 = 𝑁𝑁 consists of 𝑀𝑀𝐻𝐻𝑁𝑁 = 𝑁𝑁+𝑀𝑀−1 !𝑀𝑀−1 !𝑁𝑁! points.

    Example: M=3 species, N=10 molecules in total. There are 66 states shown as ○ →

    N=10 moleculesThere are 66 states shown as ○ →

    M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016).

    65

  • Chemical Master Equation

    Probability for a certain state n at time t obeys: It knows almost everything, but too many states!

    𝑑𝑑𝑑𝑑 𝒏𝒏, 𝑡𝑡𝑑𝑑𝑡𝑡 =

    𝜌𝜌𝑁𝑁�𝑅𝑅𝑖𝑖𝑗𝑗𝑘𝑘 𝐸𝐸𝑖𝑖

    +1𝐸𝐸𝑘𝑘−1 − 1 𝑛𝑛𝑖𝑖𝑛𝑛𝑗𝑗𝑑𝑑 𝒏𝒏, 𝑡𝑡𝑖𝑖,𝑗𝑗,𝑘𝑘

    +𝜀𝜀𝑀𝑀� 𝐸𝐸𝑖𝑖

    +1𝐸𝐸𝑗𝑗−1 − 1 𝑛𝑛𝑖𝑖𝑑𝑑 𝒏𝒏, 𝑡𝑡𝑖𝑖,𝑗𝑗

    where 𝐸𝐸𝑖𝑖±𝑚𝑚 are step operators; 𝐸𝐸𝑖𝑖

    ±𝑚𝑚𝑓𝑓 𝑛𝑛1,⋯ ,𝑛𝑛𝑖𝑖 ,⋯ , 𝑛𝑛𝑀𝑀 ≔ 𝑓𝑓 𝑛𝑛1,⋯ ,𝑛𝑛𝑖𝑖 ± 𝑚𝑚,⋯ ,𝑛𝑛𝑀𝑀 .

    Catalytic reactions Non-catalytic reactions

    𝒏𝒏 = 𝑛𝑛1,⋯ ,𝑛𝑛𝑖𝑖 ,⋯ ,𝑛𝑛𝑗𝑗,⋯ ,𝑛𝑛𝑘𝑘,⋯ ,𝑛𝑛𝑀𝑀

    𝐸𝐸𝑖𝑖+1𝐸𝐸𝑘𝑘−1𝒏𝒏 = 𝑛𝑛1,⋯ ,𝑛𝑛𝑖𝑖 + 1,⋯ ,𝑛𝑛𝑗𝑗 ,⋯ ,𝑛𝑛𝑘𝑘 − 1,⋯ ,𝑛𝑛𝑀𝑀 𝑅𝑅𝑖𝑖𝑗𝑗𝑘𝑘(𝑛𝑛𝑖𝑖+1)𝑛𝑛𝑗𝑗

    𝑁𝑁𝜌𝜌 times per time

    𝑅𝑅𝑖𝑖𝑗𝑗𝑘𝑘𝑛𝑛𝑖𝑖𝑛𝑛𝑗𝑗𝑁𝑁𝜌𝜌 times per time 𝐸𝐸𝑖𝑖−1𝐸𝐸𝑘𝑘+1𝒏𝒏 = 𝑛𝑛1,⋯ ,𝑛𝑛𝑖𝑖 − 1,⋯ ,𝑛𝑛𝑗𝑗 ,⋯ ,𝑛𝑛𝑘𝑘 + 1,⋯ ,𝑛𝑛𝑀𝑀

    𝑖𝑖 𝑘𝑘 𝑗𝑗

    𝑖𝑖 𝑗𝑗 Prob. 1/𝑀𝑀

    𝒏𝒏 = 𝑛𝑛1,⋯ ,𝑛𝑛𝑖𝑖 ,⋯ ,𝑛𝑛𝑗𝑗 ,⋯ ,𝑛𝑛𝑀𝑀

    𝐸𝐸𝑖𝑖+1𝐸𝐸𝑗𝑗−1𝒏𝒏 = 𝑛𝑛1,⋯ ,𝑛𝑛𝑖𝑖 + 1,⋯ ,𝑛𝑛𝑗𝑗 − 1,⋯ ,𝑛𝑛𝑀𝑀

    𝐸𝐸𝑖𝑖−1𝐸𝐸𝑗𝑗+1𝒏𝒏 = 𝑛𝑛1,⋯ ,𝑛𝑛𝑖𝑖 − 1,⋯ ,𝑛𝑛𝑗𝑗 + 1,⋯ ,𝑛𝑛𝑀𝑀

    𝜀𝜀𝑀𝑀

    (𝑛𝑛𝑖𝑖+1) times per time

    𝜀𝜀𝑀𝑀𝑛𝑛𝑖𝑖 times per time

    Catalytic reactions

    Non-catalytic reactions

    66

  • Magic Staff: Generating Function Method

    Generating Function:

    𝜙𝜙 𝒛𝒛, 𝑡𝑡 ≔ � 𝑑𝑑 𝒏𝒏, 𝑡𝑡 𝑧𝑧1𝑛𝑛1𝑧𝑧2𝑛𝑛2 ⋯𝑧𝑧𝑀𝑀𝑛𝑛𝑀𝑀𝑁𝑁

    𝑛𝑛1,⋯,𝑛𝑛𝑀𝑀=0(𝑛𝑛1+⋯+𝑛𝑛𝑀𝑀=𝑁𝑁)

    Translations:

    𝑑𝑑 𝒏𝒏, 𝑡𝑡 ⟼ 𝜙𝜙 𝒛𝒛, 𝑡𝑡 𝑛𝑛𝑖𝑖𝑑𝑑 𝒏𝒏, 𝑡𝑡 ⟼ 𝑧𝑧𝑖𝑖𝜕𝜕𝑧𝑧𝑖𝑖𝜙𝜙 𝒛𝒛, 𝑡𝑡

    𝑛𝑛𝑖𝑖𝑛𝑛𝑗𝑗𝑑𝑑 𝒏𝒏, 𝑡𝑡 ⟼ 𝑧𝑧𝑖𝑖𝑧𝑧𝑗𝑗𝜕𝜕𝑧𝑧𝑖𝑖𝜕𝜕𝑧𝑧𝑗𝑗𝜙𝜙 𝒛𝒛, 𝑡𝑡 𝑖𝑖 ≠ 𝑗𝑗 𝐸𝐸𝑖𝑖+1𝐸𝐸𝑗𝑗−1𝑛𝑛𝑖𝑖𝑑𝑑 𝒏𝒏, 𝑡𝑡 ⟼ 𝑧𝑧𝑗𝑗𝜕𝜕𝑧𝑧𝑖𝑖𝜙𝜙 𝒛𝒛, 𝑡𝑡 𝑖𝑖 ≠ 𝑗𝑗

    𝐸𝐸𝑖𝑖+1𝐸𝐸𝑘𝑘−1𝑛𝑛𝑖𝑖𝑛𝑛𝑗𝑗𝑑𝑑 𝒏𝒏, 𝑡𝑡 ⟼ 𝑧𝑧𝑗𝑗𝑧𝑧𝑘𝑘𝜕𝜕𝑧𝑧𝑖𝑖𝜕𝜕𝑧𝑧𝑗𝑗𝜙𝜙 𝒛𝒛, 𝑡𝑡 𝑖𝑖 ≠ 𝑗𝑗 ≠ 𝑘𝑘 M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016).

    67

  • Generating Function Equation

    Equation governing the generating function: 𝜕𝜕𝜙𝜙 𝒛𝒛, 𝑡𝑡𝜕𝜕𝑡𝑡

    =𝜌𝜌𝑁𝑁�𝑅𝑅𝑖𝑖𝑗𝑗𝑘𝑘𝑖𝑖,𝑗𝑗,𝑘𝑘

    𝑧𝑧𝑘𝑘 − 𝑧𝑧𝑖𝑖 𝑧𝑧𝑗𝑗𝜕𝜕𝜕𝜕𝑧𝑧𝑖𝑖

    𝜕𝜕𝜕𝜕𝑧𝑧𝑗𝑗

    𝜙𝜙 𝒛𝒛, 𝑡𝑡 +𝜀𝜀𝑀𝑀� 𝑧𝑧𝑖𝑖 − 𝑧𝑧𝑗𝑗

    𝜕𝜕𝜕𝜕𝑧𝑧𝑗𝑗

    𝜙𝜙 𝒛𝒛, 𝑡𝑡𝑖𝑖,𝑗𝑗

    The generating function knows all moments:

    i.e., we can calculate average, variance, etc. from this!

    𝑛𝑛𝑖𝑖 =𝜕𝜕𝜙𝜙 𝒛𝒛, 𝑡𝑡𝜕𝜕𝑧𝑧𝑖𝑖

    �𝒛𝒛=𝟏𝟏

    , 𝑛𝑛𝑖𝑖𝑛𝑛𝑗𝑗 =𝜕𝜕2𝜙𝜙 𝒛𝒛, 𝑡𝑡𝜕𝜕𝑧𝑧𝑖𝑖𝜕𝜕𝑧𝑧𝑗𝑗

    �𝒛𝒛=𝟏𝟏

    𝑖𝑖 ≠ 𝑗𝑗 , etc.

    M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016).

    68

  • Assuming “Entire Ergodicity”, we can obtain

    𝑥𝑥𝑖𝑖� =𝜆𝜆𝑖𝑖 − 𝜆𝜆𝑖𝑖𝑁𝑁

    1 − ∑ 𝜆𝜆𝑙𝑙𝑁𝑁𝑀𝑀𝑙𝑙=1𝜌𝜌

    Assuming “Entire Ergodicity”,Entire Ergodicity”,Entire Ergodicity”we can obtain

    𝜆𝜆𝑖𝑖 − 𝜆𝜆𝑖𝑖𝑁𝑁

    𝑑𝑑 𝒏𝒏 = �𝑁𝑁

    𝑛𝑛1,𝑛𝑛2,⋯ ,𝑛𝑛𝑀𝑀

    ∏ 𝜆𝜆𝑖𝑖𝑛𝑛𝑖𝑖𝑀𝑀

    𝑖𝑖=1

    1 − ∑ 𝜆𝜆𝑖𝑖𝑁𝑁𝑀𝑀𝑖𝑖=1 , 𝒏𝒏 ∈ 𝑊𝑊 ∖ 𝐼𝐼

    0, 𝒏𝒏 ∈ 𝐼𝐼

    Var 𝑥𝑥𝑖𝑖 =𝜆𝜆𝑖𝑖2 − 𝜆𝜆𝑖𝑖𝑁𝑁 −

    1𝑁𝑁𝜆𝜆𝑖𝑖 𝜆𝜆𝑖𝑖 − 1

    1 − ∑ 𝜆𝜆𝑙𝑙𝑁𝑁𝑀𝑀𝑙𝑙=1−

    𝜆𝜆𝑖𝑖 − 𝜆𝜆𝑖𝑖𝑁𝑁

    1 − ∑ 𝜆𝜆𝑙𝑙𝑁𝑁𝑀𝑀𝑙𝑙=1

    2

    𝜌𝜌 𝑥𝑥𝑖𝑖� =𝑖𝑖 𝑖𝑖

    1 − ∑ 𝜆𝜆𝑙𝑙𝑁𝑁𝑀𝑀𝑙𝑙=1𝜌𝜌 Var 𝑥𝑥𝑖𝑖 =

    𝑖𝑖 𝑖𝑖 𝑁𝑁 𝑖𝑖 𝑖𝑖

    1 − ∑ 𝜆𝜆𝑙𝑙𝑁𝑁𝑀𝑀𝑙𝑙=1− 𝑖𝑖 𝑖𝑖

    1 − ∑ 𝜆𝜆𝑙𝑙𝑁𝑁𝑀𝑀𝑙𝑙=1𝜌𝜌

    � 𝑅𝑅𝑘𝑘𝑖𝑖𝑗𝑗𝜆𝜆𝑘𝑘𝜆𝜆𝑖𝑖 + 𝑅𝑅𝑘𝑘𝑗𝑗𝑖𝑖𝜆𝜆𝑘𝑘𝜆𝜆𝑗𝑗 − 𝑅𝑅𝑖𝑖𝑗𝑗𝑘𝑘 + 𝑅𝑅𝑗𝑗𝑖𝑖𝑘𝑘 𝜆𝜆𝑖𝑖𝜆𝜆𝑗𝑗

    𝑀𝑀

    𝑘𝑘=1

    = 0, (1 ≤ 𝑖𝑖 < 𝑗𝑗 ≤ 𝑀𝑀)

    𝜆𝜆𝑖𝑖 represents the 𝑖𝑖-th species’ concentration per total density 𝜌𝜌 in the continuous limit 𝑁𝑁 → ∞.

    �𝜆𝜆𝑖𝑖

    𝑀𝑀

    𝑖𝑖=1

    = 1, 0 ≤ 𝜆𝜆𝑖𝑖

    < 1 (∀𝑖𝑖)

    𝜆𝜆𝑖𝑖 must satisfy the following equation (𝝀𝝀-condition):

    M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016).

    実はここから適用範囲の制約が生ずるのですが cf.) D. F. Anderson, et al., "Product-form stationary distributions for deficiency zero chemical reaction networks", Bull. Math. Biol. 72, 1947 (2010).

    69

  • Comparison between Our Theory and Numerical Simulations

    Statistics agree well with simulations.

    The total number of molecules 𝑁𝑁

    The

    time-

    aver

    aged

    co

    ncen

    trat

    ion

    Stationary distributions of each species (so-called, the marginal distribution), derived from the 𝑑𝑑 𝒏𝒏 .

    𝜌𝜌 = 1 (fixed)

    (using the Gillespie’s algorithm)

    M. Nakagawa & Y. Togashi, Front. Physiol. 7, 89 (2016).

    70

  • Just “Fluctuations”?

    Even the average is drastically changed by the small numbers (low density) of molecules. Not just fluctuations ≒ Gaussian noise ~√N.

    71

  • Small Numbers of Molecules and Reaction Network Structure

    By the way, real biochemical systems involve a huge variety of chemicals and reactions. e.g., proteins consisting of L amino acids

    → 20L possible sequences

    The reaction-network structure is important. If a novel chemical species is produced, that

    species may induce a new kind of reaction; i.e., the network structure changes.

    72

  • Small Numbers of Molecules and Reaction Network Structure

    Then, the situation is # of possible chemical species ≫ # of molecules.

    However, apparently, # of existing chemical species ≦ # of molecules. Most possible species do not exist. The effective reaction network is only a small part of

    the possible reaction network. When a species appears or disappears (i.e., N = 0→1

    or 1→0), the network structure may be switched. Small-number (rare) species may act as a switch

    → Origin of genetic information?

    73

  • 少数分子反応ネットワーク理論の構築 -少数性と階層性の観点からのモデリング-

    科研費のプロジェクトは終わりましたが引き続き。 74

  • ∗ もう1つは、全く変わりますが、 生体高分子の構造を単純化して、バネのネットワークとしてとらえたようなモデルを用いて、力学的特徴を考えています。 ∗ クモの巣や橋梁のような力学的なネットワーク構造のイメージ。

    ∗ さらに、複数の形ある分子の間の相互作用を考えようとしています。 ∗ 総説: 冨樫, 生物物理 48, 114 (2008).

    分子構造とネットワーク

    75

    http://doi.org/10.2142/biophys.48.114

  • ∗ Motion ∗ Conformational change → Track the motion of each atom in the molecule! ∗ Basic concepts of classical molecular dynamics simulation: ∗ Consider a molecule, or molecular assembly (complex), as a

    classical particle system. ∗ Particle = Atom

    ∗ Solve the equation of motion for each molecule, to track the motion. ∗ Numerical solution of an initial value problem of simultaneous

    ordinary differential equations. ∗ The force on each atom is approximated as a function of

    atomic coordinates.

    Simulation of Molecular Motion

    76

  • ∗ Molecules are modeled as a classical particle system (particle = atom). ∗ i.e., a classical N-body system

    ∗ Variables of the equation of motion: ∗ Position ∗ Velocity or Momentum

    ∗ In 3-dim., 3+3 = 6 variables (6-dim. phase space) for each atom.

    ∗ Similar to gravitational N-body systems ∗ Only gravity (inverse-square attraction) is considered.

    Classical N-body System

    Mass :2,1 Constant, nalGravitatio : Distance, : ;221 mmGr

    rmGmF

    77

  • ∗ Gravity

    ∗ Coulomb interaction

    ∗ Also an inverse-square central force, although it can be repulsive.

    ∗ For other cases? ∗ Covalent bonds, hydrogen bonds, Van-der-Waals interactions, ... ∗ Approximate these all as functions of atomic coordinates!

    Classical N-body System

    Mass :2,1 Constant, nalGravitatio : Distance, : ;221 mmGr

    rmGmF

    Charge :2,1 Constant, Dielectric : Distance, : ; 4 221 qqrr

    qqF

    78

  • Force Fields Example: H-Ras (PDB: 5P21), 166 a.a. residues

    79

  • Force Fields

    Bond length

    Bond angle

    Dihedral

    Distance (non-bonded)

    ... can be calculated from atomic coordinates.

    80

  • ∗ An actual example (CHARMM22)

    Force Fields Length

    Angle Dihedral

    Distance

    81

  • Construct a Model Example: H-Ras (PDB: 5P21), 166 a.a. residues

    82

  • H-RAS (5P21): 166 residues 2619(protein) + 29229(water) + 8(ion) = 31856 atoms.

    83

  • 300K, 1atm 2fs step (with SHAKE)

    H-RAS (5P21): 166 residues 2619(protein) + 29229(water) + 8(ion) = 31856 atoms.

    84

  • ∗ 一般に、計算量が極めて大きい。 ∗ 通常の研究室レベルの計算機だと、どうにかマイクロ秒。 ∗ 専用計算機を使ってやっとミリ秒のオーダーに。

    ∗ 計算機の規模が大きくなったとして、 より大きい分子を同じ時間分だけ計算することはできても、同じ分子をより長い時間にわたって計算することは難しい。 ∗ Strong scalingの問題

    実際上の問題

    85

  • ∗ 一つのアプローチは、 モデルの方を簡単にして計算量を減らすこと。

    ∗ 粗視化 ∗ 要素数が減る→相互作用の数を劇的に減らせる。 ∗ 数値積分のステップ時間を延ばせる。

    ∗ 全原子でまじめにやるとだいたい1fs/ステップが限界 ∗ 一番速い振動の周期より十分短くないといけない。 ∗ とにかく水素原子が軽いので、水素との結合が最初に問題になる

    → 結合長を固定することが多い。これで2fsくらいに。 ∗ 粗視化された要素なら、 1ステップでの動きの許容範囲が大きく、

    動き(振動・ゆらぎ)も相対的に遅い。 ∗ 仮に、C-H結合の長さが0.3Å変わったら大事(発散する!)だが、

    2次構造くらいの要素で粗視化するならば、要素間の距離が0.3Å 変わってもさほどではない。

    モデルの粗視化・単純化

    86

  • ∗ 中間解像度モデル (1残基→2~数個の粒子) ∗ 割とよく使われていそうなのが、

    MARTINI粗視化力場 ∗ 平均で4個の重原子を1個の粒子に。

    脂質のモデルも。 ∗ 日本だと使っている人が少ない?

    ∗ 他にも様々なモデルがある。 ∗ ステップ状のポテンシャル関数を用いてイベントドリブンに

    動かす、離散分子動力学(DMD)も。

    モデルの粗視化・単純化

    MARTINI ff: http://md.chem.rug.nl/~marrink/coarsegrain.html

    87

  • ∗ 残基レベルのモデル (1残基→1粒子) ∗ 郷モデルとその亜種:

    基準とした既知構造での位置関係(接触関係)に依存して、 ポテンシャルを規定。

    ∗ 弾性ネットワークとその亜種(塑性ネットワークなど) ∗ 基準構造に依存する点で、広義の郷モデル。 ∗ 相互作用を2体間引力-斥力のみに単純化(角度の計算なし)。 ∗ 最も単純な弾性ネットワークでは、全てを線形(自然長)バネに。

    ∗ さらに粗視化(複数の残基 or 2次構造→要素)したモデル

    モデルの粗視化・単純化

    88

  • ∗ 残基レベルのモデル ∗ 単純化した例:粗視化弾性ネットワークモデル ∗ 相互作用も単純化:

    全てを線形自然長バネ(基準となる構造で自然長)に。 ∗ 総説: 冨樫, 生物物理 48, 114 (2008).

    モデルの粗視化・単純化

    89

    http://doi.org/10.2142/biophys.48.114

  • ∗ 基準振動解析に使われることの 多いモデルですが、 MDにも使えます。 外力を加えたりも。 ∗ これは少々荒っぽい

    デモですが。 ∗ M. Düttmann, Y. Togashi

    & A. S. Mikhailov, Biophys. J. 102, 542 (2012).

    モデルの粗視化・単純化

    90

    http://dx.doi.org/10.1016/j.bpj.2011.12.013http://dx.doi.org/10.1016/j.bpj.2011.12.013http://dx.doi.org/10.1016/j.bpj.2011.12.013

  • ∗ ネットワークそのものの話と 若干離れますが……

    ちなみに

    91

  • ∗ 弾性ネットワークモデル ∗ 線形自然長バネをつないだモデル ∗ 力場(ポテンシャルエネルギー関数)は の形 ∗ 座標で偏微分すると力。

    ∗ バネの自然長は、基準となる構造での値に等しい。 すなわち、基準構造が常に最安定構造(の1つ)。

    構造モデルと基準振動解析

    92

  • ∗ 基準構造が最安定 →その周りで小さな摂動を加えたらどうなるか

    構造モデルと基準振動解析

    ↑バネの向きの単位ベクトル 93

  • ∗ 基準構造が最安定 →その周りで小さな摂動を加えたらどうなるか

    ∗ 行列を使ってまとめると

    ∗ 固有ベクトル方向に分解

    構造モデルと基準振動解析

    94

  • ∗ 基準構造が最安定 →その周りで小さな摂動を加えたらどうなるか

    ∗ 固有ベクトル方向に分解 ∗ この例のように過減衰極限では、固有値が減衰率に対応。

    減衰がなければ、固有値が振動数に対応(基準振動)。 ∗ こうして、構造のゆらぎを大まかにとらえることができる。

    ∗ もっと大きな(人工)構造物でも同様の発想は可能。

    構造モデルと基準振動解析

    95

  • ∗ 生物からの例 ∗ 人が作ったネットワーク ∗ コンピュータ・ネットワーク ∗ 通信・物流・交通・送電……

    次回予告

    96

  • 計算数理B Part 6: 生物と情報のネットワークの数理

    冨樫 祐一 (Yuichi TOGASHI) 13, 18 November 2019

    1

  • ∗ ネットワークを特徴づけるもの ∗ 前期の「複雑系数理」をとっていた人には復習

    ∗ 生物のネットワーク ∗ 情報のネットワーク

    ∗ ネットワークに関する小話をいくつかします。 ∗ レポート問題予告:

    出てきたネットワークの2つ以上を比較して、 類似点と相違点を論じてください。 ∗ 考えながら聞いてください。 ∗ 資料が欲しいひとは明日以降に

    http://cbbc.hiroshima-u.ac.jp をみてください。

    この授業の内容

    2

    http://cbbc.hiroshima-u.ac.jp/http://cbbc.hiroshima-u.ac.jp/http://cbbc.hiroshima-u.ac.jp/http://cbbc.hiroshima-u.ac.jp/

  • ∗ 初期の研究例として、 タンパク分子間相互作用のネットワーク

    ∗ S. Maslov & K. Sneppen, "Specificity and stability in topology of protein networks", Science 296, 910 (2002).

    ∗ これもスケールフリーネットワーク。 ∗ 次数の高いノード(ハブ)同士が直接リンクすることは少ない。

    3

    生物からの例

    https://doi.org/10.1126/science.1065103https://doi.org/10.1126/science.1065103

  • ∗ 生化学反応のネットワーク ∗ 例えば、代謝系

    4

    生物からの例

    KEGG Metabolic pathways - Reference pathway

  • ∗ 生化学反応のネットワーク ∗ 例えば、シグナル伝達

    5

    生物からの例

    From Wikimedia Commons

  • 6

    人が作ったネットワーク

  • ∗ 鉄道・道路・航空路

    人が作ったネットワーク

    JR東日本 東京近郊路線図

    7

  • ∗ ???

    8

    人が作ったネットワーク

    World map with countries colored according to the most popular social networking site. For almost all countries, this is Facebook, with the exemptions of China (QZone), Japan (Twitter), Russia, Ukraine, Belarus, Kazakhstan (all VKontakte), Kyrgyzstan (Odnoklassniki) and Iran (Facenama). The data source is Alexa's Top 500 sites in each country as of 2015-11-08, which provides data for 118 countries/territories. (From Wikimedia Commons by Christallkeks)

  • ∗ ???

    9

    人が作ったネットワーク

    ?

  • 10

  • ∗ ???

    11

    人が作ったネットワーク

  • ∗ ここから本題です。

    12

    人が作ったネットワーク

    Partial map of the Internet based on the January 15, 2005 data found on opte.org. Each line is drawn between two nodes, representing two IP addresses. The length of the lines are indicative of the delay between those two nodes. This graph represents less than 30% of the Class C networks reachable by the data collection program in early 2005. Lines are color-coded according to their corresponding RFC 1918 allocation as follows: Dark blue: net, ca, us; Green: com, org; Red: mil, gov, edu; Yellow: jp, cn, tw, au, de; Magenta: uk, it, pl, fr; Gold: br, kr, nl; White: unknown (From Wikimedia Commons by Matt Britt)

  • ∗ LAN ∗ インターネット ∗ ...

    ∗ そもそも、どうやって通信していましたっけ?

    13

    コンピュータ・ネットワーク

  • ∗ OSI基本参照モデル ∗ 第7層:アプリケーション層 ... HTTP, SMTPなど ∗ 第6層:プレゼンテーション層∗ 第5層:セッション層 ∗ 第4層:トランスポート層 ... TCP, UDP が代表的 ∗ 第3層:ネットワーク層 ... IP が代表的(ICMPも) ∗ 第2層:データリンク層 ... イーサネット(物理層込み)など ∗ 第1層:物理層 ... ネットワークケーブルや電話線など

    ∗ 層ごとの抽象化……データは順次、下の層に渡されて送られるが、その詳細(例えばケーブルや無線の種類)を上の層が知らなくても困らない。

    ∗ もともとOSI (Open Systems Interconnection)というネットワーク標準のために作られた参照モデルだったが、TCP/IPなどが広く使われるようになりOSI自体は忘却の彼方に……

    14

    階層と抽象化

  • ∗ ひとまず物理層は飛ばして。 ∗ 実際にはイーサネット(IEEE 802.3)や無線LAN(IEEE 802.11)

    は物理層込みの規格ですが。 ∗ どうやってデータを送る?(イーサネットの場合) ∗ 宛先が分からないと送れない。∗ ある程度の長さ(一般的には1500バイト以内)のデータに、

    宛先と送信元のアドレスなどを付けたものをひとまとめにした「フレーム」として送信。 ∗ 宛先・送信元はMAC (Media Access Control) アドレスで指定。

    48ビット(例えば 01:23:45:67:89:AB のように表記) ∗ 前半24ビットがベンダーID(OUI)。製造元が分かります。

    ∗ エラー検出のためのデータ(CRC)も付いている。

    15

    第2層:データリンク層

  • ∗ ブリッジ: データリンク層の情報に基づいてデータ(フレーム)を転送する装置 ∗ 代表例がスイッチングハブ(L2スイッチ)

    ∗ これに対し、物理層でただ転送(増幅)するものをリピータという。 ∗ イーサネットの場合、宛先のMACアドレスを見て、その機器が

    接続されているポートに転送。∗ その機器が送ってきたフレームをどのポートで受け取ったかを学習

    している。分からなかったら発信元以外の全てのポートへ。 ∗ ブロードキャストフレーム:全てのホストに同報送信

    ∗ 第3層以上がどうであっても(例えばIPアドレス(後述)も)、それはフレームの中身のデータのことなので、気にしない。

    16

    第2層:データリンク層

  • ∗ ネットワークの経路・構造 ∗ 物理的なものと、論理的なもの、どちらも。

    ∗ 例えば10/100/1000BASE-Tは、物理的にはスター型やツリー型だが、論理的にはバス型(リピータハブを使った場合)。 ∗ CSMA/CD(他の端末が送信していなければ送信可能、やってみて

    もし他とぶつかったら送信を止めて少し待ってからやり直し) ∗ いまどき安物でもリピータでなくスイッチングハブですが。

    17

    ネットワーク・トポロジー

  • ∗ ブロードキャストフレーム: 全てのホストに同報送信

    ∗ ところが、うっかり配線を間違うと…… ∗ ブロードキャストストーム ∗ ブロードキャストを受け取ると、他の全てのポートに送出。 ∗ 配線がループしていると、それが戻ってきてまた同様に。 ∗ 再現なくブロードキャストフレームが送られて止まらなくなる

    現象が発生。 ∗ どうやって回避する? ∗ 要は、全てのノードに到達しつつ、ループをなくせば良い。 ∗ STP(Spanning Tree Protocol) ∗ 今はもう少し高度な方法もありますが。

    18

    第2層:データリンク層

  • ∗ 木:閉路を持たないグラフ ∗ 全域木:あるグラフの全ての頂点を含む木 ∗ 辺は元のグラフの辺の部分集合。

    ∗ つまり、全域木を作れれば、先ほどの条件を満たす。 ∗ さらに、最小全域木:

    辺に重み(コスト)がある場合に、その総和を最小にする(ように辺を取り除いた)全域木 を作れれば効率が良い。

    19

    スパニング・ツリー(全域木)

  • ∗ 最小全域木: 辺に重み(コスト)がある場合に、その総和を最小にする(ように辺を取り除いた)全域木

    ∗ これを求めるアルゴリズムの例: プリム法 ∗ 任意のノードから出発して、それと他を結ぶ辺から重み最小の

    辺を選択して、初めの木とする。 ∗ 以下、それまでに木に含まれているノードと含まれていない

    ノードとを結んでいる辺のうちから、重み最小の辺を選択して、木に加える操作を、全てのノードが木に含まれるまで繰り返す。

    20

    スパニング・ツリー(全域木)

  • ∗ STP(Spanning Tree Protocol) では、実際には ∗ BPDU (Bridge Protocol Data Unit) と呼ばれるフレームを交換。 ∗ まず、優先度とMACアドレスで決まるブリッジIDに基づいて、出発点

    となるルートブリッジを決定。 ∗ ルートブリッジまでのコストの和を計算。

    ∗ ルートブリッジから順番に自身のリンクコストを足して伝えていく。 ∗ コストはリンク速度で決められている。

    ∗ 各ブリッジで、ルートブリッジまでのコストが最小のポートをルートポートとする。

    ∗ 各セグメントで、ルートブリッジまでのコストが最小のポートを指定ポートとする。

    ∗ ルートポートにも指定ポートにもなっていないポートを閉鎖 →これで全域木になる。 ∗ リンクを冗長化するのにも使える。切れたら組みかえ。 21

    スパニング・ツリー(全域木)

  • ∗ 代表的なものが IP(Internet Protocol) ∗ データを「パケット」として扱う。 ∗ データ部分の前に、IPヘッダが付いていて、宛先・送信元や、

    エラー検出のためのチェックサムなどが入っている。 ∗ 宛先・送信元は、IPアドレスで指定。 ∗ IPv4では32ビット、IPv6では128ビット。

    ∗ もちろん、下の第2層ではそのIPアドレスに対応するMACアドレスを知る必要があるので、ブロードキャストで問い合わせて返事してもらう(ARP; IPv4の場合)。

    22

    第3層:ネットワーク層

  • ∗ ルータ: ネットワーク層(以上)の情報に基づいて、 データ(パケット)を転送する装置 ∗ 他にも様々な機能が付いている場合がある。

    ∗ ルーティング:データ配送経路を決める。

    ∗ 送り先の指定あれこれ ∗ ユニキャスト:単一の相手に ∗ ブロードキャスト:不特定多数に ∗ マルチキャスト:特定の複数に

    ∗ ちなみにジオキャスト:地理的な場所で、も ∗ エニーキャスト:どこか1つに

    23

    第3層:ネットワーク層

    ジオキャスト:地理的な場所で、も

  • ∗ ルーティング:データ配送経路を決める。 ∗ ひとまずユニキャストの場合に限って。 ∗ 例えば、ルータ同士の間の経路ごとに、何らかのコスト

    (通信の帯域や遅延などによる)が設定されているとして、どうすれば宛先に到達するまでの総コストを最小化できる?

    ∗ 実は様々な方法がありますが。 ∗ プロバイダ同士の間などだとまた違いますが。

    ∗ 例:OSPF (Open Shortest Path First) ∗ 最短経路問題を解く。 [問題]

    24

    第3層:ネットワーク層

  • ∗ 単一始点最短経路問題を解く ∗ 辺の重みが非負の場合用(他にもあります)

    25

    ダイクストラ法

    From Wikimedia Commons

  • ∗ 宛先が同じネットワークの中なら、 直接、通信できる。 ∗ この場合は下の層で相手のMACアドレスを使って送る。

    ∗ 異なるネットワークの場合は、ルータを経由。 ∗ どうやって区別? ∗ 昔(1993年以前)は、IPアドレスの割当単位はクラス(A, B, C)

    で決まっていた。広大ならクラスBでプレフィックスは133.41(16ビット)、残り16ビットがホストアドレス(216-2台分)。 ∗ しかし、8, 16, 24ビットの3段階しかなく割当が非効率。

    ∗ 今はCIDR (Classless Inter-Domain Routing) 可変長のサブネットマスクを指定。 ∗ 先ほどのに対応するのは133.41.0.0/16 ∗ これを133.41.115.0/24 などと分割可能

    ∗ ルーティングプロトコルもこれに対応するようになった。 26

    第3層:ネットワーク層

  • ∗ 代表的なものとして TCP(Transmission Control Protocol; 伝送制御プロトコル) ∗ データを「セグメント」として扱う。

    ∗ 慣用的にパケットと呼んでしまうことも多いですが。 ∗ データ部分の前に、セグメント・ヘッダが付いている。

    ∗ 宛先・送信元のポート番号や、エラー検出のためのチェックサム、シーケンス番号(ひと続きの通信で何番目の送信かを表す番号) などが付いている。

    ∗ 一般にポート番号でアプリケーションを識別。 例えばHTTPなら80番で待ち受けるのが普通。

    ∗ 大きいデータは分割して送る。受け取ったという返事を返す(喪失した場合には再送する)ことにより、確実にデータが送られていることを担保。 ∗ ちなみにUDPではこの確認をしない(シーケンス番号もない)。

    一方的に送ってしまうので信頼性は低いがリアルタイム性は良い。 27

    第4層:トランスポート層

  • ∗ ひとまとめにされることも多い。 ∗ 個別のアプリケーションの話になるので今日は省きます。 ∗ 前にも話したWWWのページ間のネットワークなどは、

    それはそれで面白くはありますが。 ∗ ちなみに、 www.hiroshima-u.ac.jp などのホスト名で通信先を

    指定できるのは、一般にDNSを使ってこれをIPアドレスに変換しているから。 DNS自体はアプリケーション層で動作。 ∗ これも階層構造。jpを管理するDNS→ac.jpを管理するDNS→……と

    下っていく。

    28

    第5層以上

    http://www.hiroshima-u.ac.jp/http://www.hiroshima-u.ac.jp/http://www.hiroshima-u.ac.jp/

  • ∗ 現在、広く使われている1000BASE-T ∗ "BASE"は、ベースバンド伝送:搬送波を変調するのではなく、ディジ

    タル信号を符号化してそのまま送ることから。 ∗ 帯域100MHzのカテゴリ5(5e推奨)ケーブルで1Gbps。 ∗ どうやっているのか。

    ∗ 8B1Q4符号化 8ビットにエラー検出1ビットを付けて9ビット →9ビットだから512通り →{+2,+1,0,-1,-2}の5段階の電圧で表されるシンボルを4つ使えば、 54=625通りなので表現可能(0や1が長く続くのも回避) ∗ つまり、4シンボルで8ビット送れる。これを4対の線で送信。

    ∗ エコーキャンセルして同時に双方向で送れるようにしている。 ∗ 1対当たり125Mシンボル/秒(周波数帯域としては100MHz以内)で、

    4対あわせて500Mシンボル/秒、よって1000Mビット/秒。

    29

    閑話休題 第1層:物理層

  • ∗ 最後に ∗ 現実のネットワークの辺には

    「容量」がある。 ∗ 流れる「フロー」はその容量を超えられない。 ∗ コンピュータネットワークでいえば、リンクの帯域 ∗ コンピュータ以外の物流・交通・送電網などでも同様

    ∗ あるノードからノードへ、できるだけ多く送るには? ∗ 最大フロー問題

    30

    フローネットワーク

  • ∗ 最大フロー問題 [問題]

    ∗ これを解くアルゴリズムの例: エドモンズ・カープ(Edmonds-Karp)アルゴリズム ∗ 幅優先探索して最も短い経路を決め、流せるだけ流す

    (残余容量が最小の辺にあわせる=その辺は必ず飽和する)。 ∗ 逆向きのフローが加わった場合、残余容量は逆に増える。

    31

    フローネットワーク

  • ∗ この講義の中で登場した ネットワーク(簡単に紹介しただけのものも含む)の いずれか2つ以上を比較して、それらの共通点・類似点と 相違点とを論じてください。 ∗ ただ単に構成要素が違う(タンパク質かDNAか、など)という

    だけではあまり高い評価にならないと思ってください。 ∗ 要件を満たしていれば、1ページで十分です。

    ∗ 提出期限:12/2(月)23:59 JST ∗ 提出方法: [email protected]

    までメールで。 ∗ できるだけテキストかPDF1つにしてください。 ∗ 受取確認のメールを返信します。

    72時間以内に返信がない場合はすぐに問い合わせてください。 32

    レポート課題

    mailto:[email protected]:[email protected]:[email protected]

    /ColorImageDict > /JPEG2000ColorACSImageDict > /JPEG2000ColorImageDict > /AntiAliasGrayImages false /CropGrayImages true /GrayImageMinResolution 300 /GrayImageMinResolutionPolicy /OK /DownsampleGrayImages true /GrayImageDownsampleType /Bicubic /GrayImageResolution 300 /GrayImageDepth 8 /GrayImageMinDownsampleDepth 2 /GrayImageDownsampleThreshold 1.50000 /EncodeGrayImages true /GrayImageFilter /FlateEncode /AutoFilterGrayImages false /GrayImageAutoFilterStrategy /JPEG /GrayACSImageDict > /GrayImageDict > /JPEG2000GrayACSImageDict > /JPEG2000GrayImageDict > /AntiAliasMonoImages false /CropMonoImages true /MonoImageMinResolution 1200 /MonoImageMinResolutionPolicy /OK /DownsampleMonoImages true /MonoImageDownsampleType /Bicubic /MonoImageResolution 600 /MonoImageDepth -1 /MonoImageDownsampleThreshold 1.50000 /EncodeMonoImages true /MonoImageFilter /FlateEncode /MonoImageDict > /AllowPSXObjects false /CheckCompliance [ /None ] /PDFX1aCheck false /PDFX3Check false /PDFXCompliantPDFOnly false /PDFXNoTrimBoxError true /PDFXTrimBoxToMediaBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXSetBleedBoxToMediaBox true /PDFXBleedBoxToTrimBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXOutputIntentProfile (None) /PDFXOutputConditionIdentifier () /PDFXOutputCondition () /PDFXRegistryName () /PDFXTrapped /False

    /CreateJDFFile false /Description > /Namespace [ (Adobe) (Common) (1.0) ] /OtherNamespaces [ > /FormElements false /GenerateStructure false /IncludeBookmarks false /IncludeHyperlinks false /IncludeInteractive false /IncludeLayers false /IncludeProfiles false /MultimediaHandling /UseObjectSettings /Namespace [ (Adobe) (CreativeSuite) (2.0) ] /PDFXOutputIntentProfileSelector /DocumentCMYK /PreserveEditing true /UntaggedCMYKHandling /LeaveUntagged /UntaggedRGBHandling /UseDocumentProfile /UseDocumentBleed false >> ]>> setdistillerparams> setpagedevice

    /ColorImageDict > /JPEG2000ColorACSImageDict > /JPEG2000ColorImageDict > /AntiAliasGrayImages false /CropGrayImages true /GrayImageMinResolution 300 /GrayImageMinResolutionPolicy /OK /DownsampleGrayImages true /GrayImageDownsampleType /Bicubic /GrayImageResolution 300 /GrayImageDepth 8 /GrayImageMinDownsampleDepth 2 /GrayImageDownsampleThreshold 1.50000 /EncodeGrayImages true /GrayImageFilter /FlateEncode /AutoFilterGrayImages false /GrayImageAutoFilterStrategy /JPEG /GrayACSImageDict > /GrayImageDict > /JPEG2000GrayACSImageDict > /JPEG2000GrayImageDict > /AntiAliasMonoImages false /CropMonoImages true /MonoImageMinResolution 1200 /MonoImageMinResolutionPolicy /OK /DownsampleMonoImages true /MonoImageDownsampleType /Bicubic /MonoImageResolution 600 /MonoImageDepth -1 /MonoImageDownsampleThreshold 1.50000 /EncodeMonoImages true /MonoImageFilter /FlateEncode /MonoImageDict > /AllowPSXObjects false /CheckCompliance [ /None ] /PDFX1aCheck false /PDFX3Check false /PDFXCompliantPDFOnly false /PDFXNoTrimBoxError true /PDFXTrimBoxToMediaBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXSetBleedBoxToMediaBox true /PDFXBleedBoxToTrimBoxOffset [ 0.00000 0.00000 0.00000 0.00000 ] /PDFXOutputIntentProfile (None) /PDFXOutputConditionIdentifier () /PDFXOutputCondition () /PDFXRegistryName () /PDFXTrapped /False

    /CreateJDFFile false /Description > /Namespace [ (Adobe) (Common) (1.0) ] /OtherNamespaces [ > /FormElements false /GenerateStructure false /IncludeBookmarks false /IncludeHyperlinks false /IncludeInteractive false /IncludeLayers false /IncludeProfiles false /MultimediaHandling /UseObjectSettings /Namespace [ (Adobe) (CreativeSuite) (2.0) ] /PDFXOutputIntentProfileSelector /DocumentCMYK /PreserveEditing true /UntaggedCMYKHandling /LeaveUntagged /UntaggedRGBHandling /UseDocumentProfile /UseDocumentBleed false >> ]>> setdistillerparams> setpagedevice