PCI ExpressのLINEスタンプ作成ならスタンプファクトリー

PCI Express

PCI Express（ピーシーアイエクスプレス）は、2002年にPCI-SIGによって策定された、I/Oシリアルインタフェース（拡張バスの一種）である。書籍、文書ではPCIeと表記されることも多い。この表記はPCI-SIG自身もウェブサイト上で使用している。名称がPCI-Xと似ているものの、そちらはパラレルインタフェースであるなど、別の規格である。PCIバス、およびPCI-Xバスの欠点を補うべく、インテルが開発を進めていた"3rd. Generation I/O"、3GIO（スリージーアイオー）がその基になっている。PCI Express 1.1 は 1レーンあたり2.5Gbps（そのうちデータ転送に使われるのは80%）で、送信/受信を分離した全二重方式を採用し、計5Gbpsの転送速度を持つ。これは従来のPCIバス（32ビット/33MHz）の3倍から4倍に迫る転送速度であり、数値だけを見ればAGP_2xモードの転送速度に迫る。従って、高度な3D描画処理を行わないグラフィックスカードならばx1モードでも充分な転送速度を確保できる。またレーンを複数束ね、さらに低レイテンシ、高転送速度を可能とする、x2、x4、x8、x16、x32も仕様化されている。特にPCI Express x16は、バススロットに用いるコネクタの物理的長さが従来のAGP（やPCI）のそれに近いことから、AGPに代わるビデオカードのインタフェースとして利用されている。この場合の転送速度は8GB/s（2.5Gbps時、送受信それぞれ4GB/s）で、AGP_8xモード比でおよそ4倍弱となる。またPCI Express x1をベースとした新たなPCカードの規格であるExpressCardも策定されて、ノートパソコンなどに採用される場合がある。ノートパソコンなどでは、内蔵の無線LANボード用に、mini PCI Express端子が搭載されていることが多く、この端子には、PCI Express(x1)とUSB2.0の信号配線がある。PCIバスのようなパラレルインタフェースにおいて、データ転送速度を上げる方法には大まかに以下の2通りの方法がある。PCIバスはこれにならい、当初の32ビット/33MHz（133MB/秒）から64ビット/66MHz（533MB/秒）までデータ転送速度が引き上げられた。さらに（同じくパラレル・インタフェースである）PCI-Xバスでは、バスクロックのDDR/QDR化も含め64ビット/1066MHz相当（7.95GB/秒）まで仕様化されている。しかし、上記2手法の高速化にはおのずと限界がある。バス幅を広くすることはデータ線の増加につながり、それはLSIのピン増加となり直接にコストに跳ね返る。またクロックの高速化は、データとクロックのタイミングを合わせる必要性から、LSIとボードについて非常に高度かつ精密な設計技術と製造技術が要求され、同様にコストに跳ね返る。事実、PCI-Xは非常にシビアな設計が要求され、パーソナルコンピュータ向け製品として商品化するにはコストの問題からも無理があり、パーソナルコンピュータの分野まで普及する事ができなかった。これまでは、それなりのコストがかかってもそれに見合うだけの性能向上が見込めた。しかし、この頃はある種の壁にさしかかっており、顧客を納得させるに足るパフォーマンスを望めば、それにかかるコストが甚大な物になることが予想された。折りしもインテルはメインメモリインターフェイスのシリアル化を主張したばかりの頃だった。PCIバス登場当初から一貫してパーソナルコンピュータ市場で広く普及しているPCIバスのモードは32ビット33MHz（=133Mバイト/秒）だった。バスの伝送帯域を消費していたのは主に3Dグラフィックスカードであり、こちらはAGPによって事実上隔離されていたため、PCIバスそのものはまだまだ安泰であった。しかしながら（チップセット内部ないしはブリッジチップにて）PCIバスに接続されるハードディスクのインタフェースとして広く知られるIDEが、サポートする転送速度を次第に引き上げ、2000年には66Mバイト/秒をサポートし、2002年には100Mバイト/秒の転送速度をサポートするに至った。それでもハードディスクそのものの転送速度は単体では追いついていなかったが、この頃を境にパーソナル市場においても自作ユーザを中心にRAIDが流行、さらには高性能なビデオ編集用カードの普及も進み、PCIバスに接続されるギガビットLANである1000BASE-T（1000Mbps=約125Mバイト/秒）も登場、ハイエンドユーザの志向がPCIバスの転送速度上限に到達するのは時間の問題となっていた。1本の信号線と付随するもう1本の基準線（アース線）でデータ伝送を行うシリアル・インタフェースは古くから存在し、かつてほとんどのPCに搭載されていたRS-232Cが有名である。しかし、パリティビットによる簡易な誤り検出訂正しか物理層に組み込めないことなどから、誤りがより多く発生するであろう高速なデータ転送には使いづらいという事情があり、しばらく表舞台に現れることはなかった。ところが、IBMがパラレル・データにクロックを埋め込んでシリアル・データ化するという8b/10b技術を開発したことにより、シリアル転送が急速に注目を集めはじめた。さらにイーサネットでこの方式が採用され、普及が広まると8b/10b機能を搭載したSERDESチップのコストも急激に低下し、さらにファイバーチャネルやギガビットイーサネット (GbE) の登場により転送速度も急激に高速化された。I/Oインタフェースの転送速度不足解消のために次世代のインタフェースを模索していたインテルは、NGIO ("Next Generation I/O") というシリアル・インタフェースの開発を開始した。一方、同時期にヒューレット・パッカードやIBMも、PCIバスに代わるI/OインタフェースとしてFuture I/Oと呼ばれるシリアル・インタフェースを開発していた。両者は後に統合され、InfiniBandとなったが、あまりにも先進的かつ理想的なI/Oインタフェースを目指したため、ソフトウェアレベルでPCIバスと全く互換性がないという致命的な欠陥があった。このため、マイクロソフトなどもサポートに消極的だった。ではスーパーコンピュータのノード間接続のような低遅延・高スループットを要求される限られた分野でしか利用されていない。インテルはこの失敗を教訓とし、3GIO ("Third Generation I/O") の開発を開始した。ソフトウェア・レベルでPCIバス完全互換とし、正統なPCIバスの後継者とすべく、PCI Expressと名を変え、PCI-SIGでの仕様化が行われた。PCI Expressは従来のPCIバスが動作できるオペレーティングシステム (OS) であれば特に新しくサポートしなくても動作することは可能である。ただし、動作可能であることと機能をフルに使うことは別の問題であり、Windowsの場合ではVistaから正式にPCI Expressに対応した。パーソナルコンピュータ向けマザーボードへの実装は比較的早くに行われた。主に搭載されるのはx16とx1である。転送速度が何よりも要求される3Dグラフィックスカードでは特に歓迎され、2005年頃にはAGPからの置き換えがほぼ完了し、2012年現在では3Dグラフィックスカードのシェアの大半を獲得するまでに成長している（一方、かつての主力であったAGP用のグラフィックスカードは、旧来のシステムのグラフィックス機能のみの更新を希望する消費者への、いわば救済措置的に販売される程度のシェアとなっている）。マザーボード市場においてもAGPスロットを持つ製品はほぼ完全に姿を消した。汎用バスとして見ると2009年現在、従来のPCIスロットを全廃したマザーボードもある。サーバ向けマザーボードでは依然としてPCI（64ビット）またはPCI-Xを実装したものも多い。ATAカードをはじめとしたインタフェースカード類は比較的早くから PCI Express (x1) に移行しており、ビデオキャプチャ、テレビチューナ、サウンドカードといったマルチメディア関連においても近年発売されるカードは大半がPCI Express である。モデルチェンジを行わず販売を継続しているPCI製品も市場にはまだ残っているが、旧来のシステムのアップグレードパスとしての意味合いが強い。それでも2012年現在のATXマザーボードの拡張スロットはPCI Express x16、x1、PCIの3種類を採用したものが多いが、これはPCIの需要よりもチップセット側のPCI Express の総帯域の制限によるものの方が多い。いわゆるオンボードデバイスにおいては、従来PCIバスを用いて接続していた物を完全にPCI Express接続に置き換えたマザーボードが大半である。IntelにおいてはP67以降のメインストリーム向けチップセットからPCIのサポートを打ち切っており、別途ブリッジチップを用いてPCI Express経由で接続している形となる。2012年後半からPCI Express 3.0（通称Gen3）の仕様に対応したマザーボードやビデオカードが発売され始めた。PCI Expressのデータ転送方式はPCIバスのハンドシェークとは異なり、ネットワークでのパケット送受信で行われる。このため、PCI Expressのアーキテクチャは、レイヤ構造をしている。レイヤ構造は、トランザクション・レイヤ、データリンク・レイヤ、物理レイヤの3層構造となっている。送信を例に取ると、CPUや他デバイスから発行されたリクエストは、トランザクション・レイヤで上位のソフトウェア層に対してPCIと互換性能ある機能を提供するパケットを付加され、データリンク・レイヤに渡される。データリンク・レイヤーは、接続されている相手側デバイス間との送受信の制御を担っており、パケットにシーケンス番号、CRCを付加して物理レイヤに渡す。物理レイヤはシリアル転送を受け持つ部分で、Gen1, 2では8b/10b変換、Gen3では128b/130b変換などを行い、SERDESによりパケットがシリアル・データとして送られる。また、トポロジは、従来のPCIのマルチ・ドロップ型ではなく、ポイント・ツー・ポイント接続である。そのため、ポートを拡張するためにはスイッチが必要になる。トランザクション・レイヤは主にトランザクション・レイヤ・パケット ("Transaction Layer Packet" : TLP) の生成と復号を担う。TLPはリードやライトといったコマンドやアドレス、データなどから成る。また、トランザクション・レイヤは接続相手とのフロー制御も行う。PCI Expressのフロー制御はクレジット・ベースで行われ、これは予め自分が受信することの出来るバッファのサイズを相手に通知しておき、バッファに空きが出来るたびにその旨を伝える方式である。送信側は自身が送信したパケットのサイズを積算していき、また送信相手からバッファの空きが伝えられるとその分を減算する。これにより送信相手のバッファ・サイズを超えることなく、パケットの転送が可能となる。トランザクション・レイヤはまた、パケットを任意のサイズに分割する機能を有する。例えば、一つのTLPで最大4Kバイトのメモリ・リードを発行することが可能である。しかし実際にメモリから一度に4Kバイトを読むことは都合が悪い場合がある。メモリ・リードでキャッシュ・コヒーレンシを維持するシステムの場合、CPUに対しキャッシュに最新データの有無を問い合わせる。例えばインテル系の32ビットCPUはキャッシュ・ライン・サイズは64バイトであるため、4Kバイトのメモリ・リードは全て64バイトの64個のメモリ・リードに分割される必要があるだろう。このように、トランザクション・レイヤは自デバイス内で都合の良いようにパケットを分割する。また、1つのRead requestのデータを返す時、複数のcompletionに分割して返すこともできる（ただし返すデータの順序は入れ換えられない）。トランザクション・レイヤは以下の4個のアドレス空間をサポートする。前者3空間はPCIバス互換の空間である。Message空間は、従来サイドバンド信号で通知を行っていたもので、割り込み、電源制御などの通知に使用される。データリンク・レイヤは、トランザクション・レイヤと物理レイヤの中間に位置し、主にPCI Expressリンクの管理、エラー検出と訂正を担う。送信側データリンク・レイヤは、トランザクション・レイヤから渡されたTLPをバイナリ値とし、データを保護するためのCRCを算出し、さらにTLPの授受を確認するためのシーケンス・ナンバを、TLPに付加して物理レイヤに渡す。受信側ではCRCによるデータ化けチェックと、シーケンス・ナンバによるパケット欠落チェックを行う。受信側でエラーを見つけた場合、送信側に再送を促すためにNAK ("Not Acknowledge") パケットをエラー検出したTLPのシーケンス・ナンバと共に送信側に返す。正常にTLPを受信した場合は、同様にACK ("Acknowledge") パケットを返す。エラーによるパケットの再送機能もデータリンク・レイヤが受け持っており、NAKを受信した場合そのシーケンス・ナンバから全て送信し直すことになる。このため、一般的にデータリンク・レイヤ内には再送バッファが実装される。データリンク・レイヤはTLPの送受信の他にも、DLLP ("Data Link Layer Packet") と呼ばれる、データリンク・レイヤ同士でのみ情報の交換を行うパケットの送受信も行う。ACK、NACKパケットや、フロー制御に使用するバッファ・サイズ通知などもDLLPが使用される。物理レイヤは入出力バッファの制御回路、シリアル-パラレル/パラレル-シリアル変換回路、PLL、インピーダンス調整回路などから成る。PCI Express 1.1での物理メディアは、2線、800mV差動で400ps単位でデータのドライブが行われる。送信、受信専用の信号を必要とする全二重方式であることから、x1の場合、実際には4本の信号が使用される。PCI Express 1.1までは2.5GTpsでのデータ転送を行っているが、PCI Express 2.0では5.0GTpsで転送が行われている。さらに、PCI Expressをケーブルで接続するための仕様検討も行われている。このように、物理レイヤは将来的により高速なメディアに置き換えられていくレイヤであり、このため物理レイヤとデータリンク・レイヤ間のインタフェースは特に規定されておらず各ベンダの実装依存となっている。"PCI Express Card Electromechanical Specification"として拡張カードの電気および物理形状が規定されている。カードエッジを含むコネクタの仕様もここで規定されている。x1のスロットは18番ピンまでで終わり、x8やx16はこれをさらに伸ばしたものになる。スロットからの最大供給電力を超えるカードについては、下記のとおりATX12V Ver2.xの補助電源プラグ経由で超過分を供給する。PCIバスでは、32ビットバスのデバイス/スロットと64ビットバスのデバイス/スロットの全ての組み合わせにおいて動作する事が保証されていた。しかしPCI Expressでは、例えばx16仕様のカードをx8仕様のスロットに差し込む事が物理的にできない。マザーボードによっては、x1/x4/x8コネクタのエッジに初めから切り欠きが設けられていてx16仕様のカードを挿入可能な製品もあるが（「エッジフリー」と呼ばれる）、カードの端子の物理的保護や上記の他の問題に関してはそのまま残ると思われる（例:Intel DX58S0）。この問題に対する解決策の一つとしてアップルのMac ProやIntel 3シリーズ以降及びAMD 7シリーズのマルチGPU対応チップセット搭載マザーボードが採用した実装があげられる（後述の利点を参照）。PCI Expressの利点の一つとしてレーン数のフレキシビリティが挙げられる。即ち、カードエッジコネクタがx16形状でもx1モードで（規格上は）動作可能であり、またスロット形状がx16用だからといってx16配線である必要は無く、上記の相互接続の問題はあれ、上位の（すなわち長い）スロットに下位の（すなわち短い）カードエッジコネクタを挿す事は容易である。さらにはBIOS上もしくはOS上からチップセットのサポートレーン数を上限にユーザーが任意に振り分け出来るように設計することも可能である。例：合計レーン数の上限を26としx16用の物理スロットが4つあったらば、それに対しなどといった複数の振り分け方を選択できるようにすることも可能である。なお、余剰レーンが出てもそれが未使用になること以上の不利益は無い。また、x16モードで動作するはずのスロットにx1専用カードを挿しても問題なく動作するようになっている。つまり、スロットコネクタの規格（具体的には物理寸法）は、単にそのスロットに割り振ることが可能な（規格上の）レーン数上限を示すのみである。このことから、マザーボード設計者は使用するチップセットのサポートレーン数の範囲内で、自由にスロット本数とそれらスロットに与えるレーン数を設計することが可能である。

出典:wikipedia

PCI Express

関連ワード