科学的方法のLINEスタンプ作成ならスタンプファクトリー

科学的方法

この記事では科学的方法（かがくてきほうほう、英語：scientific method）、科学的手法、科学的検証などと呼ばれているものについて解説する。科学的方法とは、。「一定の基準とはそもそも何か」という問題は諸論があるが、大まかにいえば、その推論過程において「適切な証拠から、適切な推論過程によって推論されていること」、「仮説検証型」の調査プロセスが要求される。また、扱う対象が、測定、定量化が可能であることが望まれることも多い。科学的方法とは、断片化された散在している雑情報あるいは、「新たに実験や観測をする必要がある未解明な対象」に関連性、法則を見出し、立証するための体系的方法である。まず、「科学的」という言葉についての辞書的定義として、国語辞典（デジタル大辞泉）には、のように記載されている。「すべてのアメリカ人のための科学」では、調査、論証、あるいはそれらの手法が、科学的であるために必要な要件として、証拠、推論過程、結論に関するいくつかの特徴、及び調査手段におけるいくつかの特徴（仮説－検証型等）に関して、ある程度の共通理解が存在する、とされた。しかしながら科学的方法に関する具体的な指針については、さまざまな時代の、様々な者が発言を行っている。「発言者の立場」に基づいて大別すると、科学者、技術者などの科学サイドの人間によるものと、哲学者、社会学者、教育学者等の社会的サイドの人間によるものがあり、概して両者の間には温度差がある。放送大学の濱田嘉昭によれば、科学的な方法の古典的な基本は、17世紀にデカルトが『方法序説』で示した以下の原則である。これは17世紀に提示されたものであるが「現在でも研究論文を書きあげる指針として十分光を放つものである」という。「科学的方法」についての言及は、さまざまなものがある。平成21年7月刊行の「高等学校学習指導要領解説理科編」P119には、「理科課題研究の目的」として、以下のような解説がなされている上記の「探究の方法」、「科学的に探究する能力と態度」等の要件定義から、科学的な方法（「探究」）の特徴に関する規定がある程度読み取れる。世界各国を見渡すと、、一つとしてアメリカ科学振興協会が1989年に提出した報告書、「すべてのアメリカ人の科学」がある。「すべてのアメリカ人の科学」(SFAA)は、草記、審査、承認に関して、さまざまな領域から、世界的に権威を認められた者が多数関わっている点に特徴がある。は、（その文書の編纂に携わったひとりだが）同文書について、「（いろいろありはしたが）結果としては「多くの地域の科学者たちは、“尊敬されるメンバーが行った表明として”受け入れてくれた」と主張した。だが、この文書には多くの免責事項が書かれている。例えば、は同文書の「日本向けの序文」の中で、以下のような免責事項を述べている。たとえば、同書の名前として『すべてのアメリカ人のための科学』といった、米国限定であるようなタイトルをついていることについて、「この文書の作成には、基本的に他国の科学者が参加しておらず、他国の優秀な科学者の見解が反映されていない、これを勝手に「すべての人のための科学」としてしまっては、他国の科学者たちがそれぞれの見解を表明するという権限を侵してしまう可能性があり、そうはしなかったらしい」と述べている。またラザフォードは、この『すべてのアメリカ人のための科学』も、（そして、他のいかなる刊行物も）1冊では科学的リテラシーを保証するものとはならない、と述べてこの冊子で提示できる内容に一定の留保を示している。同文書などでは、「科学的な方法の特徴は、論証過程と調査プロセスに顕著に認められる」とした記述がみられる。論証過程においては、以下のような記述がある。基本的なことを言えば、様々な科学的学問は次のような点では似通っている。すなわち、証拠に依拠していること、仮説と理論を使用しているということ、また用いられる論理の種類、である。とは言うものの、科学全てが同一の特徴を有しているというわけではなく、異なる点も多々ある。たとえば科学者ごとに、研究する現象、活動に取り組む姿勢、歴史的データを用いるか実験的発見を用いるのか、手法が定性的なのか定量的なのか、基本原理への依拠の程度、他の科学の所見をどの程度重視するか、などの点では大きく異なっている。上記の記述において、「証拠に依拠していること、仮説と理論を使用しているということ、また用いられる論理の種類に共通性があること」が、科学的学問の間で、特に類似性の高い部分としている。また、一般に、論理の妥当性に関しては以下の点が必要であるとされるが、これらについて、以下のような記述が本文に記載されている（下線は本記事の執筆者みよる）。科学は証拠を要求する遅かれ早かれ，科学的主張の妥当性は現象を観察することで解決される。したがって，科学者は正確なデータを収集することに努力する。仮説や理論の形成にはあらゆる種類の想像力や思考力が利用されるが，遅かれ早かれ，どのような科学的主張であっても論理的推論の原則に合致しなければならない。すなわち、推論，実証，常識に関する一定規準を適用することで，主張の有効性は試されなければならないのである。科学者は，しばしば特定の証拠の価値や特定の想定の妥当性について見解が異なるため，正当化すべき結論に関する見解が異なることがある。しかし，証拠と想定を結論に結びつけるための論理的推論の原則については，科学者の見解は一致する傾向にある。これに加え、以下のようなことも述べている。論理と証拠に関する詳細な調査は必要なものではあるが，これだけでは科学の発展にとって十分ではない。科学的概念は，データや実施された多くの分析から自動的に発生するわけではない。調査プロセスにおいても、いくつかの免責事項がつくが、以下のような記述がある。科学者が常に従っているような決まった一連の手順などというものは無い。また、“誤ることなく科学的知識に導いてくれる単一の道筋”などというものも無い。それでも科学には、探究モデルとして他とは異なった性質をもたらしているような、何らかの特徴がある。現代の科学的な方法においては、一つの現象を説明する場合に、"「なぜそうなるのか」という哲学的な問題は棚上し、「その現象がどのようにふるまうのか」に着眼する傾向がある"とファインマンは指摘した。この意味で、科学的な方法においては結論の提示は現実の物理現象、社会現象などを定性的/定量的に説明する具体的なモデルを提示する形で行われる傾向がある。また、多くの科学的理論の成否は実験によって判定されるが、理論の成否は「シロ」か「クロ」というような幼稚な二元論で判定されるのではなく、信頼性や有意性、当てはまりのよさといった統計的な尺度で良し悪しを判定され、その値は良し悪しはスペクトラム状(無段階、連続的)に広がっている。従って、現代の科学的手法で得られた結果や結論に対しては、当てはまりの良さや有意性を表す数字がつけられることが多い。また、同じ事柄に関して複数の等価でない理論が並立することもあり、それぞれの理論は別々の結果を算出することもよくある別々の結果であっても、あてはまりのよさが同程度であったとした場合には「同程度に正しい」ことになる。結論の成否は証拠となる事実の取得方法、処理方法、推論過程の適切さの判断となる。しかしながらこの問題は評価の問題を含む。また分野間、研究者間によってデータの処理方法や実験的所見、定性的又は定量的手法等が異なる。「適切さ」の問題について、科学哲学者の戸田山和久は、は、以下のように述べている。即ち、不適切（黒）と適切（白）の間はスパッと二分できるものではなく、スペクトラム状に広がっているものだという考え方である。戸田山によると、「“より”良い仮説や理論の基準」とは、以下のようなものとしている(P39)。また、戸田山は、科学的良い理論には次の特徴があると述べている(P148)。さらに、科学的によくない理論としては、「反証可能性」という観点から以下のような特徴があるともしている(P140)。但し、戸田山は以下のようにも述べている、さらに、戸田山は、「アドホックな仮説を継ぎ足すこと」については、特に実りの多い理論に対して少数の反証例から一つの理論を全否定することは通常はないと指摘していて、アドホックな仮説を継ぎ足すことが結果としてよかった例も多数あることにも具体例を挙げて言及している（アドホックな仮説を継ぎ足すことが失敗に終わった事例にも言及している）。科学哲学者の戸田山和久は、科学を示す用語は、大きく、以下のA群,B群の2種類に分けられると述べている。操作主義的定義の立場に立つと、科学的方法とは、以下のB群の言葉達によって特徴づけられる方法論と言うことも出来る。即ち、B群で特徴づけられるような言葉や手法を用いて、A群で特徴づけられることについて、「予測」すること、「技術的な応用を与えること」、そして「説明」することが科学的方法の特徴づけとする立場である。「説明」について、戸田山は、(P73)以下のように分類している。科学的な方法が取り扱い得る対象については、科学者の間でしばしば見解の相違が見られる。一般に「科学的な方法」の適用範囲については人によって意見が異なり、対象を限定する議論は極めて難しい。その理由は、個々の研究者間で証拠の妥当性や扱う対象の価値判断が異なるためである。科学の扱う対象について、以下の論点がある科学史研究者の岡本拓司（東京大学）の文章には「測れるもののみが科学の対象」と書かれていた。これはポアンカレが述べた言葉の引用と思われる。同様の趣旨で、「測る」というとがやや難しくなる社会科学の領域でも概念操作化」 (Operationalization) という言葉が用いられる。「概念操作化」とは、リサーチクエスチョン（研究を通じて明らかにしたい問いのこと）を、「実験」や「調査」を通じて検証可能なレベルにブレイクダウンする過程のことである。このように理系文系の両方において、「測定原理の存在」/「概念操作化」が重視されていることから判るよう、科学的な方法を論じるうえでオーソドックスな考え方であることが想到されよう。測れることを保証するためには、適切な測定手段が必要である。適切な測定手段の実現には、正しい測定原理と、それを実現する適切な装置構成、適切な精度評価が必要である。物理学や化学では、測定原理の妥当性の評価が比較的行いやすい対象が研究対象になるが、それでも最先端では、測定原理の妥当性や、装置構成の妥当性に対し議論が生じる場合もある（#科学的方法における証拠の節も参照のこと）。科学には「理論物理学」のような理論分野も存在するが、理論分野においても検証手段としての実験方法の提示は、極めて重要である。但し、検証手段は必ずしも、現在の技術で実現できるものである必要はない。例えば、量子力学における不確定性の概念は、ハイゼンベルクが提案した顕微鏡による電子の位置と運動量の測定実験のように、思考実験による検証に端を発する。さらに、特に工学においては複素電界のような、「実在しない量」（測定することが不可能な量）が当たり前のように使われている場合もある。複素電界自体の定義は光学の初歩中の初歩であるため専門書に解説を委ねるが、このような実在しない“物理”量を作ることで、光の干渉等の一部の物理現象が数学的に簡単に取り扱えるようになる。このような場合には、「測定できない」という意味で実在しない量も科学的理論として認められる場合もある。尚、電磁ポテンシャルのように、元々は「実在しない量」（数学的な便宜のために導入された“物理”量）と思われていたものが、外村彰によってアハラノフ＝ボーム効果の実証がなされたことによって「実は実在する量であった」ことが後に判明したというケースもある。測定結果は、定量的であるほうがより価値が高いとされることが多い。但し、キャベンディッシュの実験（クーロンの法則に関する）や、ホイートストーンブリッジ等ののほうが、価値が高い、とされる場合もある。また、結果の定量的な予測が出来ない理論は、価値が低く見られる傾向がある。但し、系が複雑な場合には、短時間で定性的な傾向がつかめることや、倍・半分以上の予測のずれが許容される場合もある（シンプルさとのトレードオフが存在する）。ここ数十年、医療や食品の分野で、証拠に基づいていない説・言説は不適切、と見なされるようになってきている。特に、医療・医薬品の効果に関しては、疫学的な観察や治療結果の統計学による比較に根拠を求める根拠に基づく医療が重視されるようになってきている。また、食品、製品の安全性についても、定量的なデータに基づいた監査が強化される傾向にある（FDA等のWeb Siteを参照のこと）。このように、定量的なデータに基づくことを重視する立場を、エビデンスベースという。但し、黎明期の理論や、あたりをつけるための理論に関しては、実際のデータとは一致しない仮定を多数含んだとしても予測力が一定水準あれば、仮説として一定の価値を得ることもある。一方で、いくつかの問題は、定量化が難しい場合もある。このような問題に関しても、数字を用いて考えるほうがより科学的だ、と述べる人々もいる。実際に調査するのが難しいようなとらえどころのない量であっても、いくつかの手掛かりを元に論理的に推論し、概算すること（フェルミ推定）は、科学的な思考の基本であると言われている。文系の問題には「都市化が進むと治安が悪化するか？」、「結婚すると幸せになるか？」のような定量化が困難な問題が多いとされる但し、「測定可能性、測定原理の存在」において紹介した概念操作化」 (Operationalization)という考え方により、リサーチクエスチョン（研究を通じて明らかにしたい問いのこと）を、「実験」や「調査」を通じて検証可能なレベルにブレイクダウンすることができる場合もある。実際には政治、経済、司法等においても、既に存在する統計データ（白書、売上データ等）から、四則演算および並べ替え・書き写しだけの操作で、データを、仮説検証に適した形に変更することができる問題は多数ある。。この種の問題の詳細は、本記事後述の「#日常の俗説と科学的方法」の節で述べる。論じる対象を測定することが可能であったとして、今度は、再現性が問題になる。再現性については、例えば、物理学者中谷宇吉郎（1900-1962）は1958年の著書において「科学は再現の可能な問題に適用範囲が限られる」と述べた。19世紀の科学では、文字通りの「再現性」が重視されていた。一方、筑波大学教授・宮島龍興が日本教育工学振興会提言で、現代では（厳密な意味での）再現性や定量化が難しい対象も科学の対象となってきている、と指摘した。この背景には、（20世紀、なかでも20世紀後半における）推測統計学の導入により従来の記述統計をベースとした統計処理だけでは扱い切れなかった対象が定量的に考察しえるようになったことがある。例えば医学・薬学・心理学・経済学などは、根本的に複雑性や複合性を内包していて、再現性を得にくい生体や社会そのものを扱う。（19世紀までの科学の水準ではこれをうまく扱えなかったが）現代の科学においてはこれらも、科学的な研究対象である。つまり、このような「古典的な意味での再現性が無い分野についても、統計学の手法を用いて、科学的な方法の対象とする」という立場が、現在の科学的方法の主流である。この論点については、次節にて述べる。科学的な結論であるためには、適切な統計手法を用いて適切に「有意な違い」があることを示さなければならないとよく言われる。,,。。従って科学的な方法の対象であるためには、適切な統計手段が行使し得る対象である必要がある。意味のある統計手段を行使するためには、少なくとも以下が必要であるまた、以下が満たされていることが望ましいとされる。これらについては、後述の「実験のデザインと統計学的視点」の項にて詳述する。（下記の「科学的方法における論証」も参照のこと。）論理的整合性とは、から構成された三角ロジックによるフォーメーションを持った論理構成であり、を意味する。文科系の諸学問においては、検証、定量化が困難、あるいは、不可能な課題に取り組むことも多々ある。また、自然科学者からみれば、予測の定量性に瑕疵があると考えられる仮説が重要な学説として鎮座している場合もある。例えば、心理学、教育学などでは、測定原理の妥当性の評価が極めて難しい対象、例えば心の痛み、知能、学力等を扱う。例えば「心の痛み」というものが存在することを否定するものは極めて少数で、現代では組織運営をする上でも極めて重要な概念であり、正しい根拠に基づいた判断が要求されるものであるが、これを定量的に測定する測定原理を提案することは難しい。同様のもので、（存在するか否かが怪しいものも一部にあるが）おそらく存在するだろうと考えられ、何らかの重要な問題と関係があるものであるが、その測定原理を示し難いものは沢山ある。このような対象に対しては、「論理的な整合性を維持しながら、適切な証拠を集めて議論をするならば科学的である」とする考え方もある。このような見解に立つと、ハリウッド映画俳優の共演関係のようなものまで科学的考察の対象と考えられることがある。このような考え方も、定量化が難しい分野においては、しかたなくではあるものの、ある程度認められた考え方である。「論理的整合性」を吟味するにあたっては、前提としての科学的理論の合理性や、分析方法の適切さ、参考データの信頼性に最大限留意する必要がある。これらの点を欠くと、「蟻を殺すのに核兵器を使う」ような議論（集団ヒステリー）、逆効果の発生、ひいては冤罪等の最悪の結末を発生させる可能性がある。科学的方法のプロセスには、例えば、PDCA(plan-do-check-act cycle)や、武谷三男の「三段階論」などがある。PDCA流に考えると、科学的な方法のプロセスは、おおざっぱにいえば「仮説の構築」と「その検証」の延々たる繰り返しとみなせる。「仮説をたて、検証し、次の計画に反映する」思考様式は広く一般化されており、プロジェクトマネジメントにおいては、PDCAサイクルという名前で、一般のプロジェクトの管理に加え、研究開発や国の大型研究プロジェクト等の大局的な管理において基本となる考え方として受け入れられている。見方を変えると、科学的な方法のプロセスは、多重の入れ子構造となったPDCAサイクルと見ることもできる。科学的方法のプロセスを具体的たものの、一例を以下に示す。細かい説明は、文献によって異なるが、一般論としては問題発見から結論の公表までのプロセスに以下のような要素が含まれると考えてよい。ここで、リサーチクエスチョンとは、研究全体を貫く「問い」のことである。言い換えれば、「明らかにしたいこと」そのものである。大学教養課程未満では教育課程では正則的なループを想定した課題が与えられることが多い。つまり(1)-(6)までのループを何度か繰り返したあと、(7)に至る、といった極めてオーソドックスな流れをが想定されている。例えば2007年前後に出版されている文部科学省高等学校検定教科書の課題研究の欄や、学部レベルの学生実験の教科書には概ね「(1)-(6)までのループを何度か繰り返したあと、(7)に至ると」ことを勧める記述がある。プロの研究者のレベルにおいても、一つ一つの行動は、概ね上の要素に還元できる。しかし、プロのレベルは、試行錯誤が迷走する可能性の高いレベルの高いテーマを扱うことが多いことや、いくつかの仮説を並行してテストできるようなスケジュールを組むこと、いくつかの項目を同時並行的に行うが多いため、変則的になってくる。また、プロの研究者のレベルにおいては、論文では、IMRAD型のように、あたかも「まず先に解答を思いえがき、それからそれをささえる事実をさがし始めた」かのように記載するが、現実には検証よりもむしろ仮説構築に労力を割いている。単なる検証であれば、学生やテクニシャンに任せている場合も多い。研究者にとっては、仮説構築のプロセスこそ重要であるが、この部分については、統一的な見解はなく、散逸的、専門的（必ずしも全読者に必要とは限らない）であるため、「#科学的方法と現実の研究プロセス」の節において後述する。理論物理学者の武谷三男は、科学理論の進展は以下の現象論、実態論、本質論の三段階を経ると考えた。三段階論は、主に科学の一つの領域の進展を考察したものであるが、現象論的な知識が十分ではなくて直ちにその原因を思惟するとき形而上学に陥るという点においてなど、個々の一研究（一つの論文レベル）についても学ぶところが多い考え方である。論証が科学的であるためには、少なくとも論理的であることが求められる。一般に、科学の領域における「論理的」という概念を説明するモデルとしては三角ロジック（論理の三要素) が有力である。三角ロジックとは、以下に示す三つの要素からなる論法である。三角ロジックは、スティーヴン・トゥールミンによるトゥールミンモデル(）の簡略化であると考えられている。これらの言葉の意味を簡単に例解する。例えば、推理小説においては、証拠、証言を根拠にして推理が進み、そして結論が導かれる。「犯人はA氏だ」というのが「主張（結論）」である。「根拠となる事実」というのは、例えば「血のついたナイフ」とか「ドアについた指紋」といった、証拠物件自体それぞれや、「何時に駅でA氏をみた」といった証言自体それぞれのことである。推理小説では、証拠物件の存在や状況、証言から何らかの推理を行い、「犯人はA氏だ」ということを立証するための論を述べるが、これが「推論過程（論拠）」である。科学的な論証においては、上記の三要素に関して、相応の適切さが求められ、それが適切であることが科学的な方法を特徴づけている。この意味において、科学的な論証の顕著な特徴としては「適切な証拠への依存」、「明確な結論の存在」、「証拠と結論を結ぶ適切な推論過程の存在」の三つが認められる結論は、明確でなければならない。例えば、「あなたは弱気な反面、強気すぎるところもあり…」といったように、どんな人（どんな対象）に対しても当てはまるような結論は望ましくないとされる。結論の明確さに関連する概念としては、反証可能性がある。一方で、現代の科学（特に工学）では「合わせこみ」といわれる手法がある。これは、シミュレーションと過去の実験データを人為的に〝よく一致させる”ためにいくつかのパラメータを制御する手法である。別の側面から見れば、合わせこみは、どのような実験結果でも取り込めるほどパラメータが多い点で不明確であるが、短い時間で仕様を満足するモノを開発しなければいけない分野（工学、工業等）では非常に強力な手法/考え方である。無論、この手法が「基礎科学」にまで広がってくることについては苦言を呈するものもいる。例えば、リース・モーリン博士は、現在の最前線における物理学の理論が、「どのような実験結果でも取り込めるほどパラメータが多い」ことを指摘したうえで、反証可能性を軽視している傾向を、「物理学の迷走」と断じている。実際、モーリン博士が指摘するように、最近の素粒子物理、量子情報、物性理論等は極めて数学に近い様相を呈しているため反証可能性の原則を逸脱していることはしばし指摘される（これらの分野における基礎方程式は解は、大体の場合存在することを数学的に保証できるも、多体効果や組み合わせ効果の影響で解くことができない）。また、特に、萌芽的な理論においては、実験がどんな結果を出してもそれを取り込めてしまうほどパラメータが多く、しかもそのパラメータの物理的な意味が不明確であることもしばしば指摘される。現在でも、このことを理由として権威ある雑誌への掲載が拒まれることがあるとされる。但し、この傾向も最近では現実的な方向に、つまり反証可能性に偏重しない方向にシフトしつつある。また、結論はシンプルでなければならない。結論のシンプルさに関しては、以下の「オッカムの剃刀」という原則がある。オッカムの剃刀は、「並立する幾つかの仮説の中から、ある一つの仮説を選択する方法」の一つとして現代の科学者において、理念的な面で受け入れられているが、あまり教条的に受け入れてしまってはいけない事柄である。その理由としては、などの問題点がありえるからである。科学は証拠となる事実（生データ/証拠物件）を要求する。科学者は何らかの「真偽判定」を行う場合に「どういった証拠が結論を支持し得るか」ということを考える。このような思考は一般に、科学教育において優先的に身に付けさせるべきことと考えられている。この際まず、仮説を支持する証拠と仮説の反証となる証拠を明確にする必要がある。さらに、結論を立証、あるいは反証するために必要な実験を計画する必要がある。一般に、「仮説の反証となる証拠の存在」は、必ずしも反証となる証拠を提示された理論の否定にはつながらない（後述の「反証可能性について」を参照）が、特に実験家は、既存の理論の反証となりそうな実験を好んでターゲットにするという傾向があり、そのような反証例を基に、理論が洗練させられていく。証拠となる事実の取得（測定）の段階では、適切な測定方法の存在が重要となる。適切な測定方法の実現には、正しい測定原理と、それを実現する適切な装置構成、適切な精度評価が必要である。測定原理の妥当性は、直接測定（例えば自分の身長を直接身長計で測る場合）の場合にはあまりその重要性が意識されないが、間接測定（例えば三角測量で山の高さを測る場合）には、その妥当性（本当にその方法で山の高さが測れるのか？）が極めて重要になる。また、「何を明らかにするために何をするのか」という研究者が意識すべき重要な事柄にも密接に関係する。物理学や化学では、測定原理の妥当性の評価が比較的行いやすい対象が研究対象になるが、それでも最先端では、測定原理の妥当性や、装置構成の妥当性に対し議論が生じる場合もある。測定原理の妥当性や、装置構成の妥当性、精度の評価はそれぞれの学問における最も本質的な議題の一つであり、それぞれの学問分野で研究されることである。測定原理の妥当性や、装置構成の妥当性については、主に大学の学生実験で重点的に指導される。逆にいえば、測定原理の妥当性と装置構成の妥当性について学ぶことが学生実験の一つの重要な意義である。典型的な例としては、ボルタ振子の実験等がある。この実験では、振り子の周期と重力加速度の関係を理論的に導いたうえで振り子の周期を測定することで、重力加速度を間接的に測定する。測定原理、装置構成、精度の妥当性の評価を行うことを目的とした論文以外の論文では、博士論文等のような大著の論文を除き、装置構成の妥当性や装置構成の詳細、測定原理の妥当性については、軽く触れるにとどめるのが普通である。このようになった原因の一つには、知的財産権に関する戦略や、二重投稿と解釈されることへの懸念などがある。論文に実験方法詳しく書いた場合で、既に実験方法の妥当性を示すために提出した論文（理論や装置に関する論文）や、特許が存在した場合には、二重投稿と処断される可能性がある。また、論文に実験装置の構成について詳しく書きすぎると、実験の成功に関して必須でない部分に関しても装置構成に関する新規性が喪失されることになる場合があり、後に特許として権利化する場合に支障となる可能性が出てくる。また、最近では実験ツールのキット化が進んでおり、間接測定であっても、妥当性、測定精度等の基礎評価は、実験装置、実験キットのメーカーが保証してくれていて、実験者が意識しなくても済むようになってきつつあるため、測定原理や測定精度について、意識の低い研究者がいることも指摘される。証拠となる事実の整理（解析）、あるいは実証実験のように示すべき命題が明確になり、結論の有意性の問題に逢着段階においては「データの解釈方法」「データの記録または報告」「データの重みづけ」等、適切なデータの取得、適切なデータの処理に関する問題が重要となる。「適切」とは、ここでは、「どのような手順でデータを取得、解析すれば偏りが少ないと認められるか」を指す。この問題は概して非常に難しく、有意性の問題といわれる。有意性の判断は先述のように分野によってどこまで容認するかに温度差があるが、この判定基準については統計学特に実験計画法の分野の研究者が研究している事柄である。有意性の判定に関して、実験計画法では以下の3条件を原則としている（実験計画法の項目を参照のこと）。また、「科学的であること」の要件として必須であるとまでは言えないものの「どのようなデータの収得順序、収得方法、統計処理方法でデータの本性をえぐりだすことができるのか」という問題も重要である。この問題の系統だった研究はデータマイニングの分野で研究されている。この問題に対してカリフォルニア大学サンタバーバラ校教授中村修二が、「データに文脈性を持たせることの重要性」を説いている。データに文脈性を持たせ、一見意味のない雑情報に見えるものの中から意味のある情報を取り出すためには、セレンディピティーや磨かれたセンス、場合によっては運が要求される問題でもある。センスを磨くためには実験ノートの有機的な活用など、実験をよく振り返ることに加え、関連するよい論文に目を通し発見の過程を分析する必要がある。結論と、実験事実の間には何らかのギャップがあることが通常であり、その間を結ぶ考察が必要となる。すなわち、証拠と結論を結ぶ適切な推論過程が考察である。推論過程を、一つの観点から分類すると、直接証明法と間接証明法に分類できる。推論過程を、別の観点から分類すると、「演繹」と「演繹でない推論」に分類される(PP88-92）。ここで、アブダクションについては、あまり聞きなれない言葉であるため簡単に補足しておく。これの基本は「チャールズ・パースの仮説形成法」が基本になるとされている。パースの仮設形成法というのは、大まかに以下のような過程で“推論”する。いわゆる「現象論的」と言われる考察においては、このような考え方が特に好んで用いられる。また、現在において認められている理論のほとんどすべては、「多数のFを説明できるからHは正しい」といった論拠に基づいており、逆に言えば、どれだけの（多さの）Fを説明できるかがその理論の優劣を決める。このようなモデルに基づいた仮説形成法は、「必要条件と十分条件の混同」という点においてデカルトの枠組みを若干逸脱しているが、特に「情報量が増える」こともあり、科学的な論証の推論過程においてよく用いられる。演繹においては、「正しい前提に基づけば必ず正しい結論が得られる」という意味で真理が保存される一方、情報量は増えない。一方、非演繹的論法は、「蓋然的」、すなわち、「必然的じゃない、結論が必ず正しいとは限らない」という特徴があり、一方で「情報量が増える」ということがある。科学者は、両者の良しあしを使い分け、試行錯誤の過程において、例えば「少数の現象から、それらを統一的に説明する仮説を帰納し、その仮説からより多くの現象を予測する」といったように、これらの論法を組み合わせる。考察を行うに当たっては、必要に応じて、何らかの理論や既に公表された他の実験データなどを援用し、証拠を補完する必要がある場合もある。しかし、ある程度信頼を得ている理論ですら完全な証拠の補完ができず、いくつかの推定が根拠の中に混ざる場合や、推論過程自体に粗が存在する場合もある。一般に、「どのような推論過程」が適切であるのかは、その研究のオリジナリティーにかかわる部分であり、特に研究レベルでは極めて難しい。実際、物理の重要な概念を創造した論文は、たいていは隙がある論理展開をしていると指摘される。通常の学部レベルで想像される緻密な理論展開は、創造的理論を受けてその内容を精密化したり整理する過程で生じる。このように科学においては論理性を重視する一方で、現実の対象を扱っていることによる若干の論理の飛躍を認めざるを得ない側面がある。一般に、現実の対象を扱う学問では多少飛躍を許してでも学問を進めたほうが、後になってみて分かることが多いと信じられている。反面、この意味では「科学的な方法によって得られた結論」であるというだけでは「科学的に正しいか否か」「現実的に正しいか否か」「現実的に役立つか否か」は必ずしも一致するとは限らない。問題は、「ギャップを認めつつも推論を進め、意味のある仮説を提唱し、それを広め、集団で検証する」という建設的な立場の重要性にある。論理の飛躍としては、などがある。それぞれそういうものを認めざるを得ない相応の理由がある。では、どこまでの飛躍やあいまいさを容認するのか。これは非常に難しい問題であり「真実への到達」を考えるならば安易に結論できない問題である。だが標語的に「仮説は失敗を恐れずに大胆に立てろ」といわれるように、一般に建設的な立場においては「真実に到達する」ためには「いろいろな“とるに足る”論」があったほうがよいと考えられている。最終的には「どれだけ沢山の自然現象を説明できるか」が科学理論の良し悪しを決めるため、裁判における証拠の鑑定や、法律制定の基礎調査等のような「真実性」の重要性が圧倒的に高いケースを除き、この問題は、過度に深刻に考える必要性は乏しい。どこまでの論理の飛躍を認めるかについては「研究者のタイプ論」から説明されることもある。研究者のタイプはしばし（呼び方は別として）「先頭突撃型」と「地固め型」に分類され、前者の場合は文字どおり、多少乱雑かもしれない実験や推論をする反面、重要な発見をする。逆に地固め型は過去の研究の“粗”の部分を補正する。この論理の飛躍に関しては、「論文として世に出す価値を認めるか否か」に話を限局すれば節度の問題となっていて、ピア・レビューの過程で、前例やその報告の面白さなどを踏まえながら決まっていくものである。ピア・レビューで出来ることは、せいぜいその程度のことであり過度な期待はいけない。この時点におけるレフェリーとの応酬に勝つためには当然、過去の論文を多く読みその論法を見ておく必要がある。また粗がある議論があって、それを部分的にでも修正することができるのならば（それを論理的に立証できる限り）それは論文を書くチャンスである。科学的な実験においては、実験のデザインが重要である。実験のデザインというのは、ここでは、それぞれのグループにおいて、得られた結果をを指す。実際の論文において、IMRAD型の論文であれば「材料と方法」等といったタイトルの節があるが、「材料と方法」欄に「実験のデザイン」という項目が設けられていることがある。調査や研究が科学的であるためには、実験のデザインが妥当であること、実験のデザインが適切に（論文中に）開示されていることが重要である。うち、「どのような測定手段」の部分については、測定原理や概念操作化それぞれの専門分野で考えられる分野個別的な問題であり、本記事のスコープから外れるため説明の対象外とする。但し、「同じ」ものを測る代替手段がいくつか存在する場合にはいくつかの測定手法を並行して用いることが望ましい等といった基本原則は存在する（例えば、「表面の凹凸をSTMとAFMで測り両者の共通点や相違点を見る」、「英語力をTOEICと英検の両方で測定しておく」のように）。それ以外は、統計的な観点を濃厚に含む。意味のある統計手段を行使するためには、少なくとも以下が必要である本節では、まず、「実験デザインの例」を例示した上で、上記それぞれの観点について簡単に説明する。論文においては本来このような実験条件の振り方キザみ方や、実験データの解析/処理の仕方を（専ら統計的な観点から）が読者にわかるように情報提供が行われなければならない。以下、「実験のデザイン」の典型的な例を挙げて例解する。«グループ間の差の検定の例»
«1因子実験の例»
また、評価の順序（プロトコールという意味ではない）が重要なケース、即ち、実験Aと実験Bのどちらを先に実施したかが実験結果に影響を与えかねない場合の例として«どちらの実験を先にたかによって実験結果が変わり得る場合の例»
さらに言えば、上記の実験でもC,Dはコントロール（対照群）が置かれているが、「どのような対照群を置くのか」という問題も検討する必要がある。科学的な実験においては、被験者や、測定サンプルを適切なグループにグループ分けし、グループ内での差とグループ間での差異を検討する必要がある。,,,。大ざっぱにいえば、グループ内での差（バラつき）がグループ間の差に対し充分大きければ有意な差ということであり、そうでなければ有意な差ではないということになる。このような実験の例としては、対照実験やコホート研究がある。グループ分けの最も簡単な例は「対照実験」といわれ実験手法であろう。「対照実験」とは、二つの状況を設定して、一つだけ条件を変え、他の条件は同じにしておくように設定された実験のことである。条件を変えてない方を「実験群」といい、変えた方を「対照群」と言う。即ち、対照実験とは、ような1因子実験のことである。このような実験デザインによって、「特定の一つの観点や因子の“有無”が、効果の有無につながるか否か」が鑑別出来る。対照実験の結果の解釈について、科学哲学者の戸田山和久は、「四分割表」（統計学でいうところの2×2分割表の1種）という表を用いて解釈するとわかりやすいと述べている。四分割表とは、以下の表のように、縦の見出し列を「因子の有無」（原因）、横の見出し行を「効果の有無」（結果）にわけてデータを整理するための表である。このように区分することで、表は、以下のの4つのセグメントに分かれる。被験者の集団や測定サンプルの集団のうちそれぞれのセグメントに何人（何サンプル）が入るのかから、その因子の程度がある程度わかる。（実際にはきちんとした検定が必要であるが、検定をする上でもこのような考え方を知っておくと説明がしやすい。）尚、「独立性の検定」という観点からは、科学哲学者の戸田山和久は「四分割表」を「対照実験」の観点に限って説明しているが、統計学における2×2分割表は、属性A（本例では、因子の有無）、属性B（本例では効果の有無）がそれぞれ2つの階級(水準)(A1,A2,B1,B2)を持つというような問題において、属性Aと属性Bの独立性を検定するというより一般の問題を取り扱うことが出来る（属性Aが原因で、属性Bが結果である必要は必ずしもない）。さらに、属性A,Bの階級がそれぞれm,nの場合にも問題（m×n分割表の問題）は拡張可能で、この問題も「独立性の検定」の話である。表：四分割表例えば以下の問題を検討してみよう。より正確な設定は以下のとおりである。結果の例を以下の表に4例上げてみる。尚以下の（イ）〜（二）は四分割表のそれぞれのセグメントである。総じて、対照実験というのは例2のような愚を犯さない上では有効だけれども、「介入の有無」、「効果の有無」を二値化していることによりという問題がある。そこで、（一つの因子に対する）介入の強さと効果判定のそれぞれを多段階にした一因子実験という考え方が出てくる。一因子実験においても、実験条件（介入の強さ,横軸）と効果判定（効果の強さ,縦軸）に取り、適切に象限を分けると、四分割表の考え方である程度理解可能である。一方で、作用機序の問題は残っている。作用機序の問題とは、例えば以下のような事例が存在する。このうち、海外で行われた1つの試験（INTEREST試験）では、イレッサによって、従来型抗がん剤と同程度の延命効果が得られることが証明されていますが、ほぼ同じデザインで行われた国内の試験（V15-32試験）では、延命効果を明確に証明することはできませんでした。また、海外で行われたもう1つの試験（ISEL試験）では、プラセボよりも延命効果がありそうだったのですが、明確な証明には至りませんでした。(より引用)この事例は臨床薬の治験の事例であるため、上記の例4に比べ、はるかに高度で精密な条件設定がなされているわけだが、簡単に考えれば上記の例4と似たような事例である。イレッサのような分子標的薬は、「特定の機序でがんになった人にはよく利くが、そうでない人には殆ど効果がない」という性質がある。例4の場合でも、「（イ）に相当する10人の一部は、この薬のおかげで治ったかもしれない」という可能性が残る。こういった場合には、「薬が効いた群とそうでない群」に何らかの違いがないかを検討することが望まれる。科学的な実験においては、適切な方法で「実験条件を振る」こと「条件出し」をすることが必要となる。このような行為は、特に技術者や工学者の間では「条件を振る」、「条件を出す」という用語で表現される。これらの用語は、慣用的な使われ方をされることが多く、意味範囲が広い場合も狭い場合あるため、本記事では以下意味で用いることにする。例えば、「大砲の射出角度を0度から90度まで1度刻みでキザみ、最も砲弾の飛行距離が長い条件を見出だす」、「培地の組成成分として様々なものをためし、細胞が最もよく育つ組成を見つける」、「乳牛の品種として、ホルスタイン、ジャージのどちらが沢山牛乳を出すかを調べる」といった実験は「条件出し」の一例である。「条件出し」には、「実験条件」（因子）と「評価観点」が少なくとも定められていなければならない。基本的なレベルにおいては、条件の振り方は以下のような考え方がなされるこのような考え方の根底には、「条件出し」は、「評価値（実験データ）を、実験条件に基づいて比較する」という基本的な考え方がある。因子や評価基準を複雑に考えると、「何と何を、何に基づいて比較しているのか」がわかりにくくなる。しかし、現実には複数のパラメータが因子となり得て、さらにはパラメータ間の交互作用が考えられる。検討するパラメータの数が多くなれば多くなるほど、パラメータの刻み方が多くなれば多くなるほど「組み合わせ爆発」ともいえる様な現象が起こり、評価すべき「実験条件の組み合わせ」が膨大となる。このような問題に対して、タグチメソッド等の手法が存在する。また、現実の問題では「良し悪し」は複数種類のデータに基づいて総合的に判断せねば評価できないことも多い。例えば「家を買う」という（条件出しというにはあまりに日常的な）ですら、問題に対しても評価観点として、「駅から近く、閑静で、値段も安く、…」というように多数のの観点が存在する。これらの評価観点には、当然トレードオフが存在する（駅からの距離と値段とは両立しないというように）ため、それぞれの評価観点に適切な重みづけをする等をしたり、より複雑な場合には何らかの評価関数を設定する等が行われる。条件を振る際には、「実験条件のキザみ方」も問題になる。「実験条件のキザミ方」というのは、「どの条件を細かく振るか」といった事柄を指し示す概念で、初等的な理解としては、といったことがよく言われる。このようにすることで、より良い条件が見つかったり、最適条件のロバスト性が評価出来たり、少ない回数で信頼性に高い結果がえられたりといったメリットがある。先述の「大砲の射出角度」では、例えば「まず5度間隔で粗く条件を振り、飛行距離が長かった条件の付近だけ1度キザミで条件を振る」といったことをすることですべてのレンジで平等に1度キザミで条件を振るよりも効率よく条件出しができよう（無論例によっては、こういうやりかたをしたことによって、真の最適解を見逃す可能性もあり得る）。科学的な考察を加えるためには、適切な統計手法/検定統計量/検定手法の採用が必要である「検定」という言葉は（統計用語に限ったとしても）以下の異なる意味の間で使われており、人によって用語の使い方がまちまちのものもある。従って本記事の中での用語を以下のように統一する。単に「検定」といった場合には、以下のどの意味で言っているかがあまり重要でない場合を意味するものとする。仮説検定は、多くの場合、概ね以下の手順で実施されるp113。多くの場合では、ステップ3ではp値といわれる値を算出する。p値とは、大ざっぱにいえば0から1までの間に値をとる数であり、帰無仮説が正しい確率（従って「対立仮説が誤っている確率」）を表す指標のことである。p値が0の場合帰無仮説は“絶対に誤り”であり（p値が0になることは実際にはほぼ絶対にあり得ない）p値が1の場合には帰無仮説は“絶対に正しい”（p値が0になることは実際にはほぼ絶対にあり得ない）ので、p値が小さければ小さいほど対立仮説の正しさが増すことになる。p値は、検定統計量と検定手法が決まれば一意に定まるが、これが異なると値が異なることもある（方法によって値が異なる）。z検定,t検定,F検定カイ二乗検定（ピアソン検定）,U検定(マンホイットニー検定),符号検定,Wilcoxon検定,フィッシャーの直接確率検定,中央値検定等のように、様々な検定手法が存在する。例えば、z検定,t検定,F検定,カイ二乗検定のように、検定統計量がある特定の分布に従う（例えばカイ二乗検定では、サンプル等から計算された検定統計量がカイ二乗分布に従うことを前提とする）ことを前提とした検定手段では、両側検定とするのか、片側検定とするのかの分類が存在しえる。他にも、検定手段は様々な観点から分類される。以下の表に、よく使われる検定手段の例を例示し、適用可能となる前提条件と、検出力,ロバストネスの高低を示すp99。表.よく使われる検定手法の例以下の表に仮説検定の典型例を、検定の目的に応じて例示する(pp113-127)。それぞれの場合によく用いられる検定統計量や、前提条件、検定手段等についても、併せて例示する(pp113-127)。表.検定の典型例◆例1-1:母分散が既知の場合両側z検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。標本平均formula_1に対し、検定統計量として標準化変数（Z）を以下のように定義する。前提よりZは（確率変数formula_3について）標準正規分布N(0,1)に従う。実際に本例で標準化変数の値を計算すると以下の値を得る。従って、p=0.05の場合でも,p=0.01の場合でも、この場合の標準化変数（Z）の値は、帰無仮説の採択範囲の採択範囲の外にあるため、帰無仮説はp=0.05でも、p=0.01でも棄却される。したがって、p=0.05でも、p=0.01でも「この病気に感染すると血清中のカルシウム濃度は低下する」と言える。参考までに、(両側)Z検定においては,p値は、標準正規分布の累積分布関数(NORM.S.DIST)を用いて、この場合(Z=19.2の場合)は、にて計算されるが、Excelにおいては、19.2は標準正規分布の標準偏差に対し離れすぎているため、桁落ちにて0と算出されてしまう。◆例1-2:母分散が未知の場合自由度29の両側t検定において、検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。題意より、標本数n=30,標本平均formula_4mmHg であり、不偏分散は、である。検定統計量として以下のスチューデント比(T)を次のように定義すると、前提より、Tは、自由度n-1のt分布に従う。実際に本例でスチューデント比(T)の値を計算すると、である。従って、p=0.05の場合でも、p=0.01の場合でも、上記のスチューデント比(T)の値はこの場合、帰無仮説の採択範囲の採択範囲の内にあるため、帰無仮説はp=0.05でも、p=0.01でも棄却されない。従って、p=0.01でもp=0.05でも、「W社の社員の血圧は、全国平均に対し高い」とは言えない。◆例2-1:母平均が既知の場合自由度5の上側カイ二乗検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。題意の状況下において、検定統計量としてカイ二乗値を考えると、これは、自由度5のカイ二乗分布に従う(n=5なので)。カイ二乗値を実際に計算すると、である。従って、（Mさんが作った団子の重さの分散は0.0144 gなので、一見ものすごくバラつきが少なくなったと見えるが、）p=0.05では「バラつきが少なくなった」といえるが、p=0.01では「バラつきが少なくなった」とは言えない。◆例2-2:母平均が未知の場合S社は団子を作るアルバイトを多数雇っている。S社のアルバイトの作る団子の重さの平均値(μ)は不明,分散（σ）は1.2 gであった。新しいバイトMさんに試しに5個、団子を作ってもらったところ1個目74.1 g,2個目74.2g, 3個目74.1 g,4個目73.9 g,5個目73.9 gであった。このとき、H1「Mさんが作る団子はS社のアルバイトの中でばらつきに変化が出た」と言えるか?自由度4の両側tカイ二乗検定において、有意水準pで帰無仮説を棄却することを考えた場合、p=0.05,p=0.01の場合の帰無仮説の採択範囲は以下のようになる。新しいバイトMさんが作った5個の団子の重さの平均値(μ)は、題意の状況下において、検定統計量としてカイ二乗値を考えると、これは、自由度4のカイ二乗分布に従う(n=5なので)。カイ二乗値を実際に計算すると、従って、p=0.05でも、p=0.01でも「バラつきに変化があった」と言える。片側F検定ある科目の試験結果上位8人のスコアはそれぞれ98,95,95,91,88,87,87,82点下位5人のスコアは51,48,42,40,33点。このとき、「H:上位8人の分散と下位5名の分散に差異がある」と言えるか？ラブライブの4thライブの観客（母集団）のうち、1stシングル「僕らのLIVE 君とのLIFE」を発売週に買った人は103人（サブグループ）である。この103人のうち93人はミルキイホームズのファンでもある。「H1:サブグループ内のミルキイホームズのファンの割合(per)は、母集団におけるミルキイホームズのファンの割合よりも高い」と言えるか？カイ二乗検定開園から閉演までの各10分ごとの実際の来客数を調査したとき次ようになった。0人=1回,1人=1回,2人=4回,3人=6回,4人=8回,5人=7回,6人=6回,7人=5回,8人=3回,9人=1回このとき、「H1:甘城ブリリアントパークの平日の来場者数はポアッソン分布に従う」と言えるか？科学的な考察を加えるためには、統計的な有意差を得るために必要な実験例数の設定科学的な考察を加えるためには、統計的な相関、差異の適切な解釈が必要となる科学的な考察を加えるためには、実験データを適切な可視化手段にて可視化されることが必要となる（数理モデル,モデル (自然科学)も参照）
特に現代の科学においては、「真理とは何か」といった哲学的で捉えどころのない問題に比べ「どのようなモデル、式、計算コードが最も現実をよく反映するのか」という問題が圧倒的に重要な意味をもつ。このように、「現実の対象がどのように振る舞うか」に着眼する現代の科学では、結論の提示は、現実の物理現象・社会現象などを定性的/定量的に説明する具体的なモデルの提示という形で行われることが多い。モデルの良し悪しは、明確であることが求められると同時に、扱いやすさ、どれだけ多くの現実を説明できるかにかかっている。モデル化とは、「牛を球と仮定する」という標語が教えるように、起こっている現象から本質と無関係と思われる部分をそぎ落としたものを作り、そこになんらかの法則をあてはめ、現象を再構築することである（詳細は数理モデル,モデル (自然科学)等を参照のこと。)モデルの提示方法には、例えば以下のようなものがあるモデルの構築方法の典型的な一例を以下に示す。特に萌芽的な研究においては、「ある程度幅をもった実験結果でも取り込めるような体系を作り、実験でパラメータを抜き出し、外挿によって近縁の系に対して予測を立てる（所謂「合わせこみ）」という手法がよくとられる。このような「合わせこみ」をベースとした現象論的・現代的なモデル形成手法は、特に「物ができること」を重視する応用系の分野において顕著な成果を挙げており、現在のデータからより優れた物を作る指針として活用されている。素粒子論などの基礎的な分野においても、このような手法の活用に苦言を呈する者はいるが、少なくとも論文を書く上ではよく用いられている指針である。総じて言えば、基礎研究・応用研究の両方において強力な手法である。特に基礎分野の研究に対する、現代的なモデル化手法の積極的な導入に対する苦言の根拠としては、現代的なモデル化は、モデルを調整するための変数があまりにも増えてしまうと、そもそも計算が困難になり、直観による見通しが利かなくなるという弱点があることがよく言われる。特に、素粒子理論などでは、現実を説明するためにどんどん新しい素粒子が仮定され、話がどんどん複雑になっていくということが問題視されている。単に「話がどんどん複雑になっていく」というだけでは「悪い」とは言えないが、一般に結論はシンプルであるほうがよいと考えられている。無論、明確な指導原理が得られないままパラメータが泥縄的に増えていく状況が生じた場合には、オッカムの剃刀という理念を再度思い起こす必要がある。科学的な方法を実行する上では、調べるべき対象への知識、それ以前の基礎的な知識などが要求されるが、このような知識面以外に、「対象に影響を与えるドミナントな支配法則をまず考慮して概略の傾向を数値的に掴むこと」「実験ノートをきちんとつけられること」、「一定の計算力、論理的な思考力」など

出典:wikipedia

科学的方法

関連ワード