Что касается меня, то я все-таки предпочитаю отношение "сосуществования". Если мы используем это отношение, то мы предполагаем, что каждое событие занимает какое-то ограниченное количество пространства-времени; это значит, что ни одно событие не ограничено одной точкой пространства или одним моментом времени. О двух событиях можно сказать, что они "сосуществуют", когда они совмещаются в пространстве-времени; это является определением для абстрактной физики. Но нам необходимо, как мы видели, определение, полученное из опыта. В качестве наглядного определения из опыта я дал бы следующее: два события "сосуществуют", когда они относятся друг к другу так же, как относятся друг к другу две одновременные части одного опыта. В каждый данный момент я вижу определенные вещи, слышу другие, осязаю третьи, вспоминаю четвертые и ожидаю пятые. Все эти восприятия, воспоминания и ожидания происходят во мне сейчас; я скажу, что они взаимно "сосуществуют". Я полагаю, что это отношение, которое я знаю из своего собственного опыта, может также иметь место между событиями, остающимися вне опыта, и может быть отношением, посредством которого конструируется порядок пространства-времени. Это будет иметь следствием то, что два события оказываются сосуществующими, когда они совмещаются в пространстве-времени, что, если пространственно-временной порядок берется как уже определенный, может в "пределах физики" служить в качестве определения сосуществования.
Сосуществование не есть то же самое, что и одновременность, хотя последнее и предполагает ее. Сосуществование, как я его понимаю, должно рассматриваться как нечто известное из опыта и имеющее только наглядное определение. Я также не определил бы "сосуществование" как "одновременность в опыте одного человека". Я протестовал бы против этого определения по двум основаниям: во-первых, потому, что его нельзя было бы распространить на те физические явления, которые не попадают ни в чей опыт; во-вторых, потому, что "опыт" представляет собой неопределенное слово. Я сказал бы, что событие "переживается в опыте", когда оно дает начало привычке, и что вообще это происходит только в том случае, если событие совершается там, где есть живая материя. Если это правильно, то "опыт" не является основоположным понятием.
Но теперь встает вопрос: можем ли мы построить пространственно-временной порядок из одного сосуществования или нам нужно для этого что-то еще? Возьмем более простую гипотезу. Предположим, что имеется n событий a1, a2, ... аn, и предположим, что at сосуществует только с а2, а2 сосуществует с a1 и a3, aз - с a2 и a4 и так далее. Тогда мы можем построить порядок a1, a2,... an. Мы скажем, что событие находится "между" двумя другими, если оно сосуществует с обоими, но они притом не сосуществуют друг с другом; и в более общем виде: если a, b, c суть три разных события, мы скажем, что b находится "между" a и c, если события, сосуществующие и c a и c c, представляют собой подлинную часть событий, сосуществующих с b. Это можно рассматривать как определение отношения "между". Дополненное соответствующими аксиомами, оно может лечь в основу того порядка, который нам нужен.
Следует заметить, что мы не можем построить пространственно-временного порядка из эйнштейновского отношения "интервала". Интервал между двумя отрезками луча света равен нулю, и все же мы должны различать световой луч, который идет от A к В, и луч, идущий от В к А. Это показывает, что одного "интервала" недостаточно.
Если принять вышеупомянутое рассуждение, то точки пространства-времени становятся классами событий. Я разбирал этот вопрос в книге "Анализ материи" и в главах VI и VIII этой части и не буду поэтому больше его касаться.
Этого достаточно для определения пространственно-временного порядка в терминах опыта. Остается восстановить связь физических событий, совершающихся во внешнем мире, с восприятиями.
Когда энергия, испускаемая материей в результате квантовых переходов, движется без дальнейших квантовых переходов к данной части человеческого тела, она служит началом цепи квантовых переходов, которые в конце концов достигают мозга. Из правила "Одна и та же причина - одно и то же действие" с его следствием, "Разные действия - разные причины" вытекает, что если две линии лучистой энергии, падая на одну и ту же точку тела, становятся причинами различных восприятий, то должно быть различие в этих двух линиях и, следовательно, и в квантовых переходах, которые дают им начало. При допущении существования причинных законов этот аргумент кажется бесспорным и дает основание для вывода от восприятий к материальному источнику того процесса, посредством которого они создаются.
Я думаю - хотя и говорю это с уверенностью,- что различение между пространственным и временным расстоянием требует рассмотрения причинных законов. Это значит, что если есть причинный закон, связывающий событие А с событием В, то А и В разделены во времени и делом условия является, будем ли мы считать их также разделенными и в пространстве. В этом понимании содержатся, однако, некоторые трудности. Множество людей может слышать или видеть что-либо одновременно, и в этом случае имеется причинная связь без временного интервала. Но в таком случае связь не прямая, подобно отношению, связывающему родных или двоюродных братьев; это значит, что она идет сначала от действия к причине, а затем от причины к действию. Но как можем мы отличать причину от действия до установления временного порядка? Эддингтон говорит, что мы делаем это с помощью второго закона термодинамики. В отношении сферической радиации мы принимаем, что радиация идет от центра, а не к центру. Ко поскольку я хочу связать физику с опытом, я предпочел бы сказать, что мы устанавливаем временной порядок с помощью памяти и нашего непосредственного опыта временной последовательности. То, что вспоминается, относится, по определению, к прошлому; и в пределах являющегося настоящего есть более раннее и более позднее. Все' сосуществующее с чем-либо вспоминаемым, а не с моим настоящим опытом также относится к прошлому. Отправляясь от этого, мы можем определение временного порядка и различение прошлого и будущего распространять шаг за шагом на все события. Мы можем тогда отличать причину от действия и говорить, что причины всегда бывают по времени раньше, чем действия.
Согласно вышеприведенной теории, имеются определенные элементы, которые переносятся без изменений из мира чувств в мир физики. Эти элементы следующие: отношение сосуществования, отношение более раннего и более позднего, некоторые элементы структуры и различия в некоторых обстоятельствах, то есть, когда мы испытываем различные ощущения, относящиеся к одному и тому же чувству, мы можем предположить, что их причины различны. Это остаток наивного реализма, который все еще живет в физике. Он продолжает жить прежде всего потому, что не никакого положительного аргумента против него, потому, что связанная с ним физика соответствует известным фактам, и потому, что предрассудок заставляет нас склоняться к наивному реализму всегда, когда его нельзя опровергнуть. Остается исследовать, имеются ли для признания физики какие-либо лучшие основания, кроме вышеприведенных.
ЧАСТЬ ПЯТАЯ
Вероятность
ВВЕДЕНИЕ
Обычно считается, что выводы науки и обыденного здравого смысла отличаются от выводов дедуктивной логики и математики в весьма важном отношении, а именно в том, что, когда посылки истинны и само рассуждение правильно, заключение только вероятно. Мы имеем основания верить, что Солнце взойдет завтра, и каждый согласится, что в практике мы можем вести себя так, как если бы эти основания подтверждали достоверность. Но когда мы исследуем их, мы находим, что они оставляют место, хотя и незначительное, для сомнения. Это подтверждаемое сомнение имеет три вида. Что касается первых двух, то: во-первых, могут быть относящиеся к делу факты, которых мы не знаем; во-вторых, законы, которые мы должны принять для того, чтобы предсказывать будущее, могут быть неверными. Первое основание для сомнения не имеет большого значения для нашего настоящего рассмотрения, но второе таково, что требует детального исследования. Существует и третий вид сомнения, который возникает тогда, когда мы знаем закон относительно действия того, что что-либо происходит обычно или может быть в подавляющем большинстве случаев, хотя и не всегда; в этом случае мы имеем право ожидать то, что происходит обычно, хотя и не с полной уверенностью. Например, если человек бросает кости, то случаи, когда будут выпадать две шестерки десять раз подряд, очень редки, хотя это и не невозможно; мы поэтому имеем право ожидать, что он не сможет бросать кость так, чтобы две шестерки выпадали десять раз подряд, но наше ожидание должно иметь оттенок сомнения. Все эти виды сомнения включают нечто такое, что может быть названо "вероятностью", но это слово может иметь разные значения, которые для нас важно выяснить.
Математическая вероятность возникает всегда из комбинации двух высказываний, одно из которых может быть полностью известным, а другое совершенно неизвестно. Если я вытащу из колоды карту, то каков шанс, что это будет туз? Я полностью знаю строение колоды карт и знаю, что одна из каждых тринадцати карт есть туз; но я совершенно не знаю, какую карту я вытащу. Но если я говорю: "Вероятно, Зороастр существовал",- то я высказываю что-то о степени недостоверности или о правдоподобии в добавлении к одному предложению: "Зороастр существовал". Это понятие сильно отличается от понятия математической вероятности, хотя во многих случаях оба эти понятия связывают друг с другом.
Делом науки является выведение законов из частных фактов. Вывод подобного рода не может быть дедуктивным, кроме того случая, когда в добавление к частным фактам среди наших посылок имеются общие законы; с чисто логической точки зрения это совершенно очевидно. Иногда думают, что, хотя частные факты и не могут сделать закон достоверным, все же они могут сделать его вероятным. Частные факты, конечно, могут быть причиной веры в общее предложение;
именно тот факт, что в нашем опыте нам приходится встречаться со смертью отдельных людей, послужил причиной нашей веры в то, что все люди смертны. Но если наша вера в смертность всех людей оправдывается, то это как общее правило, происходит потому, что определенные виды частных фактов служат доказательством общих законов. А поскольку дедуктивная логика не знает никакого подобного принципа, постольку всякий принцип, который должен оправдывать вывод от частного к общему, должен быть законом природы, то есть утверждением, что действительная вселенная имеет определенный характер, который она могла бы и не иметь. Я попытаюсь исследовать такой принцип или принципы в шестой части этой книги; в пятой же части я буду только отстаивать ту мысль, что индукция через простое перечисление не является таким принципом, и если не подвергнуть ее жестким ограничениям, то можно доказать, что она незаконна.
В науке мы выводим не только законы, но также и частные факты. Если мы читаем в газете, что король умер, мы делаем вывод, что он мертв; если оказывается, что мы должны совершить длинное путешествие по железной дороге без возможности поесть в дороге, то мы делаем вывод, что нам придется поголодать. Все такие выводы могут быть оправданы только в том случае, если есть возможность установить законы. Если бы не было общих законов, то знание каждого человека было бы ограничено только его личным опытом. Больше необходимости в том, чтобы законы существовали, чем в том, чтобы их знали. Если за А всегда следует В и если какое-либо животное, увидев А, ожидает В, то об этом животном можно сказать, что оно знает о наступлении B без знания общего закона. Но хотя некоторое знание о еще не воспринятых фактах и может быть получено таким путем, все-таки достигнуть многого без знания общих законов невозможно. Такие законы в общем устанавливают вероятность (в одном смысле) и сами только вероятны (в другом смысле). Например, вероятно (в одном смысле), что если вы больны раком, то вероятно (в другом смысле), что вы умрете. Это положение вещей делает очевидным, что мы не можем достигнуть понимания научного метода без предварительного исследования различных видов вероятности.
Но хотя такое исследование и необходимо, я все-таки не думаю, что вероятность имеет такое большое значение, какое ей придают некоторые авторы. Значение, которое она имеет, возникает двумя путями. С одной стороны, нам нужны в качестве предпосылок науки не только данные, полученные благодаря восприятию и памяти, но также и определенные принципы синтетического вывода, которые не могут быть установлены дедуктивной логикой или аргументами, полученными из опыта, поскольку они предполагаются во всяком выводе от фактов опыта к другим фактам или законам. Можно допустить, что эти посылки не вполне достоверны, то есть что они не обладают наивысшей "степенью правдоподобия". Одной из задач нашего анализа этой формы вероятности будет показать вопреки противоположному мнению Кейнса, что данные и посылки вывода могут быть недостоверными. Это - один путь, на котором теория вероятности оказывается нужной, но есть также и другой. Случается, что мы часто знаем (в некотором смысле слова "знаем"), что что-то происходит обычно, но, возможно, не всегда, например, что за молнией следует гром. В этом случае мы имеем класс случаев А, большинство из которых, как мы имеем основание думать, принадлежит к классу В. (В нашем примере А суть периоды времени, наступающие сейчас же после молнии, а В - периоды времени, когда слышится гром.) В таких условиях, когда дан случай класса А, относительно которого мы не знаем, является ли он случаем класса B, мы имеем право сказать, что он, "вероятно", является членом класса В. Здесь слово "вероятно" имеет не тот смысл, который ему придается, когда мы говорим о степенях правдоподобия, а совсем другой, который оно имеет в математической теории вероятности.
На основании этих соображений, а также и потому, что логика вероятности гораздо менее полна и гораздо менее бесспорна, чем элементарная логика, необходимо развить теорию вероятности подробнее и исследовать различные спорные вопросы ее интерпретации. Следует помнить, что все обсуждение вопроса о вероятности играет роль предварительного введения к исследованию постулатов научного вывода.
ГЛАВА 1.
ВИДЫ ВЕРОЯТНОСТИ.
Попытки создать логику вероятности были многочисленны, но против большинства из них выдвигались роковые для них возражения. Одной из причин ошибочности этих теорий было то, что они не различали - или, скорее, намеренно смешивали - в корне различные понятия, которые в обычном словоупотреблении имеют одинаковое право называться словом "вероятность". В этой главе я намереваюсь провести предварительное и дискурсивное исследование этих разных понятий, откладывая до следующих глав попытку достичь строгих определений.
Первым весьма значительным фактом, который мы должны взять в расчет, является существование математической теории вероятности. Среди математиков, занимающихся этой теорией, существует весьма полное согласие в отношении всего того, что может быть выражено в математических символах, но вместе с тем полностью отсутствует согласие в отношении интерпретации математических формул. При таких обстоятельствах самым простым путем является перечисление аксиом, из которых эта теория может быть выведена, и принятие решения, что любое понятие, которое удовлетворяет требованиям этих аксиом, имеет с математической точки зрения одинаковое право называться словом "вероятность". Если имеется много таких понятий и если мы решаем сделать выбор среди них, то мотивы нашего выбора должны лежать вне математики.
Есть одно очень простое понятие, которое удовлетворяет требованиям аксиом теории вероятности и которое по другим основаниям имеет преимущество перед другими. Если дан конечный класс В, имеющий n членов, и если известно, что количество m из них принадлежит к какому-то другому классу A, то мы говорим, что если выбрать наудачу какой-либо член класса В, то шанс, что он будет принадлежать к классу А, будет равен числу m /n. Вопрос о том, соответствует ли это определение тому употреблению, которое мы хотим сделать из математической теории вероятности, мы будем рассматривать позже; если оно не соответствует, мы должны будем поискать какую-либо другую интерпретацию математической вероятности.
Следует иметь в виду, что здесь не встает вопрос об истинности или ложности. Любое понятие, которое удовлетворяет требованиям аксиом, может рассматриваться как понятие, которое само есть математическая вероятность. Действительно, возможно, что в одном контексте может быть удобным принять одну интерпретацию, а в другом - другую, так как удобство является единственным руководящим мотивом. Такова обычная ситуация при интерпретации математической теории. Например, как мы видели, вся арифметика может быть выведена из пяти аксиом, перечисленных Пеано, и, следовательно, если все, чего мы хотим от чисел, есть только то, что они должны повиноваться правилам арифметики, то мы можем определить, как ряд натуральных чисел, любой ряд, удовлетворяющий пяти аксиомам Пеано. Однако эти аксиомы удовлетворяются любой прогрессией, и, в частности, рядом натуральных чисел, начинающимся не с 0, а со 100, 1000 или с любого другого конечного целого числа. Только в том случае, если мы хотим, чтобы наши числа служили для перечисления, а не только для арифметики, мы получаем основание для выбора ряда, начинающегося с 0. Точно так же обстоит дело и в математической теории вероятности, где избираемая интерпретация может зависеть от той цели, которую мы имеем в виду.
Слово "вероятность" часто употребляется так, что не допускает или по крайней мере не допускает явно своей интерпретации как отношения чисел двух ограниченных классов. Мы можем сказать: "Вероятно, Зороастр существовал", "Вероятно, теория тяготения Эйнштейна лучше, чем теория Ньютона", "Вероятно, все люди смертны". Это не следует смешивать с предложением: "Все люди, вероятно, смертям". Но мы могли бы утверждать, что в этих случаях имеются определенные показания, о которых известно, что они в громадном большинстве случаев сочетаются с определенного рода выводами; таким путем теоретически и здесь можно было бы применить определение вероятности как отношения чисел двух классов. Следовательно, возможно, что примеры вроде вышеприведенных не предполагают нового значения "вероятности".
Есть, однако, два афоризма, которые все мы склонны принимать без особой проверки, но которые, если их принять, предполагают такую интерпретацию "вероятности", которую, по-видимому, нельзя примирить с вышеприведенными определениями. Первым из этих афоризмов является изречение епископа Батлера, что "вероятность есть руководитель жизни". Вторым является положение, что все наше знание только вероятно, на чем особенно настаивал Рейхенбах.
Изречение епископа Батлера, очевидно, имеет силу в соответствии с одной очень распространенной интерпретацией "вероятности". Когда, как это обычно бывает, я не уверен в том, что должно произойти, но должен действовать в соответствии с той или иной гипотезой, мне обычно и вполне правильно советуют выбирать наиболее вероятную гипотезу и всегда правильно советуют учитывать степень вероятности при принятии решения. Но существует очень важное логическое различие между вероятностью этого рода и математической вероятностью, а именно то различие, что последняя касается пропозициональных функций, а первая - высказываний. Когда я говорю, что шанс, что монета выпадет лицевой стороной, равен половине, то это - отношение между двумя пропозициональными функциями "х есть бросание монеты" и "х есть бросание монеты, которая выпадает лицевой стороной". То есть высказываний, содержащих неопределенные переменные, например "А есть человек", которые становятся высказываниями, когда мы приписываем переменной (в приведенном примере переменной А) какое-либо
значение. Если мне приходится делать вывод, что в каком-либо отдельном случае шанс выпадения лицевой стороной равен 1/2, то я должен сказать, что рассматриваю этот частный случай только как отдельный пример. Если бы я мог вникнуть во все его частности, я мог бы теоретически решить, упадет ли монета лицевой или оборотной стороной, и тогда я больше уже не был бы в сфере вероятности. Когда мы применяем вероятность в качестве руководителя наших действий, то это происходит потому, что наше знание недостаточно; мы знаем, что рассматриваемое событие является членом класса событий В, и мы можем знать, какая часть членов этого класса принадлежит к некоему классу А, которым мы интересуемся. Но эта часть будет изменяться в соответствии с нашим выбором класса В; мы, таким образом, получим различные вероятности, одинаково ценные с математической точки зрения. Для того чтобы вероятность могла стать руководителем практики, мы должны иметь какой-то способ выбора одной вероятности как действительной вероятности. Если мы не можем этого сделать, то все различные вероятности остаются одинаково ценными, и мы останемся без руководства.
Возьмем пример, когда каждый здравомыслящий человек руководствуется вероятностью. Я имею в виду страхование жизни. Я выясняю условия, на которых некая страховая компания согласна застраховать мою жизнь, и должен решить, будет ли страхование на этих условиях выгодной сделкой именно для меня, а не для страхования вообще.
Моя задача отличается от задачи страховой компании и является гораздо более трудной. Страховая компания не интересуется моим индивидуальным случаем: она предлагает страхование всем членам определенного класса и нуждается только в учете статистических средних чисел. Но я могу верить, что у меня есть особые основания думать, что я проживу долго или что я похож на того шотландца, который умер на другой день после уплаты последнего страхового взноса, успев сказать с последним вздохом: "Я всегда был счастливым парнем". Тут имеет значение каждое обстоятельство в моем здоровье и в моем образе жизни, но некоторые из этих обстоятельств могут быть настолько необычными, что я не смогу получить сколько-нибудь надежной помощи от статистики. Наконец, я решаю проконсультироваться с врачом, который, задав мне несколько вопросов, благожелательно говорит: "О, я думаю, что вы проживете до 90 лет". Я с сожалением сознаю не только то, что его суждение поспешно и не научно, но также и то, что он хочет сказать мне что-то приятное. Вероятность, к которой я в конце концов прихожу, является, таким образом, чем-то в высшей степени неопределенным и совершенно не поддающимся числовому измерению; но именно на основании этой неопределенной вероятности я, как последователь епископа Батлера, и должен действовать.
Вероятность, являющаяся руководителем жизни, не относится к математическому виду вероятности не только потому, что она относится не к произвольным данным, а ко всем данным, которые с самого начала имеют отношение к вопросу, но также и потому, что она должна учитывать нечто целиком лежащее вне сферы математической вероятности, что можно назвать "внутренне присущей сомнительностью". Именно это и имеется в виду, когда говорят, что все наше познание только вероятно. Возьмем, например, воспоминание о далеком прошлом, которое стало настолько забытым, что мы не можем больше относиться к нему с доверием, звезду, настолько тусклую, что мы не уверены в том, действительно ли мы ее видим, или шум, настолько слабый, что мы думаем, что он нам только кажется. Это крайние случаи, но в меньшей степени такого рода сомнительность очень обычна. Если мы утверждаем, как это делает Рейхенбах, что все наше знание сомнительно, то мы не можем определить эту сомнительность математическим путем, ибо при составлении статистики уже предполагается, что мы знаем, что А есть или не есть В, что этот застрахованный человек умер или что он жив. Статистика строится на структуре предположенной достоверности прошедших случаев, и всеобщая сомнительность не может быть только статистической.
Я думаю поэтому, что все, во что мы склонны верить, имеет какую-то "степень сомнительности" или, наоборот, какую-то "степень правдоподобия". Иногда это бывает связано с математической вероятностью, а иногда нет; это более широкое и более неопределенное понятие. Но оно, однако, не является чисто субъективным. Есть родственное субъективное понятие, а именно степень убежденности, которую человек чувствует по отношению ко всякой своей вере; но "правдоподобие", как я его понимаю, есть объективное понятие в том смысле, что оно есть степень доверия, которое оказывает разумный человек. Когда я подытоживаю свои расчеты, то в первый раз я оказываю получающемуся результату только некоторое доверие, значительно большее я оказываю, если я получаю тот же результат во второй раз, и приобретаю почти полное убеждение, если я получаю его в третий раз. Этот рост убежденности идет вместе с накоплением подтверждений и является поэтому разумным. В любом предложении, в пользу которого имеется показание, хотя бы и недостаточное, есть соответствующая "степень правдоподобия", что есть то же самое, что и степень доверия, оказываемая разумным человеком. (Это последнее соображение может рассматриваться, возможно, как определение слова "разумный".) Большое значение придается вероятности в практике благодаря ее связи с правдоподобием, но если мы вообразим, что эта связь теснее, чем она на самом деле, то мы внесем путаницу в теорию вероятности.
Связь между правдоподобием и субъективным убеждением есть связь, которая может быть изучена эмпирически; у нас поэтому нет необходимости иметь какие-либо взгляды по этому вопросу до эмпирического свидетельства. Фокусник, например, может создать обстоятельства способом, известным ему самому, но рассчитанным на то, чтобы обмануть публику;
он может, таким образом, приобрести данные в отношении того, как создавать неверные убеждения, что, вероятно, полезно в деле рекламы и пропаганды. Мы не можем так легко изучить отношение правдоподобия к истине, потому что мы обычно принимаем высокую степень правдоподобия за достаточное свидетельство истины, а если мы этого не делаем, мы оказываемся больше не в состоянии открывать какие бы то ни было истины. Но мы можем обнаружить, образуют ли предложения, имеющие высокую степень правдоподобия, взаимно согласованную последовательность, так как такая последовательность содержит предложения (высказывания) логики.
В результате вышеприведенного предварительного обсуждения я думаю, что каждое из обоих различных понятий имеет на основе обычного употребления равное право называться "вероятностью". Первое из них является математической вероятностью, которая поддается числовому измерению и удовлетворяет требованиям аксиом исчисления вероятности;
это - тот вид вероятности, который предполагается при использовании статистики, будь то в физике, в биологии или в общественных науках, и также тот ее вид, который, как мы думаем, предполагается в индукции. Этот вид вероятности всегда имеет дело с классами, а не с отдельными случаями, за исключение того обстоятельства, когда они могут рассматриваться только как примеры.
Но существует и другой вид, который я называю "степенью правдоподобия". Этот вид применим к отдельным предложениям и всегда связан с учетом всех относящихся к делу свидетельств. Он применим даже в некоторых таких случаях, в которых нет никакого известного свидетельства. Высшая степень правдоподобия, которой только мы можем достигнуть, применима к большинству суждений восприятия; различные степени применимы к суждениям памяти в соответствии с их живостью и свежестью. В некоторых случаях степень правдоподобия может быть выведена из математической вероятности, в других же случаях это не может быть сделано; но даже в тех случаях, когда она может быть выведена, важно помнить, что это другое понятие. Именно этот вид, а не математическая вероятность подразумевается, когда говорят, что все наше познание только вероятно и что вероятность есть руководитель жизни.
Оба вида вероятности требуют обсуждения. Я начну с математической вероятности.
ГЛАВА 2.
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТИ.
В этой главе я собираюсь трактовать теорию вероятности как ветвь чистой математики, в которой мы выводим следствия определенных аксиом, не стараясь приписать им ту или иную интерпретацию. Относительно "интерпретации" смотри главу 1 четвертой части этой книги. Следует заметить, что, в то время как интерпретация в этой области является спорной, само математическое исчисление диктует здесь ту же меру согласия, как и во всякой другой области математики. Это положение вещей никоим образом не является чем-то особенным. Интерпретация исчисления бесконечно малых почти в течение двух столетий была предметом, по поводу которого спорили математики и философы; Лейбниц считал, что она предполагает актуально бесконечно малые, и только Вейерштрасс окончательно опроверг этот взгляд. Возьмем еще более существенный пример:
никогда не было никаких споров по поводу элементарной арифметики, и все-таки определение натуральных чисел все еще остается предметом спора. Мы не должны поэтому удивляться, что существует сомнение в отношении определения "вероятности", в то время как его нет (или очень мало) в отношении исчисления вероятности.
Следуя Джонсону и Кейнсу, мы будем обозначать выражением p/h неопределенное понятие "вероятность p при данном h". Когда я говорю, что это понятие является неопределенным, я имею в виду, что оно определяется только с помощью аксиом или постулатов, которые должны быть перечислены. Все, что удовлетворяет требованиям этих аксиом, является "интерпретацией" исчисления вероятности, и следует думать, что здесь возможно множество интерпретаций. Ни одна из них не является более правильной или более законной, чем другая, но некоторые могут быть более важными, чем другие. Так, среди интерпретаций пяти аксиом Пеано для арифметики та интерпретация, в которой первое число - 0, является более важной, чем та, в которой первое число - 3781; она более важна потому, что позволяет нам отождествить интерпретацию формалистической концепции с концепцией, признаваемой в перечислении. Но сейчас мы отвлечемся от всех вопросов интерпретации и займемся чисто формальной трактовкой вероятности.
Необходимые аксиомы, или постулаты, даются почти одинаково различными авторами. Следующие формулировки взяты у профессора Ч. Д. Брода. Эти аксиомы таковы:
1. Если даны p и h, то существует только одно значение p/h. Мы поэтому можем говорить о "данной вероятности p при данном h".
2. Возможные значения выражения p/h суть все действительные числа от 0 до 1, включая и то и другое. (В некоторых интерпретациях мы ограничиваем возможные значения рациональными числами; этот вопрос я буду рассматривать ниже.)
3. Если h имеет значение p, то p/h=1 (мы употребляем "1" для обозначения достоверности).
4. Если h имеет значение не-p, то p/h=0 (мы употребляем "О" для обозначения невозможности).
5. Вероятность p и q при данном h есть вероятность p при данном h, помноженная на вероятность q при данных p и h, и является также вероятностью q при данном h, помноженной на вероятность p при данных q и h.
Эта аксиома называется "конъюнктивной".
VI. Вероятность p и q при данном h есть вероятность p при данном h плюс вероятность q при данном h минус вероятность p и q при данном h.
Это называется "дизъюнктивной" аксиомой.
Для наших целей несущественно, являются ли эти аксиомы необходимыми; нас касается только то, что они достаточны.
В отношении этих аксиом требуются некоторые замечания. Ясно, что аксиомы 2, 3 и 4 выражают частично соглашения, которые легко можно изменить. Если, когда они приняты, значение какой-то данной вероятности есть x, то мы можем с одинаковым успехом принять в качестве ее значения любое число f(x), которое возрастает по мере возрастания x, вместо 1 и 0 в аксиомах 3 и 4 мы должны будем подставить f(1) и
f(0).
Согласно вышеприведенным аксиомам, предложение, которое должно быть истинным, если истинны данные, должно иметь в отношении данных вероятность, равную 1, а предложение, которое должно быть ложным, если данные истинны, должно иметь в отношении данных вероятность, равную 0.
Важно иметь в виду, что наше основное понятие p/h является отношением двух предложений (или конъюнкцией предложений), а не свойством одного предложения p. Это отличает вероятность, каковой она является в математическом исчислении, от вероятности, которой руководствуются в практике, так как последняя должна относиться к предложению, взятому само по себе или по крайней мере в отношении данных, которые не произвольны, а определяются проблемой и природой нашего познания. В исчислении, наоборот, выбор данных х совершенно произволен.
Аксиома V есть "конъюнктивная" аксиома. Она имеет дело с вероятностью того, что каждое из двух событий произойдет. Например, если я буду тянуть из колоды две карты, то каков шанс, что обе окажутся красными? Здесь "h" представляет собой данное, что колода состоит из 26 красных и 26 черных карт; 'p" обозначает, что "первая карта красная", а "q"- что "вторая карта красная". Тогда (p и q)/h" есть шанс, что обе карты будут красные, "p/h "есть шанс, что первая - красная, "q / (p и h)" есть шанс, что вторая - красная, при условии, что первая - красная. Ясно, что p/h =1/2, q (p и h) =25/51. Очевидно, согласно аксиоме, шанс, что обе карты будут красные, равен 1/2х25/51.
Аксиома VI есть "дизъюнктивная" аксиома. В вышеприведенном примере она дает шанс, что по крайней мере одна из карт будет красная. Она говорит, что шанс, что по крайней мере одна будет красная, есть шанс, что первая - красная, плюс шанс, что вторая - красная (когда не дано, будет ли первая красной или не будет), минус шанс, что обе - красные. Это равняется 1/2+1/2-1/2х25/51, если использовать результат, полученный выше с помощью конъюнктивной аксиомы.
Ясно, что с помощью аксиом V и VI, при том условии, что даны отдельные вероятности любой ограниченной совокупности событий, мы можем исчислить вероятность наступления их всех или по крайней мере вероятность наступления одного из них.
Из конъюнктивной аксиомы следует, что
Это называется "принципом обратной вероятности". Ее полезность может быть иллюстрирована следующим образом. Пусть p будет какой-либо общей теорией, а q - экспериментальным данным, относящимся к p. Тогда p/h есть вероятность теории p в отношении ранее известных данных, q /h - вероятность q в отношении ранее известных данных и q (p и h) - вероятность q, если p истинно. Таким образом, вероятность теории p после того, как q установлено, получается посредством умножения прежней вероятности p на вероятность q при данном p и деления на прежнюю вероятность q. В самом благоприятном случае теория p будет предполагать q, так что q/ (p и h) =1. В этом случае
Это значит, что новое данное q повышает вероятность p пропорционально предшествующей невероятности q. Другими словами, если наша теория предполагает нечто весьма неожиданное, а это неожиданное затем происходит, то это сильно повышает вероятность нашей теории.
Этот принцип может быть иллюстрирован открытием Нептуна, рассматриваемым как подтверждение закона тяготения. Здесь p - закон тяготения, h - все относящиеся к делу факты, известные до открытия Нептуна, q - факт обнаружения Нептуна в определенном месте. Тогда q /h было предварительной вероятностью, что до сего времени неизвестная планета будет найдена в определенной небольшой области неба. Пусть она была равна m/n. Тогда после открытия Нептуна вероятность закона тяготения стала в n/m раз большей, чем раньше.
Ясно, что этот принцип имеет большое значение в оценке роли нового свидетельства в пользу вероятности научной теории. Мы найдем, однако, что он доказывает нечто разочаровывающее и не дает таких хороших результатов, на которые можно было бы надеяться.
Существует имеющее большое значение предложение, иногда называемое теоремой Бейеса, которая имеет следующий вид. Пусть Р1, P2, ..., Pn будут n взаимно исключающих друг друга возможностей, причем известно, что какая-то одна из них истинна; пусть h будет означать общие данные, а q - какой-либо относящийся к делу факт. Мы хотим узнать вероятность одной возможности p, при данном q, когда мы знаем вероятность каждого P1 до того, как стало известным q, a также вероятность q при данном р1 для каждого г. Мы имеем
Это предложение позволяет нам решить, например, следующую задачу: дано n +1 сумок, из которых первая содержит n черных шаров и ни одного белого, вторая содержит n - 1 черных шаров и один белый; r+1-я сумка содержит n - r черных шаров и r белых. Берется одна сумка, но неизвестно, какая именно; из нее вынимается m шаров, и оказывается, что все они белые; какова вероятность, что взята была сумка r? Исторически эта задача важна в связи с претензией Лапласа на доказательство индукции.
Возьмем, далее, закон больших чисел Бернулли. Этот закон устанавливает, что если на каждое число случаев шанс наступления определенного события есть p, то при данных любых двух сколько угодно малых числах e и s шанс, что, начиная с достаточно большого числа случаев, отношение случаев наступления события всегда будет отличаться от p больше, чем на величину s, будет меньше, чем e.
Поясним это с помощью примера с бросанием монеты. Допустим, что выпадение лицевой и оборотной сторон монеты одинаково вероятно. Это значит, что, по-видимому, после достаточно большого количества бросаний отношение выпадений лицевой стороной никогда не будет отличаться от 1/2 больше, чем на величину s, как бы мала ни была эта величина s; далее, как бы s не было мало, где бы то ни было после n бросаний, шанс такого отклонения от 1/2 будет меньше e, если только n достаточно большое.
Так как это предложение имеет большое значение в приложениях теории вероятности, например в статистике, постараемся получше освоиться с точным смыслом того, что утверждается в вышеприведенном примере с бросанием монеты. Прежде всего я утверждаю, что начиная с определенного числа их выпадения процент выпадения монеты лицевой стороной всегда будет, скажем, между 49 и 51. Допустим, что вы оспариваете мое утверждение и мы решаем проверить его эмпирически насколько только возможно. Значит, теорема утверждает, что чем дольше мы будем продолжать проверку, тем больше будет казаться, что мое утверждение порождено фактами и что по мере того, как число бросаний будет увеличиваться, эта его вероятность будет приближаться к достоверности как к пределу. Предположим, что с помощью этого эксперимента вы убеждаетесь, что начиная с некоторого числа бросаний процент выпадения лицевой стороной всегда остается между 49 и 51, но теперь я утверждаю, что начиная с некоторого большего числа бросаний этот процент будет всегда оставаться между 49,9 и 50,1. Мы повторяем наш эксперимент, и спустя некоторое время вы снова в этом убеждаетесь, хотя на этот раз, возможно, спустя большее время, чем прежде. После любого данного числа бросаний останется шанс, что мое утверждение не подтвердится, но этот шанс все время будет уменьшаться по мере того, как число бросаний будет увеличиваться, и может стать меньше любой приписанной ему величины, если бросание будет продолжаться достаточно долго.
Вышеприведенное предложение легко вывести из аксиом, но оно не может, конечно, быть адекватно проверено эмпирически, поскольку оно предполагает бесконечную последовательность испытаний. Если будет казаться, что испытания, которые мы можем осуществить, будут подтверждать его, то возражающий всегда сможет сказать, что они не показали бы этого, если бы мы продолжали испытание дальше; а если будет казаться, что они не подтверждают его, то защищающий теорему сможет точно так же сказать, что они еще не достаточно долго продолжали испытания. Теорему нельзя, таким образом, ни доказать, ни опровергнуть эмпирическим свидетельством.
Вышеприведенные предложения являются основными предложениями чистой теории вероятности, имеющими большое значение в нашем исследовании. Я хочу, однако, сказать еще кое-что по вопросу о a +1 сумках, каждая из которых содержит n белых и черных шаров, причем r+1-я сумка содержит r белых шаров и n - r черных шаров. Мы исходим из следующих данных: я знаю, что сумки содержат разные количества белых и черных шаров, но при этом нет никакого способа отличить эти сумки друг от друга по внешним признакам. Я выбираю одну сумку наудачу и вынимаю из нее один за другим m шаров, причем, вынимая эти шары, я не кладу их обратно в сумку. Оказывается, что все вынутые шары белые. Учитывая этот факт, я хочу знать две вещи: во-первых, каков шанс того, что я выбрал сумку, содержащую одни только белые шары? Во-вторых, каков шанс того, что следующий шар, который я выну, окажется белым?
Мы рассуждаем следующим образом. Путь h будет тот факт, что сумки имеют вышеописанный вид и содержание, а q - тот факт, что было вынуто m белых шаров; пусть также Pr будет гипотеза, что мы выбрали сумку, содержащую r белых шаров. Очевидно, что г должно быть по крайней мере таким же большим, как и m, то есть если г меньше, чем m, то Pr/qh=Q и q/Prh=0. После некоторых вычислений оказывается, что шанс, что мы выбрали сумку, в которой все шары белые, равен (m +1)/(n +1).
Теперь мы хотим знать шанс, что следующий шар будет белым. После некоторых дальнейших вычислений оказывается, что этот шанс равен (m +1)/(m +2).
Заметьте, что это не зависит от n и что если m велико, то оно очень близко к 1.
В вышеприведенное описание я не включил никакого аргумента по вопросу об индукции, которой я займусь позже. Прежде всего я рассмотрю адекватность определенной интерпретации вероятности, поскольку она может рассматриваться независимо от проблем, связанных с индукцией.
ГЛАВА 3.
ИНТЕРПРЕТАЦИЯ С ПОМОЩЬЮ ПОНЯТИЯ КОНЕЧНОЙ ЧАСТОТЫ.
В этой главе нас интересует одна очень простая интерпретация "вероятности". Мы должны прежде всего показать, что она удовлетворяет аксиомам главы SI, и затем рассмотреть в порядке предварительного разбора, насколько ее можно сделать соответствующей обычному употреблению слова "вероятность". Я буду называть эту интерпретацию "теорией конечной частоты", чтобы отличить ее от другой формы теории частоты, которой мы займемся ниже.
Теория конечной частоты исходит из следующего определения.
Пусть В будет любой конечный класс, а A - любой другой класс. Мы хотим определить шанс, что член класса В, выбранный наудачу, будет членом класса А, например, что первый человек, которого вы встретите на улице, будет иметь фамилию Смит. Мы определяем эту вероятность как число членов класса В, являющихся также членами класса А, деленное на полное число членов класса В. Мы обозначаем это знаком А/В.
Ясно, что вероятность, определяемая таким образом, должна быть или рациональной дробью, или 0, или 1.
Несколько примеров сделают ясным смысл этого определения. Каков шанс, что какое-либо целое число меньше 10, выбранное наудачу, будет простым числом? Существует 9 целых чисел меньше 10, и 5 из них являются простыми; следовательно, этот шанс равен 5/9. Каков шанс, что в прошлом году в Кембридже в день моего рождения шел дождь, в предположении, что вы не знаете, когда бывает день моего рождения? Если m есть число дней, когда шел дождь, то шанс равен m/365. Каков шанс, что человек, фамилия которого содержится в лондонской телефонной книге, носит фамилию Смит? Для решения этой задачи вы должны сначала сосчитать все записи в этой книге с фамилией "Смит", а затем сосчитать вообще все записи и разделить первое число на второе. Каков шанс, что карта, вытащенная наудачу из колоды, окажется пиковой масти? Ясно, что этот шанс равен 13/52, то есть 1/4. Если вы вытянули карту пиковой масти, то каков шанс, что следующая карта, которую вы вытащите, будет тоже пика? Ответ: 12/51. Каков шанс, что в бросании двух костей выпадет сумма 8? Имеется 36 комбинаций выпадения костей, и в 5 из них сумма будет равна 8, так что шанс выпадения суммы 8 равен 5/36.
Ясно, что в иных элементарных случаях вышеприведенное определение дает результаты, согласующиеся с обычным употреблением. Теперь исследуем, удовлетворяет ли таким образом определяемая вероятность аксиомам.
Буквы p, q и h, употребленные в аксиомах, должны теперь пониматься как обозначающие не предложения, а классы или пропозициональные функции. Вместо выражения "h предполагает p" мы будем иметь выражение "h содержится в p", выражение "p и q " будет обозначать общую часть двух классов p и q, тогда как "p и q" будет классом всех членов, которые принадлежат к каждому или к обоим из двух классов p и q.
Наши аксиомы были следующие:
1. Есть только одно значение p/h. Оно будет истинным, если только h не является нулем, в каковом случае p/h = 0/0. Мы поэтому исходим из того, что h не есть нуль.
2. Возможными значениями p/h являются все реальные числа от 0 до 1. В нашей интерпретации они будут только рациональными числами, если только мы не сможем найти способ распространения нашего определения на бесконечные классы. Этого нельзя сделать просто, поскольку деление не дает единого результата, когда дело касается бесконечных чисел.
3. Если h содержится в p, тогда p/n=1. В этом случае общая часть h и p есть h, следовательно, вышеупомянутое следует из нашего определения.
4. Если h содержится в не-p, тогда p/h = 0. Это ясно по определению, ибо в этом случае общая часть h и p равна нулю.
5. Конъюнктивная аксиома. Согласно нашей интерпретации, она утверждает, что отношение членов h, являющихся членами как p, так и q, есть отношение членов h, являющихся членами p, помноженное на отношение членов p и b, являющихся членами q. Допустим, что число членов h есть а, что число членов, общих для p и h, есть b и что число членов, общих для p, q и h, есть с. Тогда отношение членов h, являющихся членами p и q, есть с/a, отношение членов h, являющихся членами p, есть h/a и отношение членов p и h, являющихся членами q, есть с/b. Таким образом, наша аксиома подтверждается, поскольку с/а = b/a x с/b.
6. Дизъюнктивная аксиома. Согласно нашей настоящей интерпретации, эта аксиома говорит, сохраняя вышеприведенные значения а, b и с и добавляя, что d есть число членов h, являющихся членами или p, или q, или обоих из них, тогда как е есть число членов h, являющихся членами q, что
То есть d = b + e - c,
что опять-таки совершенно очевидно.
Таким образом, наши аксиомы удовлетворяются, если h есть конечный класс, не являющийся нулем, за исключением того, что возможные значения вероятности нужно ограничивать рациональными дробями.
Из этого следует, что математическая теория вероятности оказывается действенной при вышеприведенной интерпретации.
Мы должны, однако, исследовать вопрос о сфере применения таким способом определяемой вероятности, которая с первого взгляда кажется чересчур узкой для того употребления, которое мы хотим сделать из вероятности.
Прежде всего мы хотим, чтобы можно было говорить о шансе, что некоторое определенное событие будет иметь некоторые черты, а не только о шансе, что какой-либо рядовой член класса будет иметь их. Например, вы уже осуществили бросание с двумя костями, но я еще не видел результата этого бросания. Какова для меня вероятность, что выпали две шестерки? Мы хотели бы сказать, что эта вероятность равна 1/36, а если наше определение не позволяет нам сказать этого, то оно неадекватно. В таком случае мы сказали бы, что мы рассматриваем событие просто как представителя определенного класса; мы сказали бы, что если А рассматривается просто как член класса В, то шанс, что он принадлежит к классу А, равен А/В. Но здесь не совсем ясно, что значит "рассматривание определенного события просто как члена определенного класса". В таком случае предполагается следующее: нам дается некая характеристика какого-либо события, которая для более полного познания, чем наше, является достаточной, чтобы определить его однозначно; что же касается нашего познания, то мы не имеем способа узнать, принадлежит ли оно к классу А, хотя мы и знаем, что оно принадлежит к классу В. Бросив кости, вы знаете, принадлежит или не принадлежит ваше бросание к классу двойной шестерки, но я этого не знаю. Я знаю только то, что это бросание с двойной шестеркой есть одно из 36 возможных бросаний. Рассмотрим следующий вопрос: каков шанс, что самый высокий человек в Соединенных Штатах живет в штате Айова? Возможно, что кто-нибудь знает этого человека; во всяком случае, существует известный метод, с помощью которого можно узнать, кто этот человек. Если бы этот метод был успешно применен, то имелся бы определенный, не предполагающий вероятности ответ, именно или что он живет в штате Айова, или что он там не живет. Но я не знаю этого. Я ногу только утверждать, что население штата Айова равно числу m, население Соединенных Штатов равно числу n, и сказать, что в отношении этих данных вероятность, что он живет в штате Айова, равна m/n. Таким образом, когда мы говорим о вероятности определенного события, имеющего какую-то характеристику, мы всегда должны специфицировать те данные, по отношению к которым должна быть степень вероятности.
Мы можем обобщить: если дан любой объект о и дано, что а есть член класса В, то мы говорим, что в отношении к этому данному вероятность, что о есть член класса А, равна А/В в ранее определенном смысле. Эта концепция полезна, потому что часто о каком-либо объекте мы знаем достаточно много, чтобы определить его однозначно, не имея при этом достаточных знаний, чтобы определить, имеет ли он то или это свойство. "Самый высокий человек в Соединенных Штатах" есть определенное описание, применимое к одному и только одному человеку, но я не знаю, к какому человеку, к поэтому для меня является открытым вопрос, живет ли он в штате Айова. "Карта, которую я собираюсь вытащить", есть определенное описание, и через момент я буду знать, будет ли это описание относиться к красной или к черной карте, но к какой, я еще пока не знаю. Именно это очень обычное состояние частичного незнания в отношении определенных объектов делает полезным применение вероятности и к определенным объектам, а не только к полностью неопределенным членам классов.
Хотя частичное незнание есть то, что делает вышеприведенную форму вероятности полезной, незнание все-таки не включено в понятие вероятности, которое по-прежнему имело бы тот же смысл для всеведущего существа, как и для нас. Всеведущее существо знало бы, относится ли a к классу A, но все-таки могло бы сказать: по отношению к данному, что a есть B, вероятность того, что a есть A равна A/B.
При применении нашего определения к конкретным примерам в некоторых случаях возможна неясность. Чтобы сделать это понятным, мы лучше воспользуемся языком свойств, чем классов. Пусть класс А определяется свойством f, а класс B свойством y. Тогда мы скажем:
Вероятность того, что о имеет свойство f при том, что оно имеет свойство y, определяется как отношение вещей, имеющих как свойство f, так и свойство y, к вещам имеющим свойство y. Мы обозначаем выражение "a имеет свойство f" знаком "fa". Но если о встречается в "fa" больше одного раза, то возникнет неясность. Например, допустим, что 'fa" обозначает "о совершает самоубийство", то есть "a убивает a". Это есть значение выражения "x убивает x", которое является классом самоубийств; оно также есть значение выражения "о убивает х", которое является классом людей, которых убивает а;, оно также есть значение выражения "x убивает a", которое есть класс людей, которые убивают о. Таким образом, определяя вероятность fa, если "a" встречается в "fa" больше одного раза, мы должны указать, какие из его наступлений должны и какие не должны рассматриваться как значения переменной.
Окажется, что мы может интерпретировать все элементарные теоремы в согласии с вышеприведенным определением. Возьмем, например, предполагаемое Лапласом оправдание индукции. Имеется N+1 сумок, каждая из которых содержит N шаров. Из этих сумок r+1-я содержит г белых шаров и N - r черных шаров. Мы вытащили из одной сумки n шаров, причем все они оказались белыми.
Каков шанс
(a) что мы выбрали сумку с одними лишь белыми шарами?
(b) что следующий шар окажется тоже белым?
Лаплас говорит, что (a) есть (n+1)/(/V+1) и (b) есть (n +1)/(n+2). Иллюстрируем это несколькими числовыми примерами. Во-первых, допустим, что всего имеется 8 шаров, из которых вытащено 4, все белые. Каковы шансы (a), что мы выбрали сумку, содержащую только белые шары, и (b) что следующий вытащенный шар тоже окажется белым?
Пусть Pr представляет собой гипотезу, что мы выбрали сумку с r белыми шарами. Эти данные исключают р0, р1, р2, р3. Если мы имеем p4, то имеется только один случай, когда мы могли вытащить 4 белых, и остается 4 случая вытащить черный и ни одного - белый. Если мы имеем р5, то есть 5 случаев, когда мы могли бы вытащить 4 белых, и для каждого из них был 1 случай вытащить следующий белый и 3 - вытащить черный; таким образом, из р5 мы получаем 5 случаев, где следующий шар будет белым, и 15 случаев, где он будет черным. Если мы имеем P6, то есть 15 случаев выбора 4 белых, а когда они вытащены, остается 2 случая выбрать один белый и 2 случая выбрать черный; таким образом, из P6 мы имеем 30 случаев получения следующего белого и 30 случаев, когда следующий будет черным. Если мы имеем p7, то есть 35 случаев вытащить 4 белых, а после того, как они будут вытащены, останется 3 случая вытащить белый и один - вытащить черный; таким образом, мы получаем 105 случаев вытащить следующий белый и 35 - вытащить черный. Если мы имеем P8, то есть 70 случаев вытащить 4 белых, а когда они будут вытащены, то есть 4 случая вытащить следующий белый и ни одного - вытащить черный; таким образом, из P8 мы получаем 280 случаев вынуть пятый белый и ни одного - вынуть черный. Суммируя, мы имеем 5+30+105+280, то есть 420 случаев, когда пятый шар является белым, и 4+15+30+35, то есть 84 случая, когда пятый шар является черным. Следовательно, разница в пользу белого составляет отношение 420 к 84, то есть 5 к 1; это значит, что шанс, что пятый шар окажется белым, равен 5/6.
Шанс, что мы выбрали сумку, в которой все шары белые, есть отношение числа случаев получения 4 белых шаров из этой сумки ко всему числу случаев получения 4 белых шаров. Первых, как мы видели, 70; вторых 1+5+15+35+70, то есть 126. Следовательно, шанс равен 70/126, то есть 5/9.
Оба эти результата согласуются с формулой Лапласа. Возьмем еще один числовой пример: допустим, что имеется 10 шаров, из которых 5 было вынуто, причем они оказались белыми. Каков шанс р10, то есть того, что мы выбрали сумку с одними белыми шарами? И каков шанс, что следующий шар будет белым?
P5 возможно в 1 случае; если р5, то ни одного случая следующего белого, 5 случаев следующего черного;
P6 возможно в 6 случаях; если р6, то 1 случай следующего белого, 4 случая черного;
P7 возможно в 21 случае; если р7, то 2 случая следующего белого, 3 случая черного;
P8 возможно в 56 случаях; если P8, то 3 случая следующего белого, 2 случая черного;
P9 возможно в 126 случаях; если P9, то 4 случая следующего белого, 1 случай черного;
P10 возможно в 252 случаях; если P10, то 5 случаев следующего белого, 0 случаев черного.
Таким образом, шанс р10 равен 252 (1+6+21+56+126+ +252), то есть 252/462, то есть 6/11.
Случаи, когда следующий шар может быть белым, составляют 6+21 * 2+56 * 3+126 * 4+252 * 5, то есть 1980, а случаи, когда он может быть черным, составляют 5+4 * 6+3 * 21+2 * 56+126, то есть 330.
Следовательно, разница в пользу белого составляет отношение 1980 к 330, то есть 6 к 1, так что шанс получения следующего белого равен 6/7. Это тоже находится в согласии с формулой Лапласа.
Возьмем теперь закон больших чисел Бернулли. Мы можем иллюстрировать его следующим образом. Допустим, что мы бросаем монету n раз и пишем 1 всякий раз, кода выпадает ее лицевая сторона, и 2 - всякий раз, когда она выпадает оборотной стороной, образуя, таким образом число из n-го количества однозначных чисел. Предположим, что каждая возможная последовательность выпадает только один раз. Таким образом, если n = 2, то мы получим четыре числа: 11, 12, 21, 22; если n =3, то мы получим 8 чисел: 111, 112, 121, 122, 211, 212, 221, 222; если n=4, мы получим 16 чисел: 1111, 1112, 1121, 1122, 1212, 1221, 1222, 2111, 2112, 2121, 2122, 2211, 2221, 2222 и так далее
Беря последнее из вышеприведенного перечня, мы находим:
1 число со всеми единицами, 4 числа с тремя единицами и одной двойкой, 6 чисел с двумя единицами и двумя двойками, 4 числа с одной единицей и тремя двойками, t число со всеми двойками.
Эти числа - 1, 4, 6, 4, 1 - являются коэффициентами в разложении бинома (а + b)4. Легко доказать, что для n однозначных чисел соответствующие числа являются коэффициентами в разложении бинома (о + b)n. Теорема Бернулли сводится к тому, что если n является большим, то сумма коэффициентов около середины будет почти равна сумме всех коэффициентов (которая равна 2n), Таким образом, если мы возьмем все возможные последовательности выпадения лицевой и оборотной сторон в большом числе бросаний, то огромное большинство их будет иметь почти одинаковое число у обеих (то есть у лицевой и оборотной сторон); это большинство и приближение к полному равенству будет, кроме того, неопределенно увеличиваться по мере того, как будет увеличиваться число бросаний.
Хотя теорема Бернулли и является более общей и более точной, чем вышеприведенные положения с равно вероятными альтернативами, на все-таки должна интерпретироваться, согласно нашему настоящему определению "вероятности", способом, аналогичным вышеприведенному. Является фактом, что если мы составим все числа, которые состоят из 100 знаков, каждый из которых есть или 1, или 2, то около четверти из них будут иметь 49, или 50, или 51 знак, равный 1, почти половина будет иметь 48, или 49, или 50, или 51, или-52 знака, равных 1, более половины будет иметь от 47 до 53 знаков, равных 1, и около трех четвертей будет иметь от 46 до 54 знаков. По мере того как число знаков будет увеличиваться, будет возрастать и преобладание случаев, в которых единицы и двойки будут почти полностью уравновешиваться.
Вопрос, почему этот чисто логический факт должен рассматриваться как дающий нам хорошее основание ожидать, что, если мы бросим монету очень много раз, мы действительно получим приблизительно равное число выпадений ее лицевой и оборотной сторон, является совершенно другим вопросом, включающим в себя в дополнение к логическим законам законы природы. Я упоминаю об этом только для того, чтобы подчеркнуть тот факт, что я сейчас не рассматриваю этого.
Я хочу подчеркнуть то, что в вышеприведенной интерпретации нет ничего касающегося возможности и ничего, что по существу дела предполагает незнание. Здесь дается только исчисление членов класса В и определение того, какая их пропорция принадлежит также и к классу А.
Иногда утверждают, что мы нуждаемся в аксиоме равновероятности, например, в аксиоме, что выпадение лицевой и оборотной сторон монеты равновероятно. Если это значит, что в действительности они выпадают с приблизительно равной частотой, то это предположение не является необходимым для математической теории, которая как таковая не имеет дела с действительными событиями.
Рассмотрим теперь возможные применения определения конечной частоты к случаям вероятности, которые могут казаться стоящими вне ее.
Во-первых, при каких условиях можно распространить это определение на бесконечные совокупности? Поскольку мы определили вероятность как дробь, а дроби не имеют смысла, когда числитель и знаменатель бесконечны, постольку наше определение можно расширить только в том случае, когда имеются какие-то средства перейти к пределу. Это требует, чтобы все о, в отношении которых мы должны установить вероятность того, что они суть b, представляли бы собой последовательность, являющуюся на деле рядом (progression), так чтобы они были даны как а1, a2, a3, ... an, где для каждого конечного целого числа n существовало бы соответствующее an, и наоборот. Мы можем тогда обозначить через "Pn" пропорцию всех а до an, включительно, которые принадлежат b. Если, по мере того, как n увеличивается, pn стремится к пределу, то мы можем определить этот предел как вероятность того, что a будет b. Этот предел зависит от порядка следования всех о и поэтому является пределом их как последовательности, а не как класса. Мы должны, однако, отличать случай, в котором значение Pn как бы колеблется около своего предела, от случая, в котором оно стремится к пределу только с одной стороны. Если мы многократно бросаем монету, то число выпадений лицевой стороны будет иногда больше половины всех бросаний, а иногда меньше; таким образом, pn как бы колеблется около предела 1/2. Но если мы возьмем пропорцию простых чисел до n (среди всех чисел меньших), то она стремится к пределу нуль только с одной стороны: для любого конечного n величина pn есть определенная положительная дробь, которая для больших значений n приблизительно равна 1/1п n. Однако 1/1n n стремится к нулю по мере того, как n бесконечно возрастает. Таким образом, пропорция простых чисел стремится к нулю, но мы не можем сказать, что "ни одно целое число не является простым"; мы можем сказать, что шанс того, что целое число будет простым числом, является бесконечно малым, но не нулем. Ясно, что шанс того, что целое число будет простым, будет больше, чем шанс того, что оно будет, скажем, и четным и нечетным, хотя этот шанс меньше, чем любая конечная дробь, как бы мала она ни была. Я сказал бы, что когда шанс, что некое о есть b, равняется нулю, мы можем сделать вывод, что "ни одно а не есть b", но когда этот шанс бесконечно мал, мы не можем сделать такого вывода.
Следует заметить, что если мы только не делаем какого-либо предположения о ходе вещей в природе, мы не можем использовать этот метод стремления к пределу, когда имеем дело с последовательностью, которая определена эмпирически. Например, если мы многократно бросаем данную монету и обнаруживаем, что число выпадении лицевой стороны - по мере того как мы продолжаем бросание - непрерывно стремится к пределу 1/2, то это не уполномочивает нас делать предположение, что таковым действительно стал бы этот предел, если бы мы смогли сделать нашу последовательность бросаний бесконечной. Может, например, быть, что если n есть число бросаний, то пропорция выпадении лицевой стороны приближается не строго к 1/2, а к
где N есть число гораздо большее, чем то, которого мы можем достичь в действительном эксперименте. В этом случае наши индукции становились бы эмпирически фальсифицированными как раз тогда, когда мы думали бы, что они прочно установлены. Или опять-таки с любой эмпирической последовательностью могло бы случиться, что через некоторое время она перестала бы подчиняться закону и перестала бы в каком бы то ни было смысл стремиться к пределу. Если в таком случае вышеприведенное распространение нашего определения на бесконечные последовательности нужно применить к эмпирическим последовательностям, то мы должны будем ввести какую-то индуктивную аксиому. Без этого нет основания ожидать, что более поздние части такой последовательности будут продолжать подчиняться тому закону, которому подчиняются более ранние ее части.
В обычных эмпирических суждениях вероятности, таких, например, которые содержатся в прогнозах погоды, имеется смесь различных элементов, которые важно отделить друг от друга. Самым простым предположением - чрезмерно упрощенным здесь для целей иллюстрации - является предположение на основе наблюдения какого-либо симптома, который, скажем, в девяноста процентах случаев, в которых он прежде наблюдался, сопровождался дождем. В этом случае, если бы индуктивные аргументы были столь же бесспорны, как и дедуктивные, мы сказали бы, что "имеется девяностопроцентная вероятность дождя". Это значит, что настоящий момент относится к определенному классу (классу моментов, когда вышеупомянутый симптом налицо), девяносто процентов членов которого являются моментами, предшествующими дождю. Это вероятность в уже разобранном нами математическом смысле. Но не только это делает нас неуверенными в отношении наступления дождя. Мы не уверены также и в отношении бесспорности самого вывода; мы не чувствуем уверенности в том, что за этим симптомом будет в будущем следовать дождь в девяти случаях из десяти. И это сомнение может быть двух видов - научным и философским. Сохраняя в общем полное доверие к методам науки, мы можем чувствовать, что в этом случае слишком мало данных, чтобы обеспечить индукцию, или что не проявлено достаточной заботы для элиминирования других обстоятельств, которые также могут быть налицо и могут быть более неизменными предшественниками дождя. Кроме того, записи могут быть сомнительными: они могли быть испорчены дождем и стать недоступными, для расшифровки или могли быть сделаны человеком, о котором вскоре после этого стало известно, что он ненормален. Такие сомнения относятся к научным методам, но существуют также сомнения, выдвинутые Юмом: является ли индуктивный метод действительным или только удобной для нас привычкой? Все или любое из этик оснований могут заставить нас колебаться в отношении девяностопроцентного шанса дождя, в который наши свидетельства склоняют нас верить.
В случаях такого рода мы имеем иерархию вероятностей. Первая ступень: вероятно, будет дождь. Вторая ступень: вероятно, симптомы, которые я заметил, являются признаками вероятного дождя. Третья ступень: вероятно, определенного рода события делают определенные будущие события вероятными. Из этих трех ступеней первая характеризует обыденный здравый смысл, вторая есть уровень науки и третья - философии.
На первой ступени мы наблюдали, что до сего времени в девяти случаях из десяти за А следовало В; в прошлом, следовательно, А делало В вероятным в смысле конечной частоты. На этой стадии мы без размышления предполагаем, что мы можем ожидать это же самое и в будущем.