?

Log in

No account? Create an account


Многие думают, что все зависит от решений вашингтонского обкома, но это конечно же чушь, наши судьбы находятся в мозолистых лапах суровых челябинских техасских нефтедобытчиков. Ибо в Техассе находится крупнейшей сланцевый бассейн Permian, разработка которого теоретически способна вогнать цену барреля на уровень царства Аида, превратив рассказы россиян успевших побывать в Турции в легенды эпикурейцев.

Чтобы ответить на вопрос, что же будет с баррелем и с нами, необходимо построить модель месторождения, что позволит рассчитать потенциальные объемы добычи при тех или иных условиях. В качестве основы можно взять данные Drilling Productivity Report (DPR), однако тут есть ряд проблем, которые налагают существенные ограничения на возможности прогнозирования.

Для начала стоит понять, что кажущиеся гладенькими линии такого ключевого показателя как "Продукция с одной буровой за первый месяц" указаны с точностью не большей, чем ответ первоклашки о смысле жизни в рамках концепции трансгуманизма. Если у вас есть привычка просыпаться по ночам, выпивать кефир и регулярно скачивать отчеты DPR, то просматривая их вы можете заметить, что разница между изначальной оценкой и уточнением через год может достигать 34% и еще значительно меняться даже после этого:
Read more...Collapse )

Сланцы и ОПЕК

Несколько пояснений к предыдущему посту:

1. По состоянию на февраль 2017 роста сланцевой добычи практически не было (бугорок в самом конце лишь на уровне сентября-октября). Это прекрасно видно на данных от EIA:

Read more...Collapse )

Tags:



Итак, пришло время сбросить очередную порцию лапши про то, как сланцевики лихо возмещают (или якобы возместят) то, что недопоставляет ОПЕК. Как известно, с января добыча ОПЕК ограничена 32 мбд, что меньше среднего за второе полугодие 2016 на 0.9 мбд. Рассмотрим, что происходит со сланцевиками. Мои расчеты по Бакеену оказались идеально точными. Там кончились жирные участки и бурить осталось практически нечего при таких ценах. По EF ситуация чуть лучше, но в целом похожая:


А вот Permian сильно отличается. Если на картинке выше мы четко видим связь между количеством буровых и динамикой добычи, то для Permian все совсем не так очевидно:
Read more...Collapse )
Всем привет!

Разбираясь со Spark Apache, столкнулся с тем, что после достаточно небольшого усложнения алгоритмов подготовки данных расчеты стали выполняться крайне медленно. Поэтому захотелось реализовать что-нибудь на C# и сравнить производительность с аналогичным по классу решением на стеке python (pandas-numpy-skilearn). Аналогичным, потому что они выполняются на локальной машине. Подготовка данных на C# осуществлялась встроенными средствами (linq), расчет линейной регрессии библиотекой extremeoptimization.

В качестве тестовой использовалась задача «B. Предсказание трат клиентов» с ноябрьского соревнования Sberbank Data Science Journey.

Сразу стоит подчеркнуть, что в данной статье описан исключительно аспект сравнения производительности платформ, а не качества модели и предсказаний.

Итак, сначала краткое описание последовательности действий реализованных на C# (куски кода будут ниже):

1. Загрузить данные из csv. Использовалась библиотека Fast Csv Reader.
2. Отфильтровать расходные операции и выполнить группировку по месяцам.
3. Добавить каждому клиенту те категории, по которым у него не было операций. Для того, чтобы избежать длительный перебор цикл-в-цикле использовал фильтр Блума. Реализацию на C# нашел тут.
4. Формирование массива Hashing trick. Так как готовой реализации под C# не удалось найти, пришлось реализовать самому. Для этого скачал и допилил реализацию хеширования murmurhash3
5. Собственно расчет регрессии.

Read more...Collapse )
Пусть Жираф был не прав,
Но виновен не Жираф,
А тот, кто крикнул из ветвей:
«Жираф большой — ему видней!» (с)

Потребовалось оперативно разобраться с технологией Spark заточенную для использования Big Data. В процессе выяснения активно использовал habrahabr, так что попробую вернуть информационный должок, поделившись приобретенным опытом.

А именно: установкой системы с нуля, настройкой и собственно программированием кода решающего задачу обработки данных для создания модели, вычисляющей вероятность банкротства клиента банка по набору таких признаков как сумма кредита, ставка и т.д.

Больших данных вроде как должно быть много, но почему-то не просто найти то злачное место, где их все щупают. Сначала попробовал вариант с ambari, но на моей Window7 валились ошибки настроек сетевого моста. В итоге прокатил вариант с преднастроенной виртуальной машиной от Cloudera (CDH). Просто устанавливаем VirtualBox, запускаем скачанный файл, указываем основные параметры (память, место) и через 5 минут достопочтенный джин Hadoop жаждет ваших указаний.

Несколько слов, почему именно Spark. Насколько я понимаю, ключевые отличия от изначальной MapReduce в том, что данные удерживаются в памяти, вместо сброса на диск, что дает ускорение во много раз. Но, пожалуй, более важны реализации целого ряда статистических функций и удобным интерфейсом для загрузки/обработки данных.

Дальше собственно код для решения следующей задачи. Есть реально большие данные (ибо рука очень устает скролить эти 2000 строк) в формате:



Есть предположение, что дефолт как-то связан с остальными параметрами (кроме первого, к уважаемым Ивановым1…N претензий нет) и нужно построить модель линейной регрессии. Прежде чем начать, стоит оговориться, что это мой первый код на Java, сам я работаю аналитиком и вообще это мой первый запуск Eclipse, настройка Maven и т.д. Так что не стоит ждать изысканных чудес, ниже решение задачи в лоб тем способом, который почему-то заработал.
Поехали:
Read more...Collapse )

Tags:

Гелик Вани (пародия)

Сделал клип-пародию на "Гелик Вани" Сереги (Полиграф ШарикOFF):


Только имеет смысл сначала посмотреть оригинал, если раньше не видели:
В качестве заметок на полях:

1. Прирост дебита средней скважины. Как я писал, модель Баккена показывает, что прирост дебита средней скважины около 20%. Но это аналитический вывод, иначе не сходится расчетный баланс с фактическим. В качестве подтверждения нужно смотреть на фактический дебит скважин. К примеру возьмем данные по накопленному дебиту скважин по состоянию на октябрь 2014 и сравним с последними данными за июль 2016.



Чтобы правильно читать этот график нужно помнить, что первые 6 месяцев не очень показательны по двум причинам:
Read more...Collapse )

Tags:

Пик потребления нефти

В продолжение предыдущей записи. Сделал расчет потребления нефти в случае еще более быстрого роста доли электрокаров + гибридов. Т.е. вплоть до того, что производство классических авто перестанет расти к 2030:


Хотя если смотреть на среднегодовые темпы производства электромобилей+гибридов, то динамика роста классических авто получается более бурной, но допустим такой вариант.

Прежде чем показать результаты проговорим про параметры. Был вопрос, почему в последние годы "полочка", а в прогнозе бурный рост. Потому что на мой взгляд полочка - обычная флуктуация. Долгосрочно рост достаточно стабилен:
Read more...Collapse )

Нефтяной мир 2030

Последняя дискуссия показала, что даже читатели моего занудного бложика не всегда понимают суть происходящего. Несмотря на необоснованные обвинения в подтасовках, хочу поблагодарить оппонента за высказанные мысли, они показывают, что именно оказалось изложено мной недостаточно ясно.

Насчет стороны передложения еще будут комментарии, поговорим сначала про потребление. Почему цены на нефть обречены на рост в среднесрочной перспективе. Потому что на растущем спросе заканчиваются дешевые источники сырья. Основной драйвер роста спроса - транспорт:

Источник: http://www.iea.org/publications/freepublications/publication/KeyWorld_Statistics_2015.pdf

До этого я намеренно не включался в обсуждения емкостей аккумуляторов и прочих аспектов электрокаров. Практика - критерий истины. Хотелось увидеть реальную динамику и только сейчас ее можно оценить. Продажи электромобилей и гибридов действительно стремительно растут, однако в 2015 году занимали всего 0.6% от продаж. Экстраполируя прирост за период 2010 - 2015 годы можно оценить долю в продажах к 2030 году:
Read more...Collapse )
Случайно узнал, что у меня оказывается была полемика с wood_stock про расчеты цен на нефть. Поиск не дал результатов. Возможно это было в ФБ, хотя я не припоминаю, чтобы кто-то спрашивал про логику расчетов, а я не ответил. Ну да, ладно, решил воспользоваться этим воистину фундаментальным постом для того, чтобы разобрать типичные ошибки в данной теме.

>>Человек упорно рисует экономическую целесообразность сланцев от 75$. Я так и не смог вытянуть из него логику выкладок

Скорее всего уважаемый оппонент не читал мой скучный бложик, иначе бы заметил пост "Расчет себестоимости сланцевой нефти", где рассчитана цена отсечения $55 на выходе из скважины (не думаю, что имеет смысл объяснять, что это вовсе не должно быть равно фактической общемировой цене). К слову говоря, буквально вчера обнаружил похожие оценки делали и другие:





Тут стоит прокомментировать, что EOG в основном работает на Eagle Ford, тогда как мои расчеты основываются на данных по Баккену. И как я писал, бурить Eagle Ford дешевле долларов на 10. Соответственно это мы и видим в данной табличке, OpEx+CapEx:

Pioneer - $55
EOG - $44
CLR - $59

>>Oasis теперь оценивает новую скважину в 6 млн $. В 2014 это стоило 10 млн.

Специально этой теме посвятил отдельный пост: "Ложь, наглая ложь и презентации нефтяных компаний". И тут дополнение, о том что обычно "забывают" упомянуть в отчетах.

Read more...Collapse )

Tags:

Latest Month

April 2017
S M T W T F S
      1
2345678
9101112131415
16171819202122
23242526272829
30      

Syndicate

RSS Atom
Powered by LiveJournal.com
Designed by Tiffany Chow