Популярные вопросы по тегу APACHE-SPARK

Как удалить значения NULL с помощью встроенной функции Array_remove Spark SQL

... null, а не [1, 2, 3, 3]. Это ожидаемое поведение? Можно ли 4 удалить пустые значения с помощью array_remove? В качестве 3 примечания, на данный момент я использую 2 альтернативу более высокого порядка в блоках 1 данных: select filter(array(1, 2, 3, null ...

Как обновить таблицу и делать это одновременно?

... ложим, у меня есть 11 таблица, загруженная spark.read.format("").load().createTempView("my_table") и он также кешируется spark.sql("cache table my_table") достаточно 10 ли следующего кода, чтобы обновить таблицу, и 9 когда таблица загружается следующей, она 8 будет автоматически кэширована spark.sql("refresh table my_table") или мне нужно 7 делать это вручную с помощью spark.table("my_table"). ...

Как преобразовать RDD [Row] обратно в DataFrame

... ъект DataFrame с заголовками 9 столбцов, используя: val dataFrame = dataPair.toDF(header(0), header(1)) Затем я преобразовал 8 его из DataFrame обратно в RDD, используя: val testRDD = dataFrame.rdd , который 7 возвращает RDD типа org.apache.spark.sql.Row 6 (не (Int, Int)). Затем я хотел бы преобразовать 5 его обратно в RDD с помощью .toDF, но получаю 4 сообщение об ошибке: error: value toDF is not a member of org.apache.spark. ...

Как использовать orderby() с убывающим порядком в оконных функциях Spark?

... e, top_x: String, top_key: String, top_value:String): DataFrame ={ val top_keys: List[String] = top_key.split(", ").map(_.trim).toList val w = Window.partitionBy(top_keys(1),top_keys.drop(1):_*) .orderBy(top_value) val rankCondition = "rn < "+top_x.toString val dfTop = df.withColumn("rn",row_number().over(w)) .where(rankCondition).drop("rn") return dfTop } Но когда я пытаюсь ...

Драйвер Spark в Apache Spark

... омощью виртуального бокса виртуальной 8 машины) с Hadoop 1.0.0. Я установил искру 7 на каждую из этих машин. ub1 - мой главный 6 узел, а остальные узлы работ ...

Преобразование списка scala в DataFrame или DataSet

... сибо. import org.apache.spark.sql.{DataFrame, Row, SQLContext, DataFrameReader} import java.sql.{Connection, DriverManager, ResultSet, Timestamp} import scala.collection._ case class TestPerson(name: String, age: Long, salary: Double) var tom = new TestPerson("Tom Hanks",37,35.5) var sam = new TestPerson("Sam Smith",40,40.5) val PersonList = mutable.MutableList[TestPerson] ...

Кодировать и собирать несколько функций в PySpark

... which I'm looking at, and grabs the relevant features from a config file if table == 'users': iter_over = self.config.dyadic_features_to_include elif table == 'activty': iter_over = self.config.user_featu ...

Исключение в потоке "main" java.lang.NoSuchMethodError: scala.Product. $ Init $ (Lscala / Product;)

... JobsTab.scala:38) at org.apache.spark.ui.SparkUI.initialize(SparkUI.scala:67) at org.apache.spark.ui.SparkUI.<init>(SparkUI.scala:84) at org.apache.spark.ui.SparkUI$.create(SparkUI.scala:221) at org.apache.spark.ui.SparkUI$.createLiveUI(SparkUI.scala:163) at org.apache.spark.SparkContext.<init>(SparkContext.scala:452) at sparkEnvironment$.<init>(Ticket.scala:33) at sparkEnvironment$.<clinit>(Ti ...

Как преобразовать столбец метки времени в секунды эпохи?

... толбец с отметкой времени 1 в секунды эпохи? var df = sc.parallelize(Seq("2018-07-01T00:00:00Z")).toDF("date_string") df = df.withColumn("timestamp", $"date_string".cast("timestamp")) df.show(false) DataFrame: +--------------------+--------------------- ...

Использует ли Spark SQL Hive Metastore?

... ive под прикрытием? Это правда? Я говорю о чистом приложении Spark-SQL, которое не подключается явно ни к какой установке Hive. Я запускаю приложение Spark-SQL, и мне не нужно использовать Hive. Есть ли причина использовать Hive? Насколько я понимаю, Sp ...

Как избежать перемешивания при присоединении к DataFrames по уникальным ключам?

... олбец id уникален 10 в обоих фреймах данных. Мне нужен новый DataFrame, который 9 фильтрует A, чтобы включать только значения 8 из B. если бы B был очень маленьким, я бы 7 сделал что-то вроде A.filter($("id") isin B("id")) но B по-прежнем ...

Как передать параметр -D или переменную среды в задание Spark?

... fe 4 сделает всю работу за меня. Есть ли способ 3 передать эту опцию непосредственно в работу? Или, может 2 быть, есть лучший способ изменить конфигурацию 1 задания во время выполнения? РЕДАКТИРОВАТЬ: Ничего не происходит, когда я добавляю пара ...

Запрос на обновление в Spark SQL

... у ли я использовать запрос 3 на обновление в sparksql точно так же: sqlContext.sql("update users set name = '*' where name is null") У 2 меня ошибка: org.apache.spark.sql.AnalysisException: Unsupported language featur ...

Опишите фрейм данных в PySpark

... елать следующее: file_pd = file.toPandas() file_pd.describe() , но, очевидно, для 3 этого потребуется загрузить все данные в 2 память, и это не удастся. Может ли кто-нибудь 1 ...

Задача не сериализуема: java.io.NotSerializableException при вызове функции вне закрытия только для классов, а не объектов

... находится в объекте, все работает когда функция находится в классе get: Задача не сериализуема: java.io.NotSerializableException: тестирование Проблема 4 в том, что мне нужен мой код в классе, а 3 не в объекте. Есть идеи, почему это происходит? Сериализуется 2 ли объект Scala (по умолчанию?)? Это рабочий 1 пример кода: object working extends App { val list = List(1,2,3) val rddList = Spark.ctx.parallelize(list) ...

Как преобразовать pyspark.sql.dataframe.DataFrame обратно в таблицу sql в записной книжке databricks

... ame = sqlContext.sql("select * from my_data_table") Как я могу преобразовать это обратно 2 в таблицу sparksql, в которой я могу запускать 1 ...

Функции окна Spark - диапазон между датами

... Frame с данными, и я пытаюсь 12 получить все строки, предшествующие текущей 11 строке в заданном диапазоне дат. Так, например, я 10 хочу, чтобы все строки за 7 дней до данной 9 строки. Я понял, что мне нужно использовать 8 Window Function, например: Window \ .partitionBy('id') \ .orderBy('start') и вот проблема. Я хочу иметь 7 rangeBetween 7 дней, но в документации Spark нет ничего, ...

Количество исполнителей и ядер по умолчанию для spark-shell

... загружать весь кластер HADOOP в течение 6 нескольких часов? обычно есть параметр, называемый 5 "число-исполнителей" и "ядра-исполнители". spark-shell --driver-memory 10G --exec ...

Столбец GroupBy и строки фильтра с максимальным значением в Pyspark

... н, что об этом уже спрашивали 12 раньше, но a search through stackoverflow не ответил на мой вопрос. Не 11 дубликат [2], поскольку мне нужно максимальное 10 значение, а не самый частый элемент. Я новичок 9 в pyspark и пытаюсь сделать что-то действительно 8 простое: я хочу сгруппировать по столб ...

Pyspark: группируйте, а затем подсчитывайте истинные значения

... езультат: ("1234", Counter({0:0, 1:3}), ("1236", Counter(0:1, 1:1)) Мне нужно только количество 9 отсчетов, равное 1, возможно, сопоставленное 8 со списком, чтобы я мог построить гистограмму 7 с помощью matplotlib. Я не знаю, как действовать 6 дальше и все фильтровать. Изменить: в конце 5 я перебрал словарь и добавил счетчики в 4 список, а затем построил гистограмму списка. Мне 3 интересно, есть ли более элегантный способ 2 выполнить весь ...

Какая связь между задачами и разделами?

... личеству разделов Spark? Исполнитель запускается 3 один раз (пакет внутри исполнител ...

Как фильтровать по значению массива в PySpark?

... - Start: string (nullable = true) | | |-- Title: string (nullable = true) |-- CompanyId: string (nullable = true) |-- Country: string (nullable = true) |-- vendorTags: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- score: double (nullable = true) | | |-- vendor: string (nullable = true) Я попробовал выполнить ...

Kafka - Не удалось найти запись KafkaClient в java конфигурации JAAS.

... mer.java:524) at com.carrefour.entequadratura.KafkaHandler.createConsumer(KafkaHandler.java:96) at com.carrefour.entequadratura.KafkaHandler.runConsumer(KafkaHandler.java:104) at com.carrefour.entequadratura.Main.main(Main.java:48) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) ...

Создание простого однострочного фрейма данных Spark с помощью Java API

... ерь я пытаюсь сделать это из класса Java. По-видимому, у 6 JavaRDD нет метода toDF(String). Я пробовал: List<String> stringAsList = new ArrayList<String>(); stringAsList.add("buzz"); SQLContext sqlContext = new SQLContext(sparkContext); DataFrame df = sqlContext.createDataFrame(sparkContext .parallelize(stri ...

Spark с использованием python: как решить Этап x содержит задачу очень большого размера (xxx КБ). Максимальный рекомендуемый размер задачи - 100 КБ.

... foreach(lambda (x, y): life.add((y-x))) Что дает следующее предупреждение: ARN TaskSetManager: этап 3 содержит задачу очень большого размера (4644 КБ). Максимальный рекомендуемый размер задачи - 100 КБ. Как 3 устранить это предупреждение? Есть ли способ 2 справиться с размером? А также повлияет 1 ли это на временную сложность бо ...

Режим сгруппированных данных в (py) Spark

... Group by column and count the number of occurrences # of each x value counts = df.groupBy(column).count() # - Find the maximum value in the 'counts' column # - Join with the counts dataframe to select the row # with the maximum count # - Select the first element of this dataframe and # take the value in column mode = counts.join( counts.agg(F.max('count').alias('count')), on='count' ).li ...

Найти среднее значение массива pyspark <double>

... pos", "longitude") ) longitude_reduced = long_exp.groupBy("ID").agg(avg("longitude")) Это удачно взяло среднее. Однако, поскольку 4 я буду делать это для нескольких столбцов, мне 3 придется взорвать один и тот же DF несколько 2 раз. Я продолжу работать над этим, чтобы 1 найти более чистый способ сделать это ...

PySpark и MLLib: важность функции случайного леса

... he data into training and test sets (30% held out for testing) (trainingData, testData) = data.randomSplit([0.7, 0.3]) # Train a RandomForest model. # Empty categoricalFeaturesInfo indicates all features are continuous. # Note: Use larger numTrees in practice. # Setting featureSubsetStrategy="auto" lets the algorithm choose. model = RandomForest.trainClassifier(trainingData, numClasses=2, categoricalFeaturesInfo={}, ...

SPARK SQL - случай, когда тогда

... DITION' THEN 0 ELSE 1 END» в 1 SPARK SQL? select case ...

Как сопоставить функции из вывода VectorAssembler с именами столбцов в Spark ML?

... 3682291754585, 73.32793120907755, 7.690626652102948, 4.108783841348964, 61.669402913526625, 25.48144510173714689] Эти 10 числа ничего не значат, если я не знаю, какому 9 атрибуту они соответствуют. Но в моем DataFrame у 8 меня есть только один столбец с названием 7 "features", который содержит строки разреженных 6 векторов. Это еще более серьезная проблема, когда 5 у меня есть функции с горячим кодированием, потому ...

Уровень Apache Spark Codegen Stage превышает 64 КБ

... n.exchange.ShuffleExchangeExec.doExecute(ShuffleExchangeExec.scala:119) at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:131) at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127) at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:155) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperatio ...

Как извлечь все элементы из массива структур?

... | bbb | [{name11, id11}, {name22, id22},...]| моя схема df для этого столбца 7 выглядит так: |-- values: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- name: string (nullable = true) | | |-- id: long (nullable = true) Я хочу извлечь каждое значение 6 из этого столбца массива следующим образом: +----------+---------+--------------+ |id |title |name | _id| +----------+---------+ ...

Как настроить количество исполнителей искры, количество ядер и память исполнителя?

... получим 4 номер исполнителя. Я подписался на link. Однако 3 получил представление на высоком уровне, но 2 все еще не уверен, как и с чего начать и 1 прийти ...

Сортировать по значению в искровой паре RDD

... е Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3)) Используя Spark Scala API, как 2 получить новую пару RDD, которая отсо ...

Группировать по, ранжировать и агрегировать фрейм данных Spark с помощью pyspark

... 0.55 A1 B3 0.43 A2 B1 0.7 A2 B2 0.5 A2 B3 0.5 A3 B1 0.2 A3 B2 0.3 A3 B3 0.4 Как преобразовать столбец "C" в относительный 5 рейтинг (более высокий балл -> лучший рейтинг) для 4 столбца A? Ожидаемый результат: A B Rank --------------- A1 B1 1 A1 B2 2 A1 B3 3 A2 B1 1 A2 B2 2 A2 B3 2 A3 B1 ...

Spark SQL, вложенный в столбец

... и. Что-то 8 вроде этого root |-- foo: struct (nullable = true) | |-- bar: string (nullable = true) | |-- baz: string (nullable = true) |-- abc: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- def: struct (nullable = true) | | | |-- a: string (nullable = true) | | | |-- b: integer (nullable = true) | | | |-- c: st ...

Как сохранить байтовую строку Python в фрейме данных Spark

... : ByteStrings = [b'one',b'two',b'three'] rdd_ByteStrings = sc.parallelize(ByteStrings) print(rdd_ByteStrings.take(3)) DF2_schema = StructType([ StructField("ByteString", StringType(), True), ]) DF_ByteStrings = sqlContext.createDataFrame(rdd_ByteStrings,schema=DF2_sche ...

Как сделать настраиваемую переменную среды в EMR доступной для Spark Application

... rk. Я пробовал добавить 6 это: ... --configurations '[ { &quot;Classification&quot;: &quot;spark-env&quot;, &quot;Configurations&quot;: [ { ...

Увеличьте объем памяти Spark при использовании локального [*]

... ", "1g") .set("spark.driver.memory", "4g") .setMaster("local[*]") .setAppName("MyApp") Но 1 я все равно получаю: MemoryStore: MemoryStore started with capaci ...

Как вычислить процентили в Apache Spark

... меня есть ряд целых чисел (т.е. RDD[Int]), и я 2 хотел бы вычислить следующие десять проце ...

Как передать список путей к spark.read.load?

... tabricks.spark.avro") .load( "/data/src/entity1/2018-01-01", "/data/src/entity1/2018-01-12", "/data/src/entity1/2018-01-14") Я хотел 4 бы сначала подготовить список путей и передать 3 их методу load, но получаю следующую ошибку 2 компиляции: val paths = Seq( "/data/src/entity1/2018-01-01", "/d ...

В чем разница между контрольной точкой искры и сохранением на диске

... очкой искры 2 и сохранением на диске. ...

Лучший способ получить максимальное значение в столбце фрейма данных Spark

... asDict()['max(A)'] # Method 4: Convert to RDD df.select("A").rdd.max()[0] Каждый из перечисленных 8 выше вариантов дает правильный ответ, но 7 из-за отсутствия инструмента профилирования 6 Spark я не могу сказать, какой из них лучше. Есть 5 идеи, основанные на интуиции или эмпиризме, какой 4 из вышеперечисленных методов наиболее эффективен 3 с точки зрения времени выполнения Spark 2 или использования ресурсов, или есть ли ...

Добавление столбца StringType в существующий фрейм данных Spark с последующим применением значений по умолчанию

... рез .show()): +----+--------+ | x| y| +----+--------+ |true|not true| +----+--------+ Теперь я хочу добавить новое 12 поле в jsonDF после его создания и без изменения 11 строки json, чтобы результирующий DF выглядел 10 следующим образом: +----+--------+----+ | x| y| z| +----+--------+ ...

PySpark - удалить первую строку из фрейма данных

... 191669 01 5905893739 FYIWNKA 191671 01 2749355876 CBMJTLP # Create spark session spark = SparkSession.builder.master("local").appName("fixed-width" )\ .config ...

Таблица обновления внешней таблицы улья против восстановления MSCK

... олько 7 что добавленном разделе. Это единственный 6 способ или есть лучший способ? Меня беспокоит, будет 5 ли msck repair вызывать какие-либо проблемы с недоступностью 4 данных или устаревшими данными, если последующие 3 пользователи запрашивают таблицу? Я просматривал 2 API HiveContext и видел параметр refreshTable. Есть идеи, имеет 1 ли смысл использовать ...

Ошибка: 'java.lang.UnsupportedOperationException' для кода документации Pyspark pandas_udf

... r.java:240) at org.apache.arrow.vector.ipc.ArrowWriter.writeRecordBatch(ArrowWriter.java:1 32) at org.apache.arrow.vector.ipc.ArrowWriter.writeBatch(ArrowWriter.java:120) at org.apache.spark.sql.execution.python.ArrowPythonRunner$$anon$1.$anonfun$wr iteIteratorToStream$1(ArrowPythonRunner.scala:94) at scala.runtime.java8.JFunction0$mcV$sp.apply(JFunction0$mcV$sp.java:23) at org.apache.spark.util.Utils ...

Ошибка инициализации SparkSession - невозможно использовать spark.read

... = SQLContext(sc) spark = SparkSession.builder.config(conf=conf) dfRaw = spark.read.csv("hdfs:/user/..../test.csv",header=False) dfRaw.createOrReplaceTempView('tempTable') sqlContext.sql("create table customer.temp as select * from tempTable") И я получаю сообщение 7 об ошибке: dfRaw = spark.read.csv ("hdfs: / user 6 /../ test.csv", header = False) AttributeError: объект 5 'Builder' не имеет атрибута 'read' Как прави ...

Измените память исполнителя (и другие конфигурации) для Spark Shell

... дать спарк-оболочку плоские свойства, например 3 -Dspark-cores-max = 12, когда я запускаю 2 его, чтобы мои задания в искровой оболочке 1 использовали эти параметры ко ...

Присоединение двух обычных RDD с / без Spark SQL

... щью Spark SQL или есть другие способы 4 сделать это. В качестве конкретного примера 3 рассмотрим RDD r1 с первичным ключом ITEM_ID: (ITEM_ID, ITEM_NAME, ITEM_UNIT, COMPANY_ID) и ...