Вопросы о Python-е

Квас · декабря 23, 2011, 00:14

Пока, собственно, только один вопрос, но может, и другие появятся.

Никак не могу освоиться с этим языком.

В учебных целях придумал следующую задачку: есть строка, по структуре представляющая таблицу (например, | играет роль разделителя столбцов, а \n — разделителя строк). Требуется эту строку распарсить, то есть создать некий iterable объект, содержащий отдельные ячейки. Навроде двумерного массива. Вот никак не могу сообразить, в виде какого объекта это можно реализовать.

Вообще, насколько понимаю, такое паршенье необходимо должно предшествовать, например, всяким конвертациям таблицы: поскольку строки являются неизменяемыми величинами, использование в цикле оператора вида
str1 = str1 + str2
приводило бы к тому, что перелопачивается слишком много памяти. Следовательно, надо обрабатывать ячейки как элементы большого объекта, а потом за один раз делать конкатенацию. Правильно я говорю? В Lua, по крайней мере, учат делать так.

Demetrius · декабря 23, 2011, 00:20

Цитата: Квас от декабря 23, 2011, 00:14
str1 = str1 + str2

Не делайте так. Переформулируйте задачу, чтобы использовать встроенные методы строк (строка.split('|'), например, или find): они работают быстрее (т.к. написаны на Си) и они удобнее.

Demetrius · декабря 23, 2011, 00:23

Мне сейчас лень что-то думать, потому что у меня нет Пюфона для экспериментов под рукой и я боюсь соврать.

Python · декабря 23, 2011, 00:52

Offtop

Demetrius · декабря 23, 2011, 00:56

Нет, всё-таки Ваши лиспы страшные.

Python · декабря 23, 2011, 01:05

Научившись на них думать, начинаешь понимать весь ужас нелиспов.

Квас · декабря 23, 2011, 10:11

Цитата: Demetrius от декабря 23, 2011, 00:20
Цитата: Квас от декабря 23, 2011, 00:14
str1 = str1 + str2
Не делайте так. Переформулируйте задачу, чтобы использовать встроенные методы строк (строка.split('|'), например, или find): они работают быстрее (т.к. написаны на Си) и они удобнее.

Я же и пишу, что так нельзя делать. Если начать с пустой строки и прибавлять сто раз по символу, то в результате постоянного создания новых строк используется, грубо говоря, (1+2+...+100) б ≈ 5 кб памяти.

Поэтому мне и кажется, что нужно ячейки сделать элементами некоторого аналога двумерного массива, после чего можно пользоваться, например, операцией join.

Bhudh · декабря 23, 2011, 13:28

Так можно сначала разделить исходную строку по разделителю строк, а потом — в цикле — по разделителям ячеек...

В Pythonʼе же есть аналог jay-esʼового

Цитата: var s = "a1b2c3d".split(/\d/);
вернет массив ["a", "b", "c", "d"].

?

RawonaM · декабря 23, 2011, 13:47

Цитата: Demetrius от декабря 23, 2011, 00:20
Цитата: Квас от декабря 23, 2011, 00:14str1 = str1 + str2
Не делайте так. Переформулируйте задачу, чтобы использовать встроенные методы строк (строка.split('|'), например, или find): они работают быстрее (т.к. написаны на Си) и они удобнее.

Не понял. Оператор "плюс" - не встроенный метод?
Тогда есть более встроенный метод: ''.join([str1,str2]).

RawonaM · декабря 23, 2011, 13:56

Честно сказать, не понял проблему и что требуется.

Почему бы в качестве "что-то типа двумерного массива" не использовать например двумерный массив? Ну или дишкнари с киями в виде таплов по два.

Делаем просто два раза сплит на эту строку (по '\n' и по '|') и все.

Bhudh · декабря 23, 2011, 14:03

Я это и предложил.

RawonaM · декабря 23, 2011, 14:09

Цитата: Bhudh от декабря 23, 2011, 14:03
Я это и предложил.

Значит я поддерживаю.

Цитата: Квас от декабря 23, 2011, 10:11
Я же и пишу, что так нельзя делать. Если начать с пустой строки и прибавлять сто раз по символу, то в результате постоянного создания новых строк используется, грубо говоря, (1+2+...+100) б ≈ 5 кб памяти.

А почему это вас волнует? Откуда вообще у вас такая инфа?

Это же детали имплементации языка, а не часть языка.
Я не знаю как работает гарбаге цоллецтор в питоне (в каком из них?), но почему бы ему своевременно обрывки не подчищать, чтобы столько памяти не скапливалось? После выполенния str1 = str1 + str2, то на что раньше str1 указывал уже ничем не адресовано и подлежит удалению. Может новый стр1 вообще на его же место запишется.

Цитата: Квас от декабря 23, 2011, 10:11
Поэтому мне и кажется, что нужно ячейки сделать элементами некоторого аналога двумерного массива, после чего можно пользоваться, например, операцией join.

Запутался. Вам нужно построить такую строку или ее распарсить?

Bhudh · декабря 23, 2011, 14:14

Распарсить, обработать ячейки по отдельности и построить обратно, насколько я понял.

RawonaM · декабря 23, 2011, 14:15

Ну строится обратно в обратном порядке, вместо двух сплитов два джоина.

Bhudh · декабря 23, 2011, 14:18

Погоди. А джойн берёт ряд массива в отдельности? Хотя что я, если у нас сплиты, то у нас одномерный массив...

RawonaM · декабря 23, 2011, 14:26

И вообще питон это почти математика, там че хочешь берется. Пишешь как обычно пишут математики ~~{f|f \in S}~~ [f for f in S] и все дела.

Квас · декабря 23, 2011, 19:21

Цитата: RawonaM от декабря 23, 2011, 13:56
Почему бы в качестве "что-то типа двумерного массива" не использовать например двумерный массив? Ну или дишкнари с киями в виде таплов по два.

Надо попробовать.

Цитата: RawonaM от декабря 23, 2011, 13:56
Честно сказать, не понял проблему и что требуется.

Хочу вот это:

Цитата: Bhudh от декабря 23, 2011, 14:14
Распарсить, обработать ячейки по отдельности и построить обратно, насколько я понял.

но не мог сообразить, как это по-человечески сделать. Алгоритмически просто, но начинаю писать — дальше «def» не идёт.

Цитата: RawonaM от декабря 23, 2011, 14:09
Цитата: Квас от декабря 23, 2011, 10:11Я же и пишу, что так нельзя делать. Если начать с пустой строки и прибавлять сто раз по символу, то в результате постоянного создания новых строк используется, грубо говоря, (1+2+...+100) б ≈ 5 кб памяти.
А почему это вас волнует? Откуда вообще у вас такая инфа? Это же детали имплементации языка, а не часть языка.

Я читал Programming in Lua, и там был пример, когда последовательное добавление строк к строке-результату работает порядка 2 с, а объединение большого количества строк — элементов таблицы происходит мгновенно благодаря алгоритму ханойской башни или чего-то навроде. Это потому, что строки в Lua — неизменяемые объекты. В Pythone — тоже (согласно туториалу), поэтому я и соображаю, что идеологически верно за раз объединять кучу строк.

arseniiv · декабря 23, 2011, 19:36

Цитата: RawonaM от декабря 23, 2011, 13:56
Ну или дишкнари с киями в виде таплов по два.

Понял только на третьем прочтении.

Quase, split как раз будет быстрее, чем ручная функция-парсер.

Demetrius · декабря 23, 2011, 19:43

Цитата: RawonaM от декабря 23, 2011, 13:47
Не понял. Оператор "плюс" - не встроенный метод?
Тогда есть более встроенный метод: ''.join([str1,str2]).

Оператор плюс-то встроенный, но, как я понял, Квас собрался проходиться по каждому символу строки и прибавлять его к строке-результату.

А вообще да, РавонаМ прав, проще всего так:
a="""11|12|13
21|22|23
31|32|33"""

t = [x.split("|") for x in a.split("\n")]

Квас · декабря 23, 2011, 19:45

Цитата: arseniiv от декабря 23, 2011, 19:36
Quase, split как раз будет быстрее, чем ручная функция-парсер.

Я не против. Вопрос состоял в том, каким типом данных представить двумерный массив строк.

Квас · декабря 23, 2011, 19:47

Цитата: Demetrius от декабря 23, 2011, 19:43
Цитата: RawonaM от декабря 23, 2011, 13:47Не понял. Оператор "плюс" - не встроенный метод?
Тогда есть более встроенный метод: ''.join([str1,str2]).
Оператор плюс-то встроенный, но, как я понял, Квас собрался проходиться по каждому символу строки и прибавлять его к строке-результату.

Ну, не по символу, но можно представить, что от одной строки-таблицы откусываются, например, ячейки, и из них составляется другая строка. Что по моему разумению неграмотно.

Demetrius · декабря 23, 2011, 19:55

Цитата: Квас от декабря 23, 2011, 19:45
Я не против. Вопрос состоял в том, каким типом данных представить двумерный массив строк.

Списком списков же. Если будут проблемы с производительностью, тогда уже делать итератор с yield'ами.

arseniiv · декабря 23, 2011, 20:06

Цитата: Квас от декабря 23, 2011, 19:45
Я не против. Вопрос состоял в том, каким типом данных представить двумерный массив строк.

А, ну так вон тогда у Deme. в самом конце получается двумерный массив.

Demetrius · декабря 23, 2011, 20:11

Неправда, у Deme. получается список списков. Если честно, я вообще не знаю, как в Пюфоне сделать массив.

arseniiv · декабря 23, 2011, 20:15

Ну это я метаординарно говоря. Решил не читать, какие там типы, когда вопрос не такой конкретный.

Лингвофорум

Вопросы о Python-е

Квас

Demetrius

Demetrius

Python

Demetrius

Python

Квас

Bhudh

RawonaM

RawonaM

Bhudh

RawonaM

Bhudh

RawonaM

Bhudh

RawonaM

Квас

arseniiv

Demetrius

Квас

Квас

Demetrius

arseniiv

Demetrius

arseniiv

Быстрый ответ