Как поставить обратный слэш в python
Перейти к содержимому

Как поставить обратный слэш в python

  • автор:

Обратная косая черта в регулярных выражениях

Регулярные выражения используют символ обратной косой черты ‘\’ , чтобы указать специальные формы или разрешить использование специальных символов без вызова их специального значения. Это противоречит использованию в Python одного и того же символа для той же цели в [строковых литералах][escape-sequence].

Допустим, нужно написать регулярное выражение, соответствующее строке \section , которая может быть найдена в файле LaTeX. Чтобы выяснить, что писать в программном коде, начинаем с нужной строки, которую нужно сопоставить. Затем нужно избежать появление любых обратных и других метасимволов, поставив перед ними обратную косую черту, что приведет к появлению строки \\section . Результирующая строка, которая должна быть передана в re.compile() должна быть \\section . Тем не менее, чтобы выразить это как строковый литерал в Python, оба обратных слэша должны быть снова экранированы!

  • \section — Текстовая строка для сопоставления.
  • \\section — Избежали обратной косой черты для re.compile() .
  • \\\\section — Избежали обратной косой черты для строкового литерала.

Короче говоря, чтобы сопоставить обратную косую черту литерала, нужно написать ‘\\\\’ как строку шаблона RegExp в Python, потому что регулярное выражение должно быть \\ и каждая обратная косая черта должна быть выражена как \\ внутри обычного строкового литерала Python. Регулярные выражения которые имеют несколько обратных слешей приведет к множеству повторных обратных косых черт, что затруднит понимание результирующих шаблонов.

Решение заключается в использовании необработанной строковой нотации r’RegExp’ Python для использования в регулярных выражениях. Обратная косая черта не обрабатывается каким-либо особым образом в строковом литерале с префиксом ‘r’ , так r»\n» будет представлять двухсимвольную строку, содержащую ‘\’ и ‘n’ . Регулярные выражения часто пишутся в коде Python с использованием этой необработанной строковой записи.

  • ‘ab*’ будет выглядеть как r’ab*’
  • ‘\\\\section’ будет выглядеть как r’\\section’
  • ‘\\w+\\s+\\1′ будет выглядеть как r’\w+\s+\1’
  • ОБЗОРНАЯ СТРАНИЦА РАЗДЕЛА
  • Символьные классы и сокращенные обозначения классов
  • Повторение набора символов в регулярном выражении
  • Компиляция регулярных выражений
  • Обратный слеш в регулярных выражениях Python
  • Методы скомпилированного регулярного выражения
  • Функции уровня модуля re
  • Флаги объекта регулярного выражения
  • Метасимволы нулевой ширины в RegExp Python
  • Группы с захватом в регулярных выражениях Python
  • Обратные ссылки регулярного выражения
  • Именованные группы регулярных выражениях Python
  • Группы без захвата в регулярных выражениях
  • Опережающая и ретроспективная проверка позиции в RegExp
  • Деление строки по регулярному выражению
  • Поиск и замена по регулярному выражению
  • match() VS search()
  • Жадный квантификатор против не жадного

Обратный слеш в сырых строках

Почему во втором случае кавычка экранируется? И как тогда написать raw строку из одной черты, лол?

В общем-то в доках прямо так и написано:

. r»\» is not a valid string literal.

Но мне так и не понятно, почему?

Kalashnikov ★★★
19.12.12 16:47:57 MSK

Ну без этого нельзя было бы в рав-строку включить кавычку.

provaton ★★★★★
( 19.12.12 16:56:28 MSK )

Ещё какой-то тупак (мой?):

>>> re.sub(r"(wtf)", r"\\1", "wtf") '\\1' >>> re.sub(r"(wtf)", r"\\\1", "wtf") '\\wtf' >>> re.sub(r"(wtf)", "\\1", "wtf") 'wtf' >>> re.sub(r"(wtf)", "\\\1", "wtf") '\\\x01' 

Мне вообще, «\wtf» надо, эээа.
Kalashnikov ★★★
( 19.12.12 16:59:50 MSK ) автор топика
Ответ на: комментарий от Kalashnikov 19.12.12 16:59:50 MSK

Тут точно твой, строки выводятся с экранированием бекслешей. Делай print.

In [11]: print(re.sub(r"(wtf)", r"\\\1", "wtf")) \wtf In [12]: len(re.sub(r"(wtf)", r"\\\1", "wtf")) Out[12]: 4 

provaton ★★★★★
( 19.12.12 17:04:22 MSK )
Ответ на: комментарий от provaton 19.12.12 17:04:22 MSK

А, тьфу, но почему тогда работает с тремя слешами а не с двумя? Один для \1, второй идёт прямиком в строку, зачем третий?

>>> re.sub("\\", r"\textbackslash ", text) Traceback (most recent call last): File "", line 1, in File "/usr/lib/python2.7/re.py", line 151, in sub return _compile(pattern, flags).sub(repl, string, count) File "/usr/lib/python2.7/re.py", line 242, in _compile raise error, v # invalid expression sre_constants.error: bogus escape (end of line) 

А падает просто от того что регэксп заканчивается на слеш.
Kalashnikov ★★★
( 19.12.12 17:26:25 MSK ) автор топика
Ответ на: комментарий от Kalashnikov 19.12.12 17:26:25 MSK

А, тьфу, но почему тогда работает с тремя слешами а не с двумя?

Просто дело в том, что регекспы — это сам по себе язык программирования. Поэтому, у тебя идет два этапа экранирования — питоновское экранирование, и экранирование самого движка регекспов. То есть, питон в литерале r’\\\1′ делает три бекслеша, а уже движок регекспов из первых двух бекслешей делает один, а из \1 делает подстановку группы. Просто надо всегда разделять эти два этапа, тогда все станет понятно.

А падает просто от того что регэксп заканчивается на слеш.

Да, регексп не может заканчиваться на слеш, и эту ошибку как раз выдает движок регулярок. Для питона «\\» — это обычный литерал.

Ввод-вывод, оператор присваивания, арифметические операции

Функция print может выводить не только значения переменных, но и значения любых выражений. Например, допустима запись print(2 + 2 ** 2) . Также при помощи функции print можно выводить значение не одного, а нескольких выражений, для этого нужно перечислить их через запятую:

a = 1 
b = 2
print(a, '+', b, '=', a + b)

В данном случае будет напечатан текст 1 + 2 = 3 : сначала выводится зание переменной a , затем строка из знака “+”, затем значение переменной b , затем строка из знака “=”, наконец, значение суммы a + b .

Обратите внимание, выводимые значение разделяются одним пробелом. Но такое поведение можно изменить: можно разделять выводимые значения двумя пробелами, любым другим символом, любой другой строкой, выводить их в отдельных строках или не разделять никак. Для этого нужно функции print передать специальный именованный параметр, называемый sep , равный строке, используемый в качестве разделителя (sep — аббревиатура от слова separator, т.е. разделитель). По умолчанию параметр sep равен строке из одного пробела и между значениями выводится пробел. Чтобы использовать в качестве разделителя, например, символ двоеточия нужно передать параметр sep , равный строке ‘:’ :

print(a, b, c, sep = ':')

Аналогично, для того, чтобы совсем убрать разделитель при выводе нужно передать параметр sep , равный пустой строке:

print(a, '+', b, '=', a + b, sep = '')

Для того, чтобы значения выводились с новой строке, нужно в качестве параметра sep передать строку, состоящую из специального символа новой строки, которая задается так:

print(a, b, sep = '\n')

Символ обратного слэша в текстовых строках является указанием на обозначение специального символа, в зависимости от того, какой символ записан после него. Наиболее часто употребляется символ новой строки ‘\n’ . А для того, чтобы вставить в строку сам символ обратного слэша, нужно повторить его два раза: ‘\\’ .

Вторым полезным именованным параметром функции print является параметр end , который указывает на то, что выводится после вывода всех значений, перечисленных в функции print . По умолчанию параметр end равен ‘\n’ , то есть следующий вывод будет происходить с новой строки. Этот параметр также можно исправить, например, для того, чтобы убрать все дополнительные выводимые символы можно вызывать функцию print так:

print(a, b, c, sep = '', end = '')

Спецсимволы, экранирование символов, raw-строки

Теперь, когда познакомились со строками и их методами, пришло время узнать, какие специальные символы могут содержать строки в Питоне. С одним из них мы уже сталкивались – это символ перевода строки:

Я напомню, например, когда задается многострочная строка:

text = """hello python"""

то в ней автоматически добавляет этот символ перевода между строками:

'hello\npython'

Причем, это один символ, хотя он и выглядит как два символа: обратный слеш и n. Мы в этом легко можем убедиться, если воспользоваться функцией:

len(text)

Получим значения 12 = 5 + 6 + 1 – как раз число символов в двух строках плюс один символ перевода строки.

Мало того, мы можем его явно прописывать в любой строке, формируя многострочный текст, например, так:

t = "panda needs\npython"

и, выводя эту строку с помощью функции:

print(t)

увидим две строки.

Все их запоминать совсем не обязательно, на практике используются, в основном:

Значительно реже другие варианты. И, обратите внимание, перед каждым спецсимволом записан символ обратного слеша. Это, своего рода, маркер начала спецсимвола. И если после слеша идет одно из обозначений таблицы, то оно будет восприниматься как некая управляющая последовательность.

Давайте я все это продемонстрирую на примерах. Добавим в строку символ табуляции:

t = "\tpanda needs\npython"

Теперь функция print() интерпретирует его, как особый горизонтальный отступ:

print(t)

Если же мы уберем букву t:

t = "\panda needs\npython"

то при печати увидим просто обратный слеш. В действительности, здесь сработала последняя строчка таблицы: когда не подходит ни одна последовательность, то просто печатается обратный слеш.

Но здесь нужно быть осторожным. Предположим, что мы слово needs хотим заключить в обратные слеши:

t = "panda \needs\ python"

Однако, при печати:

print(t)

первый слеш пропадет, так как он будет восприниматься началом спецпоследовательности символа переноса строки. Поэтому, для добавления символа обратного слеша в строку, следует записывать два обратных слеша подряд:

t = "panda \\needs\\ python"

Тогда в строке они будут автоматически заменены на один символ слеша и при выводе мы это и видим. Это называется экранированием, когда мы символы с двойным назначением записываем, добавляя перед ними обратный слеш. В данном случае получаем двойной слеш.

Часто такие символы следует прописывать при определении путей к файлам. Как мы знаем, в ОС Windows маршруты имеют вид:

Здесь фигурируют обратные слеши для разделения каталогов. Чтобы правильно описать такой путь, слеши следует экранировать:

path = "D:\\Python\\Projects\\stepik\\tex1.py"
print(path)

видим, что маршрут определен верно. Если бы слеши не были экранированы, то получили бы неверный путь к файлу:

path = "D:\Python\Projects\stepik\tex1.py"

Вот этот момент следует хорошо запомнить.

Кроме обратного слеша экранировать также следует и кавычки. Например, мы хотим сформировать строку:

s = "Марка вина "Ягодка""

Внутри этой строки имеются кавычки. Но эти же самые кавычки определяют начало и конец строки в Python. Поэтому такая запись приведет к синтаксической ошибке. Чтобы все работало корректно, нужно выполнить экранирование кавычек:

s = "Марка вина \"Ягодка\""

Или, в данном случае, можно было бы использовать одинарные кавычки для определения строки, а внутри нее записать двойные:

s = 'Марка вина "Ягодка"'

Но на практике рекомендуется всегда выполнять экранирование таких символов, чтобы избежать случайных ошибок. Например, в этой строке уже нельзя просто так записать одинарные кавычки:

s = 'Марка вина 'Ягодка''

Снова получим синтаксическую ошибку, их нужно экранировать:

s = 'Марка вина \'Ягодка\''

В завершение этого занятия отмечу, что в Python можно задавать, так называемые, сырые (row) строки. Это строки, в которых игнорируются спецпоследовательности и все символы воспринимаются буквально так, как записаны. Например, если взять строку с путем к файлу:

path = "D:\\Python\\Projects\\stepik\\tex1.py"

то сейчас, при отображении, мы видим по одному слешу:

print(path)

Но, если определить эту же строку, как сырую, добавив букву r перед ней:

path = r"D:\\Python\\Projects\\stepik\\tex1.py"

то при печати увидим по два слеша, именно так, как прописали. Поэтому, в таких строках можно убрать спецопределения и записывать строку буквально так, как она должна выглядеть:

path = r"D:\Python\Projects\stepik\tex1.py"

На этом мы завершим наше очередное занятие по Python. Из него вы должны хорошо себе представлять, что такое спецсимволы и экранирование символов. Какие основные спецсимволы для строк существуют и как определяются сырые строки.

Видео по теме

#1. Первое знакомство с Python Установка на компьютер

#2. Варианты исполнения команд. Переходим в PyCharm

#3. Переменные, оператор присваивания, функции type и id

#4. Числовые типы, арифметические операции

#5. Математические функции и работа с модулем math

#6. Функции print() и input(). Преобразование строк в числа int() и float()

#7. Логический тип bool. Операторы сравнения и операторы and, or, not

#8. Введение в строки. Базовые операции над строками

#9. Знакомство с индексами и срезами строк

#10. Основные методы строк

#11. Спецсимволы, экранирование символов, row-строки

#12. Форматирование строк: метод format и F-строки

#13. Списки — операторы и функции работы с ними

#14. Срезы списков и сравнение списков

#15. Основные методы списков

#16. Вложенные списки, многомерные списки

#17. Условный оператор if. Конструкция if-else

#18. Вложенные условия и множественный выбор. Конструкция if-elif-else

#19. Тернарный условный оператор. Вложенное тернарное условие

#20. Оператор цикла while

#21. Операторы циклов break, continue и else

#22. Оператор цикла for. Функция range()

#23. Примеры работы оператора цикла for. Функция enumerate()

#24. Итератор и итерируемые объекты. Функции iter() и next()

#25. Вложенные циклы. Примеры задач с вложенными циклами

#26. Треугольник Паскаля как пример работы вложенных циклов

#27. Генераторы списков (List comprehensions)

#28. Вложенные генераторы списков

#29. Введение в словари (dict). Базовые операции над словарями

#30. Методы словаря, перебор элементов словаря в цикле

#31. Кортежи (tuple) и их методы

#32. Множества (set) и их методы

#33. Операции над множествами, сравнение множеств

#34. Генераторы множеств и генераторы словарей

#35. Функции: первое знакомство, определение def и их вызов

#36. Оператор return в функциях. Функциональное программирование

#37. Алгоритм Евклида для нахождения НОД

#38. Именованные аргументы. Фактические и формальные параметры

#39. Функции с произвольным числом параметров *args и **kwargs

#40. Операторы * и ** для упаковки и распаковки коллекций

#41. Рекурсивные функции

#42. Анонимные (lambda) функции

#43. Области видимости переменных. Ключевые слова global и nonlocal

#44. Замыкания в Python

#45. Введение в декораторы функций

#46. Декораторы с параметрами. Сохранение свойств декорируемых функций

#47. Импорт стандартных модулей. Команды import и from

#48. Импорт собственных модулей

#49. Установка сторонних модулей (pip install). Пакетная установка

#50. Пакеты (package) в Python. Вложенные пакеты

#51. Функция open. Чтение данных из файла

#52. Исключение FileNotFoundError и менеджер контекста (with) для файлов

#53. Запись данных в файл в текстовом и бинарном режимах

#54. Выражения генераторы

#55. Функция-генератор. Оператор yield

#56. Функция map. Примеры ее использования

#57. Функция filter для отбора значений итерируемых объектов

#58. Функция zip. Примеры использования

#59. Сортировка с помощью метода sort и функции sorted

#60. Аргумент key для сортировки коллекций по ключу

#61. Функции isinstance и type для проверки типов данных

#62. Функции all и any. Примеры их использования

#63. Расширенное представление чисел. Системы счисления

#64. Битовые операции И, ИЛИ, НЕ, XOR. Сдвиговые операторы

#65. Модуль random стандартной библиотеки

#66. Аннотация базовыми типами

#67. Аннотации типов коллекций

#68. Аннотации типов на уровне классов

#69. Конструкция match/case. Первое знакомство

#70. Конструкция match/case с кортежами и списками

#71. Конструкция match/case со словарями и множествами

#72. Конструкция match/case. Примеры и особенности использования

© 2023 Частичное или полное копирование информации с данного сайта для распространения на других ресурсах, в том числе и бумажных, строго запрещено. Все тексты и изображения являются собственностью сайта

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *