Aws-cli: aws s3 ls - ¿buscar archivos por fecha de modificación?

Creado en 21 ene. 2015 · 87Comentarios · Fuente: aws/aws-cli

Hola,
Nos gustaría poder buscar en un depósito con muchos miles (probablemente aumentando a cientos de miles) de objetos y carpetas / prefijos para encontrar objetos que se agregaron o actualizaron recientemente. Ejecutar aws s3 ls en todo el depósito varias veces al día y luego ordenar la lista parece ineficaz. ¿Hay alguna manera de solicitar simplemente una lista de objetos con un tiempo modificado <,>, = una determinada marca de tiempo?

Además, ¿se nos cobra una vez por la solicitud aws s3 ls o una vez por cada uno de los objetos devueltos por la solicitud?

Nuevo en github, ojalá supiera lo suficiente para contribuir con el código real ... agradezco la ayuda.

guidance

Fuente

ChrisSLT

👍34

Comentario más útil

@jwieder Esto no ayuda al usuario a reducir el número de llamadas de lista a s3. Digamos que todos los días almacena ~ 1000 artículos de noticias en un cubo. Luego, en el lado del cliente, desea obtener artículos de los últimos 3 días de forma predeterminada (y más solo si se solicita explícitamente). Tener que buscar una lista de todos los artículos desde el principio de los tiempos, digamos 100k, lleva tiempo y acumula costos de red (porque una sola llamada a la lista devolverá solo hasta 1000 artículos). Sería mucho mejor poder decir "Dame una lista de elementos creados / modificados desde hace 3 días".

PuchatekwSzortach en 18 ene. 2016

👍78

Todos 87 comentarios

La API de S3 no admite esto, por lo que la única forma de hacerlo simplemente usando S3 es hacer una clasificación del lado del cliente.

En cuanto a los precios de S3 , usamos una solicitud ListObjects que devuelve 1000 objetos a la vez. Por lo tanto, se le cobrará una solicitud LIST por cada 1000 objetos cuando use aws s3 ls .

Otra alternativa es almacenar un índice auxiliar fuera de S3, por ejemplo, dynamodb. Avíseme si tiene alguna otra pregunta.

jamesls en 27 ene. 2015

👎176 👍2

Gracias

ChrisSLT en 27 ene. 2015

Aunque esta funcionalidad parece estar ausente en aws-cli, es bastante fácil escribirla en bash. Por ejemplo:

#!/bin/bash
DATE=$(date +%Y-%m-%d)
aws s3 ls s3://bucket.example.com/somefolder/ | grep ${DATE}

jwieder en 15 ene. 2016

👎23 👍3

PuchatekwSzortach en 18 ene. 2016

👍78

¡Exactamente!

El domingo 17 de enero de 2016 a las 11:53 p.m., PuchatekwSzortach <
[email protected]> escribió:

@jwieder https://github.com/jwieder Esto no ayuda a que el usuario disminuya
número de listas de llamadas a s3. Di que todos los días almacenas ~ 1000 noticias
artículos en un balde. Luego, en el lado del cliente, desea obtener artículos de los últimos 3
días de forma predeterminada (y más solo si se solicita explícitamente). Tener que buscar un
lista de todos los artículos desde el principio de los tiempos, digamos 100k, lleva tiempo
y acumula costos de red (porque una sola lista de llamadas solo devolverá
hasta 1000 artículos). Sería mucho mejor poder decir "Dame una lista de
elementos creados / modificados desde hace 3 días ".
-
Responda a este correo electrónico directamente o véalo en GitHub
https://github.com/aws/aws-cli/issues/1104#issuecomment -172425517.

ChrisSLT en 18 ene. 2016

👍8

@PuchatekwSzortach @ChrisSLT Tienes razón, lo siento por mi respuesta

mientras lee -r nombreArchivo
hacer
if ["$ fileName" == "$ HOY"]; luego
aws s3 sync $ BUCKETURL / some / local / directorio --excluir "*" --incluir "$ fileName"
fi
hecho <"$ FILE"

Donde $ FILE es su índice de nombre de archivo local y $ TODAY es la fecha que está buscando. Deberá cambiar la condición en este bucle, pero es de esperar que esto le pueda dar una idea.

Hacer las cosas de esta manera lo libera de cualquier cargo relacionado con la inclusión de los archivos en su depósito; pero también depende del cliente que está realizando la búsqueda para tener acceso a la lista de archivos locales ... dependiendo de la arquitectura de su aplicación / sistema que podría hacer que este tipo de enfoque sea inviable. De todos modos, espero que esto ayude y me disculpo de nuevo por mi respuesta anterior.

jwieder en 19 ene. 2016

👍7

De acuerdo y gracias

El martes 19 de enero de 2016 a las 10:00 a. M., Josh Wieder [email protected]
escribió:

@PuchatekwSzortach https://github.com/PuchatekwSzortach @ChrisSLT
https://github.com/ChrisSLT Tienes razón, lo siento por mi pobre respuesta; y
Estoy de acuerdo en que este tipo de funcionalidad sería muy útil en aws-cli. los
combinación de dejar de lado esta función básica y facturación de listados de archivos
es muy sospechoso. Hasta que AWS deje de gastar dinero e introduzca la lista de
propiedades del archivo, aquí hay otra idea que he usado que es más relevante
a este hilo, entonces mi primera respuesta: para archivos que necesitan ser rastreados en este
De esta forma, los archivos se nombran con una marca de tiempo. Una lista de archivos se almacena en un local
archivo de texto (o podría ser db si tiene miles de millones de archivos de los que preocuparse).
La búsqueda de una fecha implica abrir el archivo, buscar nombres de archivo
que coincida con la fecha de hoy podría verse así:
mientras lee -r nombreArchivo
hacer
if ["$ fileName" == "$ HOY"]; luego
aws s3 sync $ BUCKETURL / some / local / directorio --excluir "*" --incluir
"$ fileName"
fi
hecho <"$ FILE"
Donde $ FILE es su índice de nombre de archivo local y $ TODAY es la fecha en la que está
buscando. Deberá cambiar la condición en este bucle, pero
Con suerte, esto puede darte una idea.
Hacer las cosas de esta manera lo libera de cualquier cargo relacionado con la inclusión de
archivos en su cubo; pero también depende del cliente que estés realizando
la búsqueda de tener acceso a la lista de archivos locales ... dependiendo de su
arquitectura de aplicación / sistema que podría hacer que este tipo de enfoque
inviable. De todos modos, espero que esto ayude y me disculpo de nuevo por mi
respuesta burlona.
-
Responda a este correo electrónico directamente o véalo en GitHub
https://github.com/aws/aws-cli/issues/1104#issuecomment -172878454.

ChrisSLT en 19 ene. 2016

Hay una forma de hacer esto con s3api y la función --query. Esto se prueba en OSX
aws s3api list-objects --bucket "bucket-name" --query 'Contenido [? LastModified> = 2016-05-20 ] []. {Key: Key}'
luego puede filtrar usando jq o grep para hacer el procesamiento con las otras funciones de s3api.

Editar: no estoy seguro de por qué no aparecen, pero debe usar comillas invertidas para rodear la fecha que está consultando

willstruebing en 25 may. 2016

👍73 👎7 😕3

¿Es posible que cree carpetas para cada día y de esa manera, accederá solo a los archivos de hoy o, como máximo, a las carpetas de ayer para obtener los archivos más recientes?

snandyala en 27 may. 2016

👍3

si. Aunque puede que le resulte más fácil simplemente usar un prefijo de fecha para sus claves (no puede consultar una combinación de nombre de depósito / nombre de carpeta con la opción --bucket). El uso del prefijo de fecha le permitirá usar la marca --prefix en la cli y acelerar sus consultas, como recomienda AWS, usar números o hashes al principio de los nombres de las claves para aumentar los tiempos de respuesta.

willstruebing en 31 may. 2016

@willstruebing , su solución aún no reduce la cantidad de llamadas a la API de S3, la complejidad de las consultas del lado del servidor o la cantidad de datos enviados por cable. El parámetro --query realiza únicamente el filtrado de jmespath del lado del cliente.

kislyuk en 20 feb. 2017

👍18 👎1

@kislyuk Estoy completamente de acuerdo en que no responde a los problemas de eficiencia. Sin embargo, mi intención era responder a la pregunta específica:

Is there a way to simply request a list of objects with a modified time <, >, = a certain timestamp?

Esa pregunta básica es cómo terminé en este hilo, por lo que pensé que era razonable incluir una respuesta. El problema está etiquetado como "aws s3 ls - ¿buscar archivos por fecha de modificación?".

Me encantaría escuchar las ideas de cualquiera sobre las partes de eficiencia de la pregunta, ya que yo mismo no tengo una y todavía tengo curiosidad.

willstruebing en 20 feb. 2017

👍9

#for i en s3cmd ls | awk {'print $3'} ; hacer aws s3 ls $ i --recursive; hecho >> s3-full.out

sreeninair en 15 jun. 2017

¿Cuál es el valor predeterminado para los archivos de retorno de AWS? ¿Los devuelve en orden alfabético, o por la modificación más reciente, o cuál es el criterio que se utiliza cuando solicita su primer lote de 1000 nombres de archivo?

Estoy de acuerdo en que ciertamente debería haber algún tipo de filtro (ordenar por fecha, por nombre, etc.) que pueda usar cuando solicite archivos ... definitivamente una característica que falta. :(

jshrek en 24 nov. 2017

👍25

Estoy de acuerdo en que este filtrado debe ser del lado del servidor y es una necesidad básica.

don1uppa en 6 mar. 2018

👍48

+1 para consultas / filtrado del lado del servidor

mpapetti en 8 mar. 2018

+1 para el filtrado del lado del servidor

bugking en 28 mar. 2018

Todavía es muy necesario, +1

chescales en 9 abr. 2018

De acuerdo con @chescales y el resto, +1 al filtrado del lado del servidor

alecdotico en 1 may. 2018

👍5

tonymporter en 22 may. 2018

likeshumidity en 4 jun. 2018

jamieshiz en 7 jun. 2018

ramsaybell en 18 jun. 2018

PeterSzegedi en 18 jun. 2018

marouanehassanioptimistik en 18 jun. 2018

dubrox en 26 jun. 2018

👍1

gFaro en 27 jun. 2018

ZedYeung en 29 jun. 2018

AlexBantiuc en 10 jul. 2018

TheAvgTech en 17 jul. 2018

GitHubUUP en 18 jul. 2018

kinkerl en 20 jul. 2018

¿Cómo es que esto ya no es una característica?

+100000

AdamShechter9 en 24 jul. 2018

+ 1e999

inletjenkins en 25 jul. 2018

utenakr en 27 jul. 2018

duginivijay en 27 jul. 2018

dlahyani en 1 ago. 2018

shuklaneerajdev en 1 ago. 2018

ilsundal en 1 ago. 2018

dmasyukov en 7 ago. 2018

muhufuk en 13 ago. 2018

CoeusCC en 15 ago. 2018

+65535

ysyyork en 16 ago. 2018

😄7 👍5

El comentario de @willstruebing funcionó para mí, por ejemplo:

aws s3api list-objects --bucket "mybucket" --prefix "some/prefix" --query "Contents[?LastModified>=`2018-08-22`].{Key: Key}"

oh no importa - ¡Después de ver el tráfico de red desde este comando, veo que todas las claves aún se están descargando desde s3 y aws cli está haciendo el filtrado del lado del cliente!

gfody en 22 ago. 2018

👍8

igiloh en 23 oct. 2018

tomisaacson en 24 oct. 2018

Alex-Willenbrink en 29 oct. 2018

naveen-venkat en 30 oct. 2018

¿Qué pasa con los filtros --excluir e --incluir?

! / bin / bash

FECHA = $ (fecha +% Y-% m-% d)
aws s3 ls s3: //bucket.example.com/somefolder/ --exclude " " --include " $ {DATE} *"

umjohndacosta en 31 oct. 2018

Ak-sky en 9 nov. 2018

nalinguptalinux en 12 nov. 2018

+1 millón

HarveyEV en 6 dic. 2018

😄9 👎1

mduca en 5 ene. 2019

+ ∞

Besjan en 22 ene. 2019

+ ∞ + 1

matneves en 24 ene. 2019

dvidr en 1 feb. 2019

umeshksingla en 2 feb. 2019

genki0406 en 3 feb. 2019

parhamfh en 5 feb. 2019

gubbaraviteja en 8 mar. 2019

dmead en 19 mar. 2019

farzaa en 21 mar. 2019

+1 :( :(

souuu en 26 mar. 2019

Creo que es parte del modelo de precios de AWS, almacenamiento súper barato pero de pago para acceder. Bueno para archivos grandes, pero lo arruinará si desea consultar / administrar millones de archivos pequeños.

mehditlili en 10 abr. 2019

davidfetter en 18 abr. 2019

Supongo que por eso crearon Atenea. ¿Otra forma de facturar mientras se agregan algunas campanas y silbidos?

nickfreemandesign en 24 abr. 2019

antgus en 15 may. 2019

nshaf en 16 may. 2019

joshx0rfz en 21 may. 2019

Tengo que enumerar los objetos del cubo s3 que se modifican entre dos fechas, por ejemplo. 2019-06-08 hasta 2019-06-11

alguna idea alguien?

hemantkhokhar en 11 jun. 2019

aws s3api list-objects --bucket "BUCKET" --prefix "OPTIONAL" --query "Contents[?LastModified>='2019-06-08'][].{Key: Key,LastModified: LastModified}" y luego use JQ o su herramienta preferida para filtrar después del 2019-06-11

willstruebing en 11 jun. 2019

👍2

Eso no elimina las llamadas a la API. Esas consultas son del lado de los clientes.

El martes 11 de junio de 2019 a las 2:07 p.m. willstruebing [email protected]
escribió:

aws s3api list-objects --bucket "BUCKET" --prefix "OPTIONAL" --query
"Contenido [? LastModified> = '2019-06-08'] []. {Key: Key, LastModified:
LastModified} "y luego use JQ o su herramienta preferida para filtrar después
2019-06-11
-
Estás recibiendo esto porque hiciste un comentario.
Responda a este correo electrónico directamente, véalo en GitHub
https://github.com/aws/aws-cli/issues/1104?email_source=notifications&email_token=AABLGMW5AFAU5BUNM7FEMZ3PZ7SV3A5CNFSM4A2VNZ2KYY3PNVWWK3TUL52HS4DVDMVREXWWK3TUL52HS4DFVVORXWWK3TUL52HS4DFVVREXWG43 ,
o silenciar el hilo
https://github.com/notifications/unsubscribe-auth/AABLGMVTIZDPPIEUK2CZR6TPZ7SV3ANCNFSM4A2VNZ2A
.

dmead en 11 jun. 2019

👍1

@dmead Estoy completamente de acuerdo. Sin embargo, la funcionalidad para hacer el filtrado del lado del servidor no existe actualmente (creo que es por eso que tanta gente termina en esta publicación en particular), por lo que esta es la única solución que conozco para completar la tarea en cuestión. ¿Tiene alguna forma de hacerlo del lado del servidor o es solo una observación sobre la solución propuesta? Me encantaría escuchar información sobre cómo hacerlo Y reducir la cantidad de llamadas a la API.

willstruebing en 12 jun. 2019

Si tiene tiempo, buscaría seleccionar metadatos en Athena. I
Yo mismo no he tenido la oportunidad, pero eso parecía una posible solución.

El miércoles 12 de junio de 2019 a las 10:28 a.m. willstruebing [email protected]
escribió:

@dmead https://github.com/dmead Estoy completamente de acuerdo. sin embargo, el
La funcionalidad para hacer el filtrado del lado del servidor no existe actualmente (creo
es por eso que tantas personas terminan en esta publicación en particular), así que esta es la
única solución alternativa que conozco para completar la tarea en cuestión. Tienes un
forma de hacerlo del lado del servidor o es sólo una observación sobre la propuesta
¿solución? Me encantaría escuchar opiniones sobre cómo hacerlo Y reducir la cantidad de
Llamadas a API.
-
Recibes esto porque te mencionaron.
Responda a este correo electrónico directamente, véalo en GitHub
https://github.com/aws/aws-cli/issues/1104?email_source=notifications&email_token=AABLGMTQZD6OWVH4KDMSJPLP2EBY7A5CNFSM4A2VNZ2KYY3PNVWWK3TUL52HS4DVDMVREXWWK3TUL52HS4DVDMVREXWWK3TUL52HS4DFVVREXWG43 ,
o silenciar el hilo
https://github.com/notifications/unsubscribe-auth/AABLGMRLA5OYSYGEYNPUY5DP2EBY7ANCNFSM4A2VNZ2A
.

dmead en 12 jun. 2019

+24

miryee en 1 ago. 2019

Todos los que votan a favor de esto, archivarlo con AWS CLI no ayuda. AWS CLI está vinculado por S3. Presente el archivo con el equipo de S3 en lugar de con el github de una herramienta si desea que se solucione: P

mike-bailey en 14 ago. 2019

👍2

@ mike-bailey OK, ¿y cómo lo hago?

baharev en 18 ago. 2019

👍2

Si fuera yo personalmente, presentaría un ticket de AWS para que llegue al equipo de servicio. Pero no trabajo para AWS. Solo sé que comentar '+1' sobre esto no va a ser el cambio.

mike-bailey en 18 ago. 2019

Hay una forma de hacer esto con s3api y la función --query. Esto se prueba en OSX
aws s3api list-objects --bucket "bucket-name" --query 'Contenido [? LastModified> = 2016-05-20 ] []. {Key: Key}'
luego puede filtrar usando jq o grep para hacer el procesamiento con las otras funciones de s3api.
Editar: no estoy seguro de por qué no aparecen, pero debe usar comillas invertidas para rodear la fecha que está consultando

Asegúrese de tener la última versión de awscli antes de probar esta respuesta. Yo actualicé
awscli 1.11.47 -> 1.16.220
e hizo el temido filtrado del lado del cliente, pero funcionó.
+1 para filtrado del lado del servidor.

kamalptw en 20 ago. 2019

jaidisido en 17 nov. 2019

itsUnsmart en 15 dic. 2019

Por favor, lea el hilo, +1 no hace nada

mike-bailey en 15 dic. 2019

👍1

No puede hacer esto fácilmente, pero enterrado en estos comentarios se encuentra el siguiente consejo:

 aws s3api list-objects --bucket "bucket-name" --query 'Contents[?LastModified>=`2016-05-20`][].{Key: Key}'

Esto sigue siendo del lado del cliente y realizará muchas solicitudes.

atcol en 22 dic. 2019

👍1

Sin embargo, como se señaló anteriormente, lo maneja del lado del cliente. De modo que todavía potencialmente golpea el cubo con llamadas.

mike-bailey en 22 dic. 2019

👍1

El filtrado debe ser del lado del servidor y es una necesidad básica, creo.

akhilrajvc en 3 ene. 2020

👍2 👎1

A continuación, se muestra un ejemplo en el que se utiliza aws s3 sync para que solo se descarguen archivos nuevos. Combina los registros en un archivo de registro y elimina los comentarios antes de guardar el archivo. Luego puede usar grep y cosas para obtener datos de registro. En mi caso, necesitaba contar visitas únicas a un archivo específico. Este código a continuación fue adaptado de este enlace: https://shapeshed.com/aws-cloudfront-log/ El comando sed también funciona en Mac y es diferente de lo que está en el artículo. ¡Espero que esto ayude!

aws s3 sync s3://<YOUR_BUCKET> .
cat *.gz > combined.log.gz
gzip -d combined.log.gz
sed -i '' '/^#/ d' combined.log

# counts unique logs for px.gif hits
grep '/px.gif' combined.log | cut -f 1,8 | sort | uniq -c | sort -n -r

# above command will return something like below. The total count followed by the date and the file name.
17 2020-01-02 /px.gif
 9 2020-01-03 /px.gif

bansawbanchee en 3 ene. 2020

Sé que es un problema antiguo, pero para dejar una solución elegante aquí:

aws s3api list-objects --output = text --query "Contenido [? LastModified> = <DATE_YOU_WANT_TO_START> ]. {Key: Key}"

bes1002t en 7 may. 2020

👎4

¿Fue útil esta página

0 / 5 - 0 calificaciones

Temas relacionados

No se puede instalar en Mac

rahul003 · 3Comentarios

RDS --vpc-security-group-ids no admite varios grupos

motilevy · 3Comentarios

¿Alguien puede ayudarme a crear una tabla de DynamoDB con índice secundario local usando AWS cli?

975204 · 3Comentarios

No se puede pasar la lista en la CLI para Tipo: List<:ec2::subnet::id i="4"/>

brettswift · 3Comentarios

Error al analizar el parámetro '--targets': Esperado: '=', recibido: ''' para la entrada: '{"Clave":"etiqueta:Nombre","Valores":["LDAPHost_env-sandbox"]}'

hapx101 · 3Comentarios